کار آفرینی و استارتاپ

PlayAI صداها را بر اساس فرمان شبیه سازی می کند


در سال 2016، حمد سید و محمود فلفل، مهندس سابق واتس اپ، فکر کردند که ساختن یک افزونه متن به گفتار کروم برای مقالات Medium کار درستی است. این افزونه که می‌توانست هر داستان متوسطی را با صدای بلند بخواند، در Product Hunt نمایش داده شد. یک سال بعد، یک کسب و کار کامل را ایجاد کرد.

سید به TechCrunch گفت: «ما فرصت بزرگتری را در کمک به افراد و سازمان‌ها دیدیم تا محتوای صوتی واقعی برای برنامه‌های خود ایجاد کنند. بدون نیاز به ساخت مدل خود، آنها می‌توانند تجارب گفتاری با کیفیت انسانی را سریع‌تر از همیشه به کار گیرند.»

شرکت سید و فلفل، PlayAI (که قبلا PlayHT نام داشت)، خود را به عنوان “رابط صوتی هوش مصنوعی” معرفی می کند. مشتریان می توانند از بین تعدادی از صدای از پیش تعریف شده انتخاب کنند یا یک صدا را شبیه سازی کنند و از API PlayAI برای ادغام متن به گفتار در برنامه های خود استفاده کنند.

ضامن ها به کاربران این امکان را می دهند که آهنگ، آهنگ و تنور صداها را تنظیم کنند.

PlayAI همچنین یک “زمین بازی” را ارائه می دهد که در آن کاربران می توانند فایلی را برای تولید یک نسخه با صدای بلند و داشبوردی برای ایجاد روایت های صوتی صیقلی تر و صداگذاری بارگذاری کنند. اخیراً، این شرکت با ابزارهایی که می تواند برای خودکارسازی وظایفی مانند پاسخ دادن به تماس های مشتریان در یک تجارت مورد استفاده قرار گیرد، وارد بازی «عوامل هوش مصنوعی» شد.

ویژگی عامل PlayAI که ابزارهای اتوماسیون را در اطراف موتور تبدیل متن به گفتار شرکت ایجاد می کند. اعتبار تصویر:PlayAI

یکی از آزمایش‌های جالب‌تر PlayAI PlayNote است که فایل‌های PDF، ویدئوها، عکس‌ها، آهنگ‌ها و فایل‌های دیگر را به نمایش‌هایی به سبک پادکست، خلاصه‌های بلندخوانده، مناظره‌های یک به یک و حتی داستان‌های کودکان تبدیل می‌کند. مانند NotebookLM Google، PlayNote یک اسکریپت را از یک فایل یا URL آپلود شده تولید می‌کند و آن را به مجموعه‌ای از مدل‌های هوش مصنوعی می‌رساند که با هم محصول نهایی را ایجاد می‌کنند.

من آن را چرخاندم، و نتایج نیمه بد نبود. تنظیمات «پادکست» PlayNote از نظر کیفیت، کلیپ‌هایی را کم و بیش با NotebookLM تولید می‌کند، و توانایی این ابزار برای دریافت عکس‌ها و ویدیوها، خلاقیت‌های جذابی را ایجاد می‌کند. با توجه به تصویری از ظرف خال مرغ که اخیرا داشتم، PlayNote یک اسکریپت پادکست پنج دقیقه ای در مورد آن نوشت. واقعاً ما در آینده زندگی می کنیم.

مسلما، این ابزار، مانند همه ابزارهای هوش مصنوعی، هر از گاهی مصنوعات و توهمات عجیب و غریب تولید می کند. و در حالی که PlayNote تمام تلاش خود را برای تطبیق یک فایل با فرمتی که شما انتخاب کرده‌اید انجام می‌دهد، مثلاً انتظار نداشته باشید که یک پرونده قانونی خشک برای بهترین منبع منبع ایجاد شود. ببینید: شکایت ماسک در برابر OpenAI که به عنوان یک داستان قبل از خواب است:

قالب پادکست PlayNote توسط آخرین مدل PlayAI، PlayDialog، امکان پذیر شده است، که سید می گوید می تواند از “زمینه و تاریخچه” یک مکالمه برای تولید گفتاری استفاده کند که جریان گفتگو را منعکس کند. او ادامه داد: «پلی دیالوگ با استفاده از بافت تاریخی مکالمه برای کنترل عروض، احساسات و سرعت، مکالمه را با ارائه طبیعی و لحن مناسب ارائه می‌کند.»

PlayAI که رقیب نزدیک ElevenLabs است، بوده است انتقاد کرد در گذشته به دلیل رویکرد آزادسازی آن به ایمنی. ابزار شبیه‌سازی صوتی این شرکت مستلزم آن است که کاربران کادری را علامت بزنند که نشان می‌دهد آنها «همه حقوق یا رضایت لازم را برای شبیه‌سازی صدا دارند» – اما هیچ مکانیزم اجرایی وجود ندارد. من هیچ مشکلی برای ایجاد یک کلون از صدای کامالا هریس از یک ضبط نداشتم.

این مربوط به در نظر گرفتن است بالقوه برای کلاهبرداری و دیپ فیک.

PlayDialog
مدل PlayDialog PlayAI می‌تواند مکالمات دو روزه و «دورو» را ایجاد کند که نسبتاً طبیعی به نظر می‌رسند. اعتبار تصویر:PlayAI

PlayAI همچنین ادعا می کند که به طور خودکار “محتوای جنسی، توهین آمیز، نژادپرستانه یا تهدید آمیز” را شناسایی و مسدود می کند. اما در آزمایش من اینطور نبود. من از کلون هریس برای تولید سخنرانی استفاده کردم که رک و پوست کنده نمی توانم آن را در اینجا جاسازی کنم و یک بار هم پیام هشداری ندیدم.

در همین حال، پورتال اجتماعی PlayNote که پر از محتوای تولید شده عمومی است، دارای فایل هایی با عناوین صریح مانند “زن در حال انجام سکس دهانی”.

سید به من می گوید که PlayAI به گزارش های صداهای شبیه سازی شده بدون رضایت پاسخ می دهد. مثل این یکی، با مسدود کردن کاربر مسئول و حذف فوری صدای شبیه سازی شده. او همچنین ادعا می‌کند که کلون‌های صوتی PlayAI با بالاترین وفاداری، که به 20 دقیقه نمونه صوتی نیاز دارند، قیمت بیشتری دارند (49 دلار در ماه صورتحساب سالانه یا 99 دلار در ماه) از آنچه اکثر کلاهبرداران مایل به پرداخت هستند.

سید گفت: «PlayAI چندین پادمان اخلاقی دارد. ما مکانیسم‌های قوی را برای شناسایی اینکه آیا صدایی با استفاده از فناوری ما سنتز شده است یا خیر، پیاده‌سازی کرده‌ایم. در صورت گزارش هرگونه سوء استفاده، ما فوراً منشأ محتوا را تأیید می‌کنیم و اقدامات قاطعی برای اصلاح وضعیت و جلوگیری از نقض‌های اخلاقی بیشتر انجام می‌دهیم.»

من مطمئناً امیدوارم که اینطور باشد – و PlayAI از آن دور شود کمپین های بازاریابی با حضور افراد مشهور فناوری. اگر تعدیل PlayAI قوی نباشد، ممکن است با چالش‌های قانونی روبرو شود تنسی، که قانونی در مورد کتاب ها دارد که از میزبانی پلتفرم های هوش مصنوعی برای ضبط غیرمجاز صدای افراد جلوگیری می کند.

رویکرد PlayAI برای آموزش هوش مصنوعی شبیه سازی صدا نیز کمی مبهم است. این شرکت ظاهراً به دلایل رقابتی اطلاعات مدل‌های خود را از کجا تهیه کرده است.

PlayAI عمدتا از مجموعه داده های باز استفاده می کند، [as well as licensed data] سید گفت و مجموعه داده های اختصاصی که در داخل ساخته می شوند. ما از داده‌های کاربر از محصولات در آموزش یا سازندگان برای آموزش مدل‌ها استفاده نمی‌کنیم. مدل‌های ما بر روی میلیون‌ها ساعت گفتار واقعی انسان آموزش دیده‌اند و صداهایی را در جنسیت‌های مرد و زن در چندین زبان و لهجه ارائه می‌دهند.

بیشتر مدل‌های هوش مصنوعی بر روی داده‌های وب عمومی آموزش داده می‌شوند – برخی از آنها ممکن است دارای حق چاپ یا تحت مجوز محدود باشند. بسیاری از فروشندگان هوش مصنوعی استدلال می کنند که استفاده منصفانه دکترین آنها را در برابر ادعاهای حق چاپ محافظت می کند. اما این موضوع باعث توقف مالکان داده ها نشده است از طرح دعوی حقوقی دسته جمعی مبنی بر اینکه فروشندگان بدون اجازه داده های آنها استفاده کرده اند.

PlayAI مورد شکایت قرار نگرفته است. با این حال، شرایط خدمات آن پیشنهاد می کند در صورتی که کاربران خود را در معرض تهدید قانونی قرار دهند، به ضرر آنها نخواهد بود.

پلتفرم‌های شبیه‌سازی صدا مانند PlayAI با انتقاد بازیگرانی مواجه می‌شوند که می‌ترسند در نهایت صداگذاری با وکال‌های تولید شده توسط هوش مصنوعی جایگزین شود و بازیگران کنترل کمی بر نحوه استفاده از دوبل‌های دیجیتال خود داشته باشند.

اتحادیه بازیگران هالیوود SAG-AFTRA با برخی از استارتاپ‌ها، از جمله بازار آنلاین استعدادیابی Narrativ و Replica Studios، به‌عنوان ترتیبات شبیه‌سازی صوتی «عادلانه» و «اخلاقی»، قرارداد بسته است. اما حتی این گره‌آپ‌ها هم از بین رفته است بررسی شدیداز جمله از اعضای خود SAG-AFTRA.

در کالیفرنیا، قوانین شرکت‌هایی را ملزم می‌کنند که به ماکت دیجیتالی اجراکننده (مثلاً صدای شبیه‌سازی‌شده) تکیه می‌کنند، شرحی از استفاده مورد نظر از ماکت ارائه دهند و با مشاور حقوقی اجراکننده مذاکره کنند. آنها همچنین نیاز دارند که کارفرمایان سرگرمی قبل از استفاده از شبیه سازی دیجیتالی آن شخص، رضایت دارایی یک مجری متوفی را کسب کنند.

سید می‌گوید که PlayAI «تضمین می‌کند» که هر شبیه‌سازی صوتی که از طریق پلتفرم آن تولید می‌شود منحصر به سازنده است. وی افزود: «این انحصار برای حفاظت از حقوق خلاقانه کاربران حیاتی است.

افزایش بار قانونی یک باد مخالف برای PlayAI است. دیگری رقابت است. Papercup، Deepdub، Acapela، Respeecher و Voice.ai، و همچنین شرکت‌های بزرگ فناوری آمازون، مایکروسافت و گوگل، ابزارهای دوبله و شبیه‌سازی صدا را با هوش مصنوعی ارائه می‌دهند. گفته می‌شود که ElevenLabs فوق‌الذکر، یکی از معتبرترین فروشندگان شبیه‌سازی صدا، در حال جمع‌آوری سرمایه جدید با ارزش بیش از 3 میلیارد دلار است.

با این حال، PlayAI برای یافتن سرمایه گذار مشکلی ندارد. در این ماه، شرکت تحت حمایت Y Combinator یک دور اولیه 21 میلیون دلاری را با همکاری 500 استارتاپ و سرمایه‌گذاری دوستانه با مشارکت Race Capital، 500 Global و Soma Capital بست.

سید گفت: «سرمایه جدید برای سرمایه‌گذاری در مدل‌های صوتی مولد هوش مصنوعی و پلت‌فرم عامل صوتی و کوتاه‌تر کردن زمان کسب‌وکارها برای ایجاد تجربیات گفتاری با کیفیت انسانی استفاده می‌شود.» وی افزود که PlayAI قصد دارد نیروی کار ۴۰ نفره خود را گسترش دهد. .



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا