PlayAI صداها را بر اساس فرمان شبیه سازی می کند

در سال 2016، حمد سید و محمود فلفل، مهندس سابق واتس اپ، فکر کردند که ساختن یک افزونه متن به گفتار کروم برای مقالات Medium کار درستی است. این افزونه که میتوانست هر داستان متوسطی را با صدای بلند بخواند، در Product Hunt نمایش داده شد. یک سال بعد، یک کسب و کار کامل را ایجاد کرد.
سید به TechCrunch گفت: «ما فرصت بزرگتری را در کمک به افراد و سازمانها دیدیم تا محتوای صوتی واقعی برای برنامههای خود ایجاد کنند. بدون نیاز به ساخت مدل خود، آنها میتوانند تجارب گفتاری با کیفیت انسانی را سریعتر از همیشه به کار گیرند.»
شرکت سید و فلفل، PlayAI (که قبلا PlayHT نام داشت)، خود را به عنوان “رابط صوتی هوش مصنوعی” معرفی می کند. مشتریان می توانند از بین تعدادی از صدای از پیش تعریف شده انتخاب کنند یا یک صدا را شبیه سازی کنند و از API PlayAI برای ادغام متن به گفتار در برنامه های خود استفاده کنند.
ضامن ها به کاربران این امکان را می دهند که آهنگ، آهنگ و تنور صداها را تنظیم کنند.
PlayAI همچنین یک “زمین بازی” را ارائه می دهد که در آن کاربران می توانند فایلی را برای تولید یک نسخه با صدای بلند و داشبوردی برای ایجاد روایت های صوتی صیقلی تر و صداگذاری بارگذاری کنند. اخیراً، این شرکت با ابزارهایی که می تواند برای خودکارسازی وظایفی مانند پاسخ دادن به تماس های مشتریان در یک تجارت مورد استفاده قرار گیرد، وارد بازی «عوامل هوش مصنوعی» شد.
یکی از آزمایشهای جالبتر PlayAI PlayNote است که فایلهای PDF، ویدئوها، عکسها، آهنگها و فایلهای دیگر را به نمایشهایی به سبک پادکست، خلاصههای بلندخوانده، مناظرههای یک به یک و حتی داستانهای کودکان تبدیل میکند. مانند NotebookLM Google، PlayNote یک اسکریپت را از یک فایل یا URL آپلود شده تولید میکند و آن را به مجموعهای از مدلهای هوش مصنوعی میرساند که با هم محصول نهایی را ایجاد میکنند.
من آن را چرخاندم، و نتایج نیمه بد نبود. تنظیمات «پادکست» PlayNote از نظر کیفیت، کلیپهایی را کم و بیش با NotebookLM تولید میکند، و توانایی این ابزار برای دریافت عکسها و ویدیوها، خلاقیتهای جذابی را ایجاد میکند. با توجه به تصویری از ظرف خال مرغ که اخیرا داشتم، PlayNote یک اسکریپت پادکست پنج دقیقه ای در مورد آن نوشت. واقعاً ما در آینده زندگی می کنیم.
مسلما، این ابزار، مانند همه ابزارهای هوش مصنوعی، هر از گاهی مصنوعات و توهمات عجیب و غریب تولید می کند. و در حالی که PlayNote تمام تلاش خود را برای تطبیق یک فایل با فرمتی که شما انتخاب کردهاید انجام میدهد، مثلاً انتظار نداشته باشید که یک پرونده قانونی خشک برای بهترین منبع منبع ایجاد شود. ببینید: شکایت ماسک در برابر OpenAI که به عنوان یک داستان قبل از خواب است:
قالب پادکست PlayNote توسط آخرین مدل PlayAI، PlayDialog، امکان پذیر شده است، که سید می گوید می تواند از “زمینه و تاریخچه” یک مکالمه برای تولید گفتاری استفاده کند که جریان گفتگو را منعکس کند. او ادامه داد: «پلی دیالوگ با استفاده از بافت تاریخی مکالمه برای کنترل عروض، احساسات و سرعت، مکالمه را با ارائه طبیعی و لحن مناسب ارائه میکند.»
PlayAI که رقیب نزدیک ElevenLabs است، بوده است انتقاد کرد در گذشته به دلیل رویکرد آزادسازی آن به ایمنی. ابزار شبیهسازی صوتی این شرکت مستلزم آن است که کاربران کادری را علامت بزنند که نشان میدهد آنها «همه حقوق یا رضایت لازم را برای شبیهسازی صدا دارند» – اما هیچ مکانیزم اجرایی وجود ندارد. من هیچ مشکلی برای ایجاد یک کلون از صدای کامالا هریس از یک ضبط نداشتم.
این مربوط به در نظر گرفتن است بالقوه برای کلاهبرداری و دیپ فیک.

PlayAI همچنین ادعا می کند که به طور خودکار “محتوای جنسی، توهین آمیز، نژادپرستانه یا تهدید آمیز” را شناسایی و مسدود می کند. اما در آزمایش من اینطور نبود. من از کلون هریس برای تولید سخنرانی استفاده کردم که رک و پوست کنده نمی توانم آن را در اینجا جاسازی کنم و یک بار هم پیام هشداری ندیدم.
در همین حال، پورتال اجتماعی PlayNote که پر از محتوای تولید شده عمومی است، دارای فایل هایی با عناوین صریح مانند “زن در حال انجام سکس دهانی”.
سید به من می گوید که PlayAI به گزارش های صداهای شبیه سازی شده بدون رضایت پاسخ می دهد. مثل این یکی، با مسدود کردن کاربر مسئول و حذف فوری صدای شبیه سازی شده. او همچنین ادعا میکند که کلونهای صوتی PlayAI با بالاترین وفاداری، که به 20 دقیقه نمونه صوتی نیاز دارند، قیمت بیشتری دارند (49 دلار در ماه صورتحساب سالانه یا 99 دلار در ماه) از آنچه اکثر کلاهبرداران مایل به پرداخت هستند.
سید گفت: «PlayAI چندین پادمان اخلاقی دارد. ما مکانیسمهای قوی را برای شناسایی اینکه آیا صدایی با استفاده از فناوری ما سنتز شده است یا خیر، پیادهسازی کردهایم. در صورت گزارش هرگونه سوء استفاده، ما فوراً منشأ محتوا را تأیید میکنیم و اقدامات قاطعی برای اصلاح وضعیت و جلوگیری از نقضهای اخلاقی بیشتر انجام میدهیم.»
من مطمئناً امیدوارم که اینطور باشد – و PlayAI از آن دور شود کمپین های بازاریابی با حضور افراد مشهور فناوری. اگر تعدیل PlayAI قوی نباشد، ممکن است با چالشهای قانونی روبرو شود تنسی، که قانونی در مورد کتاب ها دارد که از میزبانی پلتفرم های هوش مصنوعی برای ضبط غیرمجاز صدای افراد جلوگیری می کند.
رویکرد PlayAI برای آموزش هوش مصنوعی شبیه سازی صدا نیز کمی مبهم است. این شرکت ظاهراً به دلایل رقابتی اطلاعات مدلهای خود را از کجا تهیه کرده است.
PlayAI عمدتا از مجموعه داده های باز استفاده می کند، [as well as licensed data] سید گفت و مجموعه داده های اختصاصی که در داخل ساخته می شوند. ما از دادههای کاربر از محصولات در آموزش یا سازندگان برای آموزش مدلها استفاده نمیکنیم. مدلهای ما بر روی میلیونها ساعت گفتار واقعی انسان آموزش دیدهاند و صداهایی را در جنسیتهای مرد و زن در چندین زبان و لهجه ارائه میدهند.
بیشتر مدلهای هوش مصنوعی بر روی دادههای وب عمومی آموزش داده میشوند – برخی از آنها ممکن است دارای حق چاپ یا تحت مجوز محدود باشند. بسیاری از فروشندگان هوش مصنوعی استدلال می کنند که استفاده منصفانه دکترین آنها را در برابر ادعاهای حق چاپ محافظت می کند. اما این موضوع باعث توقف مالکان داده ها نشده است از طرح دعوی حقوقی دسته جمعی مبنی بر اینکه فروشندگان بدون اجازه داده های آنها استفاده کرده اند.
PlayAI مورد شکایت قرار نگرفته است. با این حال، شرایط خدمات آن پیشنهاد می کند در صورتی که کاربران خود را در معرض تهدید قانونی قرار دهند، به ضرر آنها نخواهد بود.
پلتفرمهای شبیهسازی صدا مانند PlayAI با انتقاد بازیگرانی مواجه میشوند که میترسند در نهایت صداگذاری با وکالهای تولید شده توسط هوش مصنوعی جایگزین شود و بازیگران کنترل کمی بر نحوه استفاده از دوبلهای دیجیتال خود داشته باشند.
اتحادیه بازیگران هالیوود SAG-AFTRA با برخی از استارتاپها، از جمله بازار آنلاین استعدادیابی Narrativ و Replica Studios، بهعنوان ترتیبات شبیهسازی صوتی «عادلانه» و «اخلاقی»، قرارداد بسته است. اما حتی این گرهآپها هم از بین رفته است بررسی شدیداز جمله از اعضای خود SAG-AFTRA.
در کالیفرنیا، قوانین شرکتهایی را ملزم میکنند که به ماکت دیجیتالی اجراکننده (مثلاً صدای شبیهسازیشده) تکیه میکنند، شرحی از استفاده مورد نظر از ماکت ارائه دهند و با مشاور حقوقی اجراکننده مذاکره کنند. آنها همچنین نیاز دارند که کارفرمایان سرگرمی قبل از استفاده از شبیه سازی دیجیتالی آن شخص، رضایت دارایی یک مجری متوفی را کسب کنند.
سید میگوید که PlayAI «تضمین میکند» که هر شبیهسازی صوتی که از طریق پلتفرم آن تولید میشود منحصر به سازنده است. وی افزود: «این انحصار برای حفاظت از حقوق خلاقانه کاربران حیاتی است.
افزایش بار قانونی یک باد مخالف برای PlayAI است. دیگری رقابت است. Papercup، Deepdub، Acapela، Respeecher و Voice.ai، و همچنین شرکتهای بزرگ فناوری آمازون، مایکروسافت و گوگل، ابزارهای دوبله و شبیهسازی صدا را با هوش مصنوعی ارائه میدهند. گفته میشود که ElevenLabs فوقالذکر، یکی از معتبرترین فروشندگان شبیهسازی صدا، در حال جمعآوری سرمایه جدید با ارزش بیش از 3 میلیارد دلار است.
با این حال، PlayAI برای یافتن سرمایه گذار مشکلی ندارد. در این ماه، شرکت تحت حمایت Y Combinator یک دور اولیه 21 میلیون دلاری را با همکاری 500 استارتاپ و سرمایهگذاری دوستانه با مشارکت Race Capital، 500 Global و Soma Capital بست.
سید گفت: «سرمایه جدید برای سرمایهگذاری در مدلهای صوتی مولد هوش مصنوعی و پلتفرم عامل صوتی و کوتاهتر کردن زمان کسبوکارها برای ایجاد تجربیات گفتاری با کیفیت انسانی استفاده میشود.» وی افزود که PlayAI قصد دارد نیروی کار ۴۰ نفره خود را گسترش دهد. .