خالق صدای ChatGPT میخواهد این فناوری را از «Her» منهای دیستوپیا بسازد.

الکسیس کانیو در مورد فیلم “او” بسیار فکر می کند. در چند سال گذشته، او در تلاش برای تبدیل فناوری صدای تخیلی فیلم، سامانتا، به واقعیت وسواس داشت.
کانیو حتی از تصویری از شخصیت خواکین فینیکس در فیلم به عنوان بنر خود در توییتر استفاده می کند.
با حالت پیشرفته صدای ChatGPT، پروژه ای که Conneau پس از انجام کارهای مشابه در Meta در OpenAI شروع کرد، او به نوعی آن را انجام داد. سیستم هوش مصنوعی به صورت بومی گفتار را پردازش می کند و بسیار شبیه به یک انسان صحبت می کند.
اکنون، او یک استارتاپ جدید به نام WaveForms AI دارد که در تلاش است چیزی بهتر بسازد.
او در مصاحبه ای با TechCrunch گفت که کانیو زمان زیادی را صرف فکر کردن در مورد چگونگی جلوگیری از دیستوپیایی می کند که در آن فیلم نشان داده شده است. «او» یک فیلم علمی تخیلی درباره جهانی بود که در آن مردم به جای انسانهای دیگر با سیستمهای هوش مصنوعی ارتباط صمیمی برقرار میکنند.
«فیلم یک دیستوپیا است، درست است؟ این آیندهای نیست که ما میخواهیم.» ما میخواهیم آن فناوری را – که اکنون وجود دارد و وجود خواهد داشت – بیاوریم و میخواهیم آن را برای همیشه به ارمغان بیاوریم. ما میخواهیم دقیقا برعکس کاری که شرکت در آن فیلم انجام میدهد، انجام دهیم.»
ساختن فناوری، منهای دیستوپیایی که با آن همراه است، یک تناقض به نظر می رسد. اما Conneau قصد دارد به هر حال آن را بسازد، و او متقاعد شده است که استارتاپ جدید هوش مصنوعی او به مردم کمک می کند تا AGI را با گوش خود احساس کنند.
روز دوشنبه، Conneau WaveForms AI را راه اندازی کرد، یک شرکت جدید صوتی LLM که مدل های پایه خود را آموزش می دهد. این شرکت قصد دارد محصولات صوتی هوش مصنوعی را در سال 2025 منتشر کند که با پیشنهادات OpenAI و Google رقابت می کنند. روز دوشنبه اعلام کرد که این استارت آپ 40 میلیون دلار سرمایه اولیه را به رهبری آندریسن هوروویتز اعلام کرد.
کانیو می گوید مارک آندرسن – که قبلاً آن را نوشته بود هوش مصنوعی باید بخشی از هر جنبه ای از زندگی انسان باشد – علاقه شخصی به تلاش خود داشته است.
شایان ذکر است که وسواس کانیو در مورد فیلم “Her” ممکن است در یک نقطه OpenAI را با مشکل مواجه کرده باشد. اسکارلت جوهانسون در اوایل سال جاری یک تهدید قانونی برای استارتاپ سام آلتمن ارسال کرد و در نهایت OpenAI را مجبور کرد یکی از صداهای ChatGPT را که به شدت شبیه شخصیت او در فیلم بود، حذف کند. OpenAI هرگز تلاش برای تکرار صدای او را تکذیب کرد.
اما نمی توان انکار کرد که این فیلم چقدر روی کانیو تأثیر گذاشته است. «Her» در سال 2013 به وضوح علمی تخیلی بود – در آن زمان سیری اپل کاملاً جدید و بسیار محدود بود. اما امروزه این فناوری به طرز ترسناکی در دسترس است.
پلتفرمهای همراه هوش مصنوعی مانند Character.AI به میلیونها کاربر در هفته دسترسی پیدا میکنند که فقط میخواهند با چتباتهای آن صحبت کنند. این بخش به عنوان یک مورد استفاده محبوب برای هوش مصنوعی مولد در حال ظهور است – علیرغم پیامدهای گهگاهی غم انگیز و ناراحت کننده. میتوانید تصور کنید که چگونه شخصی که تمام روز با یک ربات چت تایپ میکند، دوست دارد این فرصت را نیز داشته باشد که با آن صحبت کند، بهویژه با استفاده از فناوری قانعکنندهای مانند حالت صدای پیشرفته ChatGPT.
مدیر عامل WaveForms AI نسبت به فضای همراهی هوش مصنوعی محتاط است و این هسته اصلی شرکت جدید او نیست. در حالی که او فکر میکند مردم از محصولات WaveForms به روشهای جدیدی استفاده میکنند – مانند صحبت کردن با یک هوش مصنوعی به مدت 20 دقیقه در ماشین برای یادگیری چیزی – Conneau میگوید که میخواهد این شرکت “افقیتر” باشد.
“[WaveForms AI] میدانید میتوانید معلمی باشد که الهامبخش باشد، شاید معلمی باشد که حداقل در زندگی فیزیکیتان نداشته باشید.»
در آینده، او معتقد است که صحبت با هوش مصنوعی مولد روش رایج تری برای تعامل با انواع فناوری خواهد بود. این ممکن است شامل صحبت کردن با ماشین شما و صحبت کردن با کامپیوتر شما باشد. هدف WaveForms ارائه هوش مصنوعی “هوشمند عاطفی” است که همه چیز را تسهیل می کند.
کانیو گفت: «من به آینده ای که تعامل انسان با هوش مصنوعی جایگزین تعامل انسان با انسان شود، اعتقاد ندارم. “اگر چیزی باشد، مکمل خواهد بود.”
او می گوید هوش مصنوعی می تواند از اشتباهات رسانه های اجتماعی درس بگیرد. به عنوان مثال، او فکر میکند که هوش مصنوعی نباید برای «زمان صرف شده در پلتفرم»، معیاری رایج برای موفقیت اپلیکیشنهای اجتماعی که میتوانند عادات ناسالم، مانند Doomscrolling را ترویج کنند، بهینه شود. به طور گستردهتر، او میخواهد مطمئن شود که هوش مصنوعی WaveForms با بهترین منافع انسانها هماهنگ است و این را «مهمترین کاری که میتوانید انجام دهید» مینامد.
Conneau می گوید که نام OpenAI برای پروژه خود، “Advanced Voice Mode” واقعاً تفاوت این فناوری با حالت صدای معمولی ChatGPT را نشان نمی دهد.
حالت صوتی قدیمی واقعاً فقط صدای شما را به متن ترجمه می کرد، آن را از طریق GPT-4 اجرا می کرد و سپس آن متن را به گفتار تبدیل می کرد. این یک راه حل تا حدی هک شده بود. با این حال، با حالت پیشرفته صوتی، Conneau میگوید که GPT-4o در واقع صدای صدای شما را به توکنها تقسیم میکند (ظاهراً هر ثانیه صدا برابر با سه نشانه است) و آن نشانهها را مستقیماً از طریق یک مدل ترانسفورماتور مخصوص صدا اجرا میکند. . او توضیح داد که این همان چیزی است که حالت صوتی پیشرفته را قادر میسازد تا تأخیر کمی داشته باشد.
یکی از ادعاهایی که هنگام صحبت در مورد مدل های صوتی هوش مصنوعی زیاد مطرح می شود این است که ظاهراً آنها می توانند “احساسات” را درک کنند. درست مانند LLM های مبتنی بر متن بر اساس الگوهای موجود در انبوهی از اسناد متنی هستند، LLM های صوتی نیز همین کار را با کلیپ های صوتی صحبت کردن انسان ها انجام می دهند. انسانها این کلیپها را بهعنوان «غمگین» یا «هیجانانگیز» برچسبگذاری میکنند تا مدلهای هوش مصنوعی با شنیدن صدای شما، الگوهای صدای مشابه را تشخیص دهند و حتی با لحنهای احساسی خودشان پاسخ دهند. بنابراین کمتر “احساسات” را درک می کنند و بیشتر به طور سیستماتیک کیفیت های صوتی را که انسان ها با آن احساسات مرتبط می کنند، تشخیص می دهند.
ایجاد هوش مصنوعی با شخصیت تر، نه باهوش تر
Conneau شرط میبندد که هوش مصنوعی مولد امروز برای ایجاد محصولات بهتر نیازی به هوشمندتر شدن از GPT-4o ندارد. به جای بهبود هوش زیربنایی این مدلها، مانند OpenAI با o1، WaveForms به سادگی سعی میکند هوش مصنوعی را برای صحبت با آنها بهتر کند.
بازاری از مردم وجود خواهد داشت [using generative AI] چه کسی فقط تعاملی را انتخاب می کند که برای آنها لذت بخش ترین باشد.»
به همین دلیل است که استارتآپ مطمئن است که میتواند مدلهای بنیادی خود را توسعه دهد – در حالت ایدهآل، مدلهای کوچکتر که هزینه کمتر و اجرای سریعتری دارند. با توجه به شواهد اخیر مبنی بر کاهش سرعت قوانین قدیمی مقیاسبندی هوش مصنوعی، این شرط بدی نیست.
کونیو میگوید که همکار سابقش در OpenAI، ایلیا سوتسکور، اغلب در مورد تلاش برای «احساس AGI» با او صحبت میکرد – اساساً با استفاده از یک احساس درونی برای ارزیابی اینکه آیا ما به هوش مصنوعی فوقهوشمند رسیدهایم یا خیر. مدیر عامل WaveForms متقاعد شده است که دستیابی به AGI به جای رسیدن به نوعی معیار، بیشتر یک احساس خواهد بود، و LLM های صوتی کلید این احساس خواهند بود.
کانیو با تکرار اظهاراتی که به Sutskever در مورد آن داده بود، گفت: «من فکر میکنم وقتی بتوانید با آن صحبت کنید، زمانی که بتوانید AGI را بشنوید، زمانی که واقعاً بتوانید با خود ترانسفورماتور صحبت کنید، AGI را خیلی بیشتر احساس کنید. شام
اما از آنجایی که استارتآپها هوش مصنوعی را برای صحبت با آنها بهتر میکنند، به وضوح این مسئولیت را نیز بر عهده دارند که چگونه مطمئن شوند مردم معتاد نمیشوند. با این حال، شریک عمومی Andreessen Horowitz، Martin Casado، که به رهبری سرمایه گذاری در WaveForms کمک کرد، می گوید اگر مردم بیشتر با هوش مصنوعی صحبت کنند، لزوما چیز بدی نیست.
من میتوانم با یک فرد تصادفی در اینترنت صحبت کنم، و آن شخص میتواند مرا مورد آزار و اذیت قرار دهد، آن شخص میتواند از من سوء استفاده کند… کاسادو در مصاحبه با TechCrunch گفت. “من فکر می کنم این یک مطالعه سوال مهم است. اگر چنین شود تعجب نخواهم کرد [talking to AI] در واقع ارجح است.»
برخی از شرکتها ممکن است شخصی را که رابطهای عاشقانه با هوش مصنوعی شما ایجاد میکند به عنوان نشانهای از موفقیت در نظر بگیرند. اما از نقطهنظر اجتماعی، میتوان آن را بهعنوان نشانهای از شکست کامل در نظر گرفت، دقیقاً مانند فیلمی که «او» سعی کرد به تصویر بکشد. این همان طناب محکمی است که WaveForms اکنون باید طی کند.