کار آفرینی و استارتاپ

خالق صدای ChatGPT می‌خواهد این فناوری را از «Her» منهای دیستوپیا بسازد.


الکسیس کانیو در مورد فیلم “او” بسیار فکر می کند. در چند سال گذشته، او در تلاش برای تبدیل فناوری صدای تخیلی فیلم، سامانتا، به واقعیت وسواس داشت.

کانیو حتی از تصویری از شخصیت خواکین فینیکس در فیلم به عنوان بنر خود در توییتر استفاده می کند.

بنر X/twitter Conneau (اعتبار تصویر: X)

با حالت پیشرفته صدای ChatGPT، پروژه ای که Conneau پس ​​از انجام کارهای مشابه در Meta در OpenAI شروع کرد، او به نوعی آن را انجام داد. سیستم هوش مصنوعی به صورت بومی گفتار را پردازش می کند و بسیار شبیه به یک انسان صحبت می کند.

اکنون، او یک استارتاپ جدید به نام WaveForms AI دارد که در تلاش است چیزی بهتر بسازد.

او در مصاحبه ای با TechCrunch گفت که کانیو زمان زیادی را صرف فکر کردن در مورد چگونگی جلوگیری از دیستوپیایی می کند که در آن فیلم نشان داده شده است. «او» یک فیلم علمی تخیلی درباره جهانی بود که در آن مردم به جای انسان‌های دیگر با سیستم‌های هوش مصنوعی ارتباط صمیمی برقرار می‌کنند.

«فیلم یک دیستوپیا است، درست است؟ این آینده‌ای نیست که ما می‌خواهیم.» ما می‌خواهیم آن فناوری را – که اکنون وجود دارد و وجود خواهد داشت – بیاوریم و می‌خواهیم آن را برای همیشه به ارمغان بیاوریم. ما می‌خواهیم دقیقا برعکس کاری که شرکت در آن فیلم انجام می‌دهد، انجام دهیم.»

ساختن فناوری، منهای دیستوپیایی که با آن همراه است، یک تناقض به نظر می رسد. اما Conneau قصد دارد به هر حال آن را بسازد، و او متقاعد شده است که استارتاپ جدید هوش مصنوعی او به مردم کمک می کند تا AGI را با گوش خود احساس کنند.

روز دوشنبه، Conneau WaveForms AI را راه اندازی کرد، یک شرکت جدید صوتی LLM که مدل های پایه خود را آموزش می دهد. این شرکت قصد دارد محصولات صوتی هوش مصنوعی را در سال 2025 منتشر کند که با پیشنهادات OpenAI و Google رقابت می کنند. روز دوشنبه اعلام کرد که این استارت آپ 40 میلیون دلار سرمایه اولیه را به رهبری آندریسن هوروویتز اعلام کرد.

کانیو می گوید مارک آندرسن – که قبلاً آن را نوشته بود هوش مصنوعی باید بخشی از هر جنبه ای از زندگی انسان باشد – علاقه شخصی به تلاش خود داشته است.

شایان ذکر است که وسواس کانیو در مورد فیلم “Her” ممکن است در یک نقطه OpenAI را با مشکل مواجه کرده باشد. اسکارلت جوهانسون در اوایل سال جاری یک تهدید قانونی برای استارتاپ سام آلتمن ارسال کرد و در نهایت OpenAI را مجبور کرد یکی از صداهای ChatGPT را که به شدت شبیه شخصیت او در فیلم بود، حذف کند. OpenAI هرگز تلاش برای تکرار صدای او را تکذیب کرد.

اما نمی توان انکار کرد که این فیلم چقدر روی کانیو تأثیر گذاشته است. «Her» در سال 2013 به وضوح علمی تخیلی بود – در آن زمان سیری اپل کاملاً جدید و بسیار محدود بود. اما امروزه این فناوری به طرز ترسناکی در دسترس است.

پلتفرم‌های همراه هوش مصنوعی مانند Character.AI به میلیون‌ها کاربر در هفته دسترسی پیدا می‌کنند که فقط می‌خواهند با چت‌بات‌های آن صحبت کنند. این بخش به عنوان یک مورد استفاده محبوب برای هوش مصنوعی مولد در حال ظهور است – علیرغم پیامدهای گهگاهی غم انگیز و ناراحت کننده. می‌توانید تصور کنید که چگونه شخصی که تمام روز با یک ربات چت تایپ می‌کند، دوست دارد این فرصت را نیز داشته باشد که با آن صحبت کند، به‌ویژه با استفاده از فناوری قانع‌کننده‌ای مانند حالت صدای پیشرفته ChatGPT.

مدیر عامل WaveForms AI نسبت به فضای همراهی هوش مصنوعی محتاط است و این هسته اصلی شرکت جدید او نیست. در حالی که او فکر می‌کند مردم از محصولات WaveForms به روش‌های جدیدی استفاده می‌کنند – مانند صحبت کردن با یک هوش مصنوعی به مدت 20 دقیقه در ماشین برای یادگیری چیزی – Conneau می‌گوید که می‌خواهد این شرکت “افقی‌تر” باشد.

“[WaveForms AI] می‌دانید می‌توانید معلمی باشد که الهام‌بخش باشد، شاید معلمی باشد که حداقل در زندگی فیزیکی‌تان نداشته باشید.»

در آینده، او معتقد است که صحبت با هوش مصنوعی مولد روش رایج تری برای تعامل با انواع فناوری خواهد بود. این ممکن است شامل صحبت کردن با ماشین شما و صحبت کردن با کامپیوتر شما باشد. هدف WaveForms ارائه هوش مصنوعی “هوشمند عاطفی” است که همه چیز را تسهیل می کند.

کانیو گفت: «من به آینده ای که تعامل انسان با هوش مصنوعی جایگزین تعامل انسان با انسان شود، اعتقاد ندارم. “اگر چیزی باشد، مکمل خواهد بود.”

او می گوید هوش مصنوعی می تواند از اشتباهات رسانه های اجتماعی درس بگیرد. به عنوان مثال، او فکر می‌کند که هوش مصنوعی نباید برای «زمان صرف شده در پلت‌فرم»، معیاری رایج برای موفقیت اپلیکیشن‌های اجتماعی که می‌توانند عادات ناسالم، مانند Doomscrolling را ترویج کنند، بهینه شود. به طور گسترده‌تر، او می‌خواهد مطمئن شود که هوش مصنوعی WaveForms با بهترین منافع انسان‌ها هماهنگ است و این را «مهم‌ترین کاری که می‌توانید انجام دهید» می‌نامد.

Conneau می گوید که نام OpenAI برای پروژه خود، “Advanced Voice Mode” واقعاً تفاوت این فناوری با حالت صدای معمولی ChatGPT را نشان نمی دهد.

حالت صوتی قدیمی واقعاً فقط صدای شما را به متن ترجمه می کرد، آن را از طریق GPT-4 اجرا می کرد و سپس آن متن را به گفتار تبدیل می کرد. این یک راه حل تا حدی هک شده بود. با این حال، با حالت پیشرفته صوتی، Conneau می‌گوید که GPT-4o در واقع صدای صدای شما را به توکن‌ها تقسیم می‌کند (ظاهراً هر ثانیه صدا برابر با سه نشانه است) و آن نشانه‌ها را مستقیماً از طریق یک مدل ترانسفورماتور مخصوص صدا اجرا می‌کند. . او توضیح داد که این همان چیزی است که حالت صوتی پیشرفته را قادر می‌سازد تا تأخیر کمی داشته باشد.

یکی از ادعاهایی که هنگام صحبت در مورد مدل های صوتی هوش مصنوعی زیاد مطرح می شود این است که ظاهراً آنها می توانند “احساسات” را درک کنند. درست مانند LLM های مبتنی بر متن بر اساس الگوهای موجود در انبوهی از اسناد متنی هستند، LLM های صوتی نیز همین کار را با کلیپ های صوتی صحبت کردن انسان ها انجام می دهند. انسان‌ها این کلیپ‌ها را به‌عنوان «غمگین» یا «هیجان‌انگیز» برچسب‌گذاری می‌کنند تا مدل‌های هوش مصنوعی با شنیدن صدای شما، الگوهای صدای مشابه را تشخیص دهند و حتی با لحن‌های احساسی خودشان پاسخ دهند. بنابراین کمتر “احساسات” را درک می کنند و بیشتر به طور سیستماتیک کیفیت های صوتی را که انسان ها با آن احساسات مرتبط می کنند، تشخیص می دهند.

ایجاد هوش مصنوعی با شخصیت تر، نه باهوش تر

Conneau شرط می‌بندد که هوش مصنوعی مولد امروز برای ایجاد محصولات بهتر نیازی به هوشمندتر شدن از GPT-4o ندارد. به جای بهبود هوش زیربنایی این مدل‌ها، مانند OpenAI با o1، WaveForms به سادگی سعی می‌کند هوش مصنوعی را برای صحبت با آنها بهتر کند.

بازاری از مردم وجود خواهد داشت [using generative AI] چه کسی فقط تعاملی را انتخاب می کند که برای آنها لذت بخش ترین باشد.»

به همین دلیل است که استارت‌آپ مطمئن است که می‌تواند مدل‌های بنیادی خود را توسعه دهد – در حالت ایده‌آل، مدل‌های کوچک‌تر که هزینه کمتر و اجرای سریع‌تری دارند. با توجه به شواهد اخیر مبنی بر کاهش سرعت قوانین قدیمی مقیاس‌بندی هوش مصنوعی، این شرط بدی نیست.

کونیو می‌گوید که همکار سابقش در OpenAI، ایلیا سوتسکور، اغلب در مورد تلاش برای «احساس AGI» با او صحبت می‌کرد – اساساً با استفاده از یک احساس درونی برای ارزیابی اینکه آیا ما به هوش مصنوعی فوق‌هوشمند رسیده‌ایم یا خیر. مدیر عامل WaveForms متقاعد شده است که دستیابی به AGI به جای رسیدن به نوعی معیار، بیشتر یک احساس خواهد بود، و LLM های صوتی کلید این احساس خواهند بود.

کانیو با تکرار اظهاراتی که به Sutskever در مورد آن داده بود، گفت: «من فکر می‌کنم وقتی بتوانید با آن صحبت کنید، زمانی که بتوانید AGI را بشنوید، زمانی که واقعاً بتوانید با خود ترانسفورماتور صحبت کنید، AGI را خیلی بیشتر احساس کنید. شام

اما از آنجایی که استارت‌آپ‌ها هوش مصنوعی را برای صحبت با آنها بهتر می‌کنند، به وضوح این مسئولیت را نیز بر عهده دارند که چگونه مطمئن شوند مردم معتاد نمی‌شوند. با این حال، شریک عمومی Andreessen Horowitz، Martin Casado، که به رهبری سرمایه گذاری در WaveForms کمک کرد، می گوید اگر مردم بیشتر با هوش مصنوعی صحبت کنند، لزوما چیز بدی نیست.

من می‌توانم با یک فرد تصادفی در اینترنت صحبت کنم، و آن شخص می‌تواند مرا مورد آزار و اذیت قرار دهد، آن شخص می‌تواند از من سوء استفاده کند… کاسادو در مصاحبه با TechCrunch گفت. “من فکر می کنم این یک مطالعه سوال مهم است. اگر چنین شود تعجب نخواهم کرد [talking to AI] در واقع ارجح است.»

برخی از شرکت‌ها ممکن است شخصی را که رابطه‌ای عاشقانه با هوش مصنوعی شما ایجاد می‌کند به عنوان نشانه‌ای از موفقیت در نظر بگیرند. اما از نقطه‌نظر اجتماعی، می‌توان آن را به‌عنوان نشانه‌ای از شکست کامل در نظر گرفت، دقیقاً مانند فیلمی که «او» سعی کرد به تصویر بکشد. این همان طناب محکمی است که WaveForms اکنون باید طی کند.



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا