کار آفرینی و استارتاپ

Cartesia ادعا می کند که هوش مصنوعی آن به اندازه کافی کارآمد است که می تواند تقریباً در هر مکانی اجرا شود


توسعه و اجرای هوش مصنوعی پرهزینه تر می شود. هزینه های عملیات هوش مصنوعی OpenAI می تواند رسیدن 7 میلیارد دلار در سال جاری، در حالی که مدیر عامل آنتروپیک اخیراً این مدل ها را پیشنهاد کرده است هزینه یابی بیش از 10 میلیارد دلار می تواند به زودی برسد.

بنابراین تلاش برای یافتن راه‌هایی برای ارزان‌تر کردن هوش مصنوعی ادامه دارد.

برخی از محققان بر روی تکنیک‌هایی برای بهینه‌سازی معماری‌های مدل موجود تمرکز می‌کنند – به عنوان مثال ساختار و اجزایی که باعث می‌شوند مدل‌ها علامت‌گذاری شوند. برخی دیگر در حال توسعه معماری های جدیدی هستند که معتقدند امکان ارتقای مقرون به صرفه بهتری دارند.

کاران گوئل در اردوی دوم حضور دارد. در استارتاپ او به همتایانی کمک کرد، کارتزیا، گوئل روی آنچه مدل های فضای حالت (SSM) می نامد کار می کند، یک معماری مدل جدیدتر و بسیار کارآمد که می تواند حجم زیادی از داده ها – متن، تصاویر و غیره – را به یکباره مدیریت کند.

گوئل به TechCrunch گفت: «ما معتقدیم معماری‌های مدل جدید برای ساخت مدل‌های هوش مصنوعی واقعاً مفید ضروری هستند. صنعت هوش مصنوعی یک فضای رقابتی است، هم تجاری و هم منبع باز، و ساخت بهترین مدل برای موفقیت بسیار مهم است.

ریشه های تحصیلی

قبل از پیوستن به Cartesia، گوئل یک کاندیدای دکترا در آزمایشگاه هوش مصنوعی استنفورد بود، جایی که زیر نظر دانشمند کامپیوتر کریستوفر ری و دیگران کار می کرد. زمانی که گوئل در استنفورد بود، با آلبرت گو، یکی دیگر از کاندیدای دکترا در آزمایشگاه ملاقات کرد و آن دو طرح کردند که چه چیزی به SSM تبدیل خواهد شد.

گوئل سرانجام در Snorkel AI و سپس Salesforce به مشاغل پاره وقت مشغول شد، در حالی که گو دستیار استاد در Carnegie Mellon شد. اما گو و گوئل به مطالعه SSMها ادامه دادند و چندین مورد را منتشر کردند محوری مقالات تحقیقاتی در مورد معماری

در سال 2023، گو و گوئل – به همراه دو نفر از همتایان سابق خود در استنفورد، آرجون دسای و براندون یانگ – تصمیم گرفتند برای راه‌اندازی کارتزیا برای تجاری‌سازی تحقیقات خود به نیروها بپیوندند.

تیم موسس Cartesia از چپ به راست: براندون یانگ، کاران گوئل، آلبرت گو و آرجون دسای. اعتبار تصویر:کارتزیا

Cartesia، که تیم موسس آن نیز Ré را شامل می شود، پشت بسیاری از مشتقات Mamba است که شاید محبوب ترین SSM امروزی باشد. پروفسور گو و پرینستون، تری دائو، Mamba را به عنوان یک پروژه تحقیقاتی باز در دسامبر گذشته آغاز کرد و به اصلاح آن از طریق انتشارات بعدی ادامه داد.

Cartesia علاوه بر آموزش SSM های خود، در بالای Mamba ساخته می شود. مانند همه SSMها، Cartesia به هوش مصنوعی چیزی شبیه حافظه کاری می‌دهد و مدل‌ها را در نحوه استفاده از قدرت محاسباتی سریع‌تر و احتمالاً کارآمدتر می‌کند.

SSM ها در مقابل ترانسفورماتورها

امروزه اکثر برنامه‌های هوش مصنوعی، از ChatGPT گرفته تا Sora، از مدل‌هایی با معماری ترانسفورماتور پشتیبانی می‌کنند. همانطور که یک ترانسفورماتور داده ها را پردازش می کند، ورودی هایی را به چیزی به نام “حالت پنهان” اضافه می کند تا آنچه را که پردازش کرده است “به خاطر بیاورد”. به عنوان مثال، اگر مدل راه خود را در یک کتاب طی می کند، مقادیر حالت پنهان ممکن است بازنمایی کلمات در کتاب باشد.

حالت پنهان بخشی از دلایل قدرتمند بودن ترانسفورماتورها است. اما علت ناکارآمدی آنها نیز هست. برای “گفتن” حتی یک کلمه در مورد کتابی که یک ترانسفورماتور به تازگی بلعیده است، مدل باید تمام حالت پنهان آن را اسکن کند – کاری به اندازه خواندن مجدد کل کتاب از نظر محاسباتی سخت است.

در مقابل، SSMها هر نقطه داده قبلی را به صورت خلاصه ای از همه چیزهایی که قبلا دیده اند فشرده می کنند. با ورود داده های جدید، “وضعیت” مدل به روز می شود و SSM بیشتر داده های قبلی را کنار می گذارد.

نتیجه؟ SSM ها می توانند حجم زیادی از داده ها را مدیریت کنند و در عین حال عملکرد بهتری از ترانسفورماتورها در برخی وظایف تولید داده دارند. با هزینه های استنتاج به همان صورتی که هستند، این یک پیشنهاد جذاب است.

دغدغه های اخلاقی

Cartesia مانند یک آزمایشگاه تحقیقاتی جامعه عمل می کند و SSM ها را در آن توسعه می دهد مشارکت با سازمان های خارجی و همچنین داخلی. Sonic، جدیدترین پروژه این شرکت، یک SSM است که می تواند صدای یک فرد را شبیه سازی کند یا صدای جدیدی تولید کند و آهنگ و آهنگ را در ضبط تنظیم کند.

گوئل ادعا می کند که سونیک، که از طریق API و داشبورد وب در دسترس است، سریع ترین مدل در کلاس خود است. او گفت: «سونیک نشان می‌دهد که چگونه SSMها بر روی داده‌های متنی طولانی مانند صدا برتری می‌یابند، در حالی که بالاترین نوار عملکرد را در مورد ثبات و دقت حفظ می‌کنند.

کارتزیا
مدل Sonic Cartesia می تواند گفتار را تا حد زیادی سفارشی کند، از جمله PROSODY. اعتبار تصویر:کارتزیا

در حالی که Cartesia موفق شده است محصولات را به سرعت ارسال کند، اما در بسیاری از مشکلات اخلاقی که سایر مدل سازان هوش مصنوعی را گرفتار کرده است، برخورد کرده است.

کارتزیا آموزش دیده است حداقل برخی از SSMهای آن در The Pile، مجموعه‌ای از داده‌های باز که حاوی کتاب‌های دارای حق چاپ بدون مجوز است. بسیاری از شرکت های هوش مصنوعی این را استدلال می کنند استفاده منصفانه دکترین آنها را در برابر ادعاهای نقض محافظت می کند. اما این مانع از شکایت نویسندگان نشده است متا و مایکروسافت، به علاوه دیگران، به دلیل آموزش مدل های ادعایی در The Pile.

و Cartesia تدابیر ظاهری کمی برای شبیه‌سازی صوتی خود که از طریق Sonic پشتیبانی می‌کند، دارد. چند هفته پیش، توانستم با استفاده از سخنرانی های کمپین، صدای معاون رئیس جمهور کامالا هریس را شبیه سازی کنم (در زیر گوش دهید). ابزار Cartesia فقط مستلزم این است که کادری را علامت بزنید که نشان می‌دهد از ToS استارت‌آپ پیروی می‌کنید.

Cartesia لزوماً از این نظر بدتر از سایر ابزارهای شبیه سازی صوتی موجود در بازار نیست. با گزارش هایی از ضرب و شتم کلون های صوتی چک های امنیتی بانکیبا این حال، اپتیک شگفت انگیز نیست.

گوئل نمی گوید که Cartesia دیگر در The Pile به آموزش مدل نمی پردازد. اما او به مسائل مربوط به تعدیل پرداخت و به TechCrunch گفت که Cartesia سیستم‌های «بازبینی خودکار و دستی» را در اختیار دارد و «روی سیستم‌هایی برای تأیید صوت و واترمارک کار می‌کند».

گوئل گفت: “ما تیم های اختصاصی داریم که جنبه هایی مانند عملکرد فنی، سوء استفاده و سوگیری را آزمایش می کنند.” ما همچنین در حال ایجاد مشارکت با حسابرسان خارجی هستیم تا تأیید مستقل بیشتری از ایمنی و قابلیت اطمینان مدل‌هایمان ارائه دهیم… ما تشخیص می‌دهیم که این یک فرآیند مداوم است که نیاز به اصلاح مداوم دارد.»

پس از انتشار این داستان، یک نماینده روابط عمومی برای Cartesia از طریق ایمیل گفت که این شرکت “دیگر مدل های The Pile را آموزش نمی دهد.”

کسب و کار نوپا

گوئل می گوید که «هزاران» مشتری برای دسترسی به API Sonic، خط اصلی درآمد Cartesia، از جمله برنامه تماس خودکار Goodcall، پرداخت می کنند. API Cartesia برای حداکثر 100000 کاراکتر با صدای بلند خوانده می‌شود و گران‌ترین طرح آن با 299 دلار در ماه برای 8 میلیون کاراکتر، رایگان است. (Cartesia همچنین یک سطح سازمانی با پشتیبانی اختصاصی و محدودیت های سفارشی ارائه می دهد.)

به‌طور پیش‌فرض، Cartesia از داده‌های مشتریان برای بهبود محصولات خود استفاده می‌کند – سیاستی که سابقه نداشته است، اما بعید است که با کاربرانی که از حفظ حریم خصوصی آگاه هستند خوشایند باشد. Goel خاطرنشان می کند که کاربران در صورت تمایل می توانند انصراف دهند و Cartesia سیاست های حفظ سفارشی را برای سازمان های بزرگتر ارائه می دهد.

به نظر نمی‌رسد که شیوه‌های داده‌های Cartesia به کسب‌وکار آسیبی وارد نمی‌کند – حداقل نه در حالی که Cartesia یک مزیت فنی دارد. باب سامرز، مدیرعامل Goodcall می‌گوید که سونیک را انتخاب کرد زیرا تنها مدل تولید صدا با تاخیر زیر 90 میلی ثانیه

“[It] سامرز اضافه کرد که بهترین جایگزین بعدی خود را با ضریب چهار برابری کرد.

Goodcall
سرویس “عامل” هوش مصنوعی Goodcall به API Sonic Cartesia متکی است. اعتبار تصویر:Goodcall

امروزه از Sonic برای بازی، دوبله صدا و موارد دیگر استفاده می شود. اما گوئل فکر می‌کند که این تنها کاری است که SSMها می‌توانند انجام دهند.

دیدگاه او مدل‌هایی است که روی هر دستگاهی اجرا می‌شوند و هر نوع داده – متن، تصویر، ویدئو و غیره – را تقریباً بلافاصله درک و تولید می‌کنند. در گامی کوچک به این سمت، Cartesia تابستان امسال نسخه بتای Sonic On-Device را راه‌اندازی کرد، نسخه‌ای از Sonic که برای اجرا بر روی تلفن‌ها و سایر دستگاه‌های تلفن همراه برای برنامه‌هایی مانند ترجمه بلادرنگ بهینه شده است.

در کنار Sonic On-Device، Cartesia Edge را منتشر کرد، یک کتابخانه نرم افزاری برای بهینه سازی SSM ها برای پیکربندی های سخت افزاری مختلف، و رنه، یک مدل زبان فشرده.

گوئل گفت: “ما یک چشم انداز بزرگ و بلند مدت برای تبدیل شدن به مدل پایه چندوجهی برای هر دستگاه داریم.” «نقشه راه بلندمدت ما شامل توسعه مدل‌های هوش مصنوعی چندوجهی با هدف ایجاد هوش در زمان واقعی است که می‌تواند در زمینه‌های عظیم استدلال کند.»

اگر قرار باشد این اتفاق بیفتد، Cartesia باید مشتریان بالقوه جدید را متقاعد کند که معماری آن ارزش منحنی یادگیری را دارد. همچنین باید از سایر فروشندگانی که جایگزین های ترانسفورماتور را آزمایش می کنند جلوتر باشد.

استارت آپ Zephyra، میسترالو آزمایشگاه های AI21 مدل های ترکیبی مبتنی بر Mamba را آموزش داده اند. در جاهای دیگر، Liquid AI، به رهبری دانشمند روباتیک دانیلا روس، در حال توسعه معماری خود است.

گوئل ادعا می کند که کارتزیا 26 کارمند برای موفقیت در موقعیت مناسبی قرار دارد – تا حدی به لطف تزریق پول نقد جدید. این شرکت در این ماه یک دور سرمایه گذاری 22 میلیون دلاری به رهبری Index Ventures را بست و مجموع سرمایه Cartesia را به 27 میلیون دلار رساند.

شاردول شاه، شریک Index Ventures، فناوری Cartesia را می بیند که روزی برنامه های خدمات مشتری، فروش و بازاریابی، روباتیک، امنیت و موارد دیگر را هدایت می کند.

او گفت: «کارتزیا با به چالش کشیدن اتکای سنتی به معماری‌های مبتنی بر ترانسفورماتور، راه‌های جدیدی را برای ساخت برنامه‌های هوش مصنوعی در زمان واقعی، مقرون‌به‌صرفه و مقیاس‌پذیر باز کرده است.» بازار خواهان مدل‌های سریع‌تر و کارآمدتر است که می‌توانند در هر کجا اجرا شوند – از مراکز داده گرفته تا دستگاه‌ها. فناوری Cartesia به طور منحصر به فردی آماده است تا به این وعده عمل کند و موج بعدی نوآوری هوش مصنوعی را هدایت کند.

A* Capital، Conviction، General Catalyst، Lightspeed، و SV Angel نیز در آخرین دور سرمایه گذاری Cartesia مستقر در سانفرانسیسکو شرکت کردند.

TechCrunch یک خبرنامه متمرکز بر هوش مصنوعی دارد! اینجا ثبت نام کنید تا هر چهارشنبه آن را در صندوق پستی خود دریافت کنید.



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا