Cartesia ادعا می کند که هوش مصنوعی آن به اندازه کافی کارآمد است که می تواند تقریباً در هر مکانی اجرا شود

توسعه و اجرای هوش مصنوعی پرهزینه تر می شود. هزینه های عملیات هوش مصنوعی OpenAI می تواند رسیدن 7 میلیارد دلار در سال جاری، در حالی که مدیر عامل آنتروپیک اخیراً این مدل ها را پیشنهاد کرده است هزینه یابی بیش از 10 میلیارد دلار می تواند به زودی برسد.
بنابراین تلاش برای یافتن راههایی برای ارزانتر کردن هوش مصنوعی ادامه دارد.
برخی از محققان بر روی تکنیکهایی برای بهینهسازی معماریهای مدل موجود تمرکز میکنند – به عنوان مثال ساختار و اجزایی که باعث میشوند مدلها علامتگذاری شوند. برخی دیگر در حال توسعه معماری های جدیدی هستند که معتقدند امکان ارتقای مقرون به صرفه بهتری دارند.
کاران گوئل در اردوی دوم حضور دارد. در استارتاپ او به همتایانی کمک کرد، کارتزیا، گوئل روی آنچه مدل های فضای حالت (SSM) می نامد کار می کند، یک معماری مدل جدیدتر و بسیار کارآمد که می تواند حجم زیادی از داده ها – متن، تصاویر و غیره – را به یکباره مدیریت کند.
گوئل به TechCrunch گفت: «ما معتقدیم معماریهای مدل جدید برای ساخت مدلهای هوش مصنوعی واقعاً مفید ضروری هستند. صنعت هوش مصنوعی یک فضای رقابتی است، هم تجاری و هم منبع باز، و ساخت بهترین مدل برای موفقیت بسیار مهم است.
ریشه های تحصیلی
قبل از پیوستن به Cartesia، گوئل یک کاندیدای دکترا در آزمایشگاه هوش مصنوعی استنفورد بود، جایی که زیر نظر دانشمند کامپیوتر کریستوفر ری و دیگران کار می کرد. زمانی که گوئل در استنفورد بود، با آلبرت گو، یکی دیگر از کاندیدای دکترا در آزمایشگاه ملاقات کرد و آن دو طرح کردند که چه چیزی به SSM تبدیل خواهد شد.
گوئل سرانجام در Snorkel AI و سپس Salesforce به مشاغل پاره وقت مشغول شد، در حالی که گو دستیار استاد در Carnegie Mellon شد. اما گو و گوئل به مطالعه SSMها ادامه دادند و چندین مورد را منتشر کردند محوری مقالات تحقیقاتی در مورد معماری
در سال 2023، گو و گوئل – به همراه دو نفر از همتایان سابق خود در استنفورد، آرجون دسای و براندون یانگ – تصمیم گرفتند برای راهاندازی کارتزیا برای تجاریسازی تحقیقات خود به نیروها بپیوندند.
Cartesia، که تیم موسس آن نیز Ré را شامل می شود، پشت بسیاری از مشتقات Mamba است که شاید محبوب ترین SSM امروزی باشد. پروفسور گو و پرینستون، تری دائو، Mamba را به عنوان یک پروژه تحقیقاتی باز در دسامبر گذشته آغاز کرد و به اصلاح آن از طریق انتشارات بعدی ادامه داد.
Cartesia علاوه بر آموزش SSM های خود، در بالای Mamba ساخته می شود. مانند همه SSMها، Cartesia به هوش مصنوعی چیزی شبیه حافظه کاری میدهد و مدلها را در نحوه استفاده از قدرت محاسباتی سریعتر و احتمالاً کارآمدتر میکند.
SSM ها در مقابل ترانسفورماتورها
امروزه اکثر برنامههای هوش مصنوعی، از ChatGPT گرفته تا Sora، از مدلهایی با معماری ترانسفورماتور پشتیبانی میکنند. همانطور که یک ترانسفورماتور داده ها را پردازش می کند، ورودی هایی را به چیزی به نام “حالت پنهان” اضافه می کند تا آنچه را که پردازش کرده است “به خاطر بیاورد”. به عنوان مثال، اگر مدل راه خود را در یک کتاب طی می کند، مقادیر حالت پنهان ممکن است بازنمایی کلمات در کتاب باشد.
حالت پنهان بخشی از دلایل قدرتمند بودن ترانسفورماتورها است. اما علت ناکارآمدی آنها نیز هست. برای “گفتن” حتی یک کلمه در مورد کتابی که یک ترانسفورماتور به تازگی بلعیده است، مدل باید تمام حالت پنهان آن را اسکن کند – کاری به اندازه خواندن مجدد کل کتاب از نظر محاسباتی سخت است.
در مقابل، SSMها هر نقطه داده قبلی را به صورت خلاصه ای از همه چیزهایی که قبلا دیده اند فشرده می کنند. با ورود داده های جدید، “وضعیت” مدل به روز می شود و SSM بیشتر داده های قبلی را کنار می گذارد.
نتیجه؟ SSM ها می توانند حجم زیادی از داده ها را مدیریت کنند و در عین حال عملکرد بهتری از ترانسفورماتورها در برخی وظایف تولید داده دارند. با هزینه های استنتاج به همان صورتی که هستند، این یک پیشنهاد جذاب است.
دغدغه های اخلاقی
Cartesia مانند یک آزمایشگاه تحقیقاتی جامعه عمل می کند و SSM ها را در آن توسعه می دهد مشارکت با سازمان های خارجی و همچنین داخلی. Sonic، جدیدترین پروژه این شرکت، یک SSM است که می تواند صدای یک فرد را شبیه سازی کند یا صدای جدیدی تولید کند و آهنگ و آهنگ را در ضبط تنظیم کند.
گوئل ادعا می کند که سونیک، که از طریق API و داشبورد وب در دسترس است، سریع ترین مدل در کلاس خود است. او گفت: «سونیک نشان میدهد که چگونه SSMها بر روی دادههای متنی طولانی مانند صدا برتری مییابند، در حالی که بالاترین نوار عملکرد را در مورد ثبات و دقت حفظ میکنند.

در حالی که Cartesia موفق شده است محصولات را به سرعت ارسال کند، اما در بسیاری از مشکلات اخلاقی که سایر مدل سازان هوش مصنوعی را گرفتار کرده است، برخورد کرده است.
کارتزیا آموزش دیده است حداقل برخی از SSMهای آن در The Pile، مجموعهای از دادههای باز که حاوی کتابهای دارای حق چاپ بدون مجوز است. بسیاری از شرکت های هوش مصنوعی این را استدلال می کنند استفاده منصفانه دکترین آنها را در برابر ادعاهای نقض محافظت می کند. اما این مانع از شکایت نویسندگان نشده است متا و مایکروسافت، به علاوه دیگران، به دلیل آموزش مدل های ادعایی در The Pile.
و Cartesia تدابیر ظاهری کمی برای شبیهسازی صوتی خود که از طریق Sonic پشتیبانی میکند، دارد. چند هفته پیش، توانستم با استفاده از سخنرانی های کمپین، صدای معاون رئیس جمهور کامالا هریس را شبیه سازی کنم (در زیر گوش دهید). ابزار Cartesia فقط مستلزم این است که کادری را علامت بزنید که نشان میدهد از ToS استارتآپ پیروی میکنید.
Cartesia لزوماً از این نظر بدتر از سایر ابزارهای شبیه سازی صوتی موجود در بازار نیست. با گزارش هایی از ضرب و شتم کلون های صوتی چک های امنیتی بانکیبا این حال، اپتیک شگفت انگیز نیست.
گوئل نمی گوید که Cartesia دیگر در The Pile به آموزش مدل نمی پردازد. اما او به مسائل مربوط به تعدیل پرداخت و به TechCrunch گفت که Cartesia سیستمهای «بازبینی خودکار و دستی» را در اختیار دارد و «روی سیستمهایی برای تأیید صوت و واترمارک کار میکند».
گوئل گفت: “ما تیم های اختصاصی داریم که جنبه هایی مانند عملکرد فنی، سوء استفاده و سوگیری را آزمایش می کنند.” ما همچنین در حال ایجاد مشارکت با حسابرسان خارجی هستیم تا تأیید مستقل بیشتری از ایمنی و قابلیت اطمینان مدلهایمان ارائه دهیم… ما تشخیص میدهیم که این یک فرآیند مداوم است که نیاز به اصلاح مداوم دارد.»
پس از انتشار این داستان، یک نماینده روابط عمومی برای Cartesia از طریق ایمیل گفت که این شرکت “دیگر مدل های The Pile را آموزش نمی دهد.”
کسب و کار نوپا
گوئل می گوید که «هزاران» مشتری برای دسترسی به API Sonic، خط اصلی درآمد Cartesia، از جمله برنامه تماس خودکار Goodcall، پرداخت می کنند. API Cartesia برای حداکثر 100000 کاراکتر با صدای بلند خوانده میشود و گرانترین طرح آن با 299 دلار در ماه برای 8 میلیون کاراکتر، رایگان است. (Cartesia همچنین یک سطح سازمانی با پشتیبانی اختصاصی و محدودیت های سفارشی ارائه می دهد.)
بهطور پیشفرض، Cartesia از دادههای مشتریان برای بهبود محصولات خود استفاده میکند – سیاستی که سابقه نداشته است، اما بعید است که با کاربرانی که از حفظ حریم خصوصی آگاه هستند خوشایند باشد. Goel خاطرنشان می کند که کاربران در صورت تمایل می توانند انصراف دهند و Cartesia سیاست های حفظ سفارشی را برای سازمان های بزرگتر ارائه می دهد.
به نظر نمیرسد که شیوههای دادههای Cartesia به کسبوکار آسیبی وارد نمیکند – حداقل نه در حالی که Cartesia یک مزیت فنی دارد. باب سامرز، مدیرعامل Goodcall میگوید که سونیک را انتخاب کرد زیرا تنها مدل تولید صدا با تاخیر زیر 90 میلی ثانیه
“[It] سامرز اضافه کرد که بهترین جایگزین بعدی خود را با ضریب چهار برابری کرد.

امروزه از Sonic برای بازی، دوبله صدا و موارد دیگر استفاده می شود. اما گوئل فکر میکند که این تنها کاری است که SSMها میتوانند انجام دهند.
دیدگاه او مدلهایی است که روی هر دستگاهی اجرا میشوند و هر نوع داده – متن، تصویر، ویدئو و غیره – را تقریباً بلافاصله درک و تولید میکنند. در گامی کوچک به این سمت، Cartesia تابستان امسال نسخه بتای Sonic On-Device را راهاندازی کرد، نسخهای از Sonic که برای اجرا بر روی تلفنها و سایر دستگاههای تلفن همراه برای برنامههایی مانند ترجمه بلادرنگ بهینه شده است.
در کنار Sonic On-Device، Cartesia Edge را منتشر کرد، یک کتابخانه نرم افزاری برای بهینه سازی SSM ها برای پیکربندی های سخت افزاری مختلف، و رنه، یک مدل زبان فشرده.
گوئل گفت: “ما یک چشم انداز بزرگ و بلند مدت برای تبدیل شدن به مدل پایه چندوجهی برای هر دستگاه داریم.” «نقشه راه بلندمدت ما شامل توسعه مدلهای هوش مصنوعی چندوجهی با هدف ایجاد هوش در زمان واقعی است که میتواند در زمینههای عظیم استدلال کند.»
اگر قرار باشد این اتفاق بیفتد، Cartesia باید مشتریان بالقوه جدید را متقاعد کند که معماری آن ارزش منحنی یادگیری را دارد. همچنین باید از سایر فروشندگانی که جایگزین های ترانسفورماتور را آزمایش می کنند جلوتر باشد.
استارت آپ Zephyra، میسترالو آزمایشگاه های AI21 مدل های ترکیبی مبتنی بر Mamba را آموزش داده اند. در جاهای دیگر، Liquid AI، به رهبری دانشمند روباتیک دانیلا روس، در حال توسعه معماری خود است.
گوئل ادعا می کند که کارتزیا 26 کارمند برای موفقیت در موقعیت مناسبی قرار دارد – تا حدی به لطف تزریق پول نقد جدید. این شرکت در این ماه یک دور سرمایه گذاری 22 میلیون دلاری به رهبری Index Ventures را بست و مجموع سرمایه Cartesia را به 27 میلیون دلار رساند.
شاردول شاه، شریک Index Ventures، فناوری Cartesia را می بیند که روزی برنامه های خدمات مشتری، فروش و بازاریابی، روباتیک، امنیت و موارد دیگر را هدایت می کند.
او گفت: «کارتزیا با به چالش کشیدن اتکای سنتی به معماریهای مبتنی بر ترانسفورماتور، راههای جدیدی را برای ساخت برنامههای هوش مصنوعی در زمان واقعی، مقرونبهصرفه و مقیاسپذیر باز کرده است.» بازار خواهان مدلهای سریعتر و کارآمدتر است که میتوانند در هر کجا اجرا شوند – از مراکز داده گرفته تا دستگاهها. فناوری Cartesia به طور منحصر به فردی آماده است تا به این وعده عمل کند و موج بعدی نوآوری هوش مصنوعی را هدایت کند.
A* Capital، Conviction، General Catalyst، Lightspeed، و SV Angel نیز در آخرین دور سرمایه گذاری Cartesia مستقر در سانفرانسیسکو شرکت کردند.
TechCrunch یک خبرنامه متمرکز بر هوش مصنوعی دارد! اینجا ثبت نام کنید تا هر چهارشنبه آن را در صندوق پستی خود دریافت کنید.