AssemblyAI برای رونویسی، خلاصه کردن و تعدیل صدا 28 میلیون دلار برای API همه کاره می گیرد – TechCrunch

انفجار در محتوا و رابطهای صوتی و تصویری در چند سال گذشته کاملاً قابل مشاهده بوده است، اما راههای مقابله با تمام رسانههای پشت صحنه کاملاً قابل مشاهده نبوده است. AssemblyAI28 میلیون دلار در بودجه جدید، با هدف تبدیل شدن به راه حل اصلی برای تجزیه و تحلیل گفتار، ارائه دسترسی API بسیار ساده برای رونویسی، خلاصه کردن و در غیر این صورت پی بردن به آنچه در هزاران جریان صوتی در یک زمان میگذرد، دارد.
چندرسانهای در زمان بسیار کوتاهی استاندارد بسیاری از چیزها شده است: تماسهای تلفنی و جلسات به تماسهای ویدیویی تبدیل شدند، پستهای رسانههای اجتماعی به کلیپهای 10 ثانیهای تبدیل شدند، چتباتها یاد گرفتند که صحبت کنند و گفتار را درک کنند. تعداد بیشماری برنامههای کاربردی جدید ظاهر میشوند، و مانند هر صنعت جدید و در حال رشد، مردم باید بتوانند با دادههایی که آن برنامهها تولید میکنند کار کنند تا بتوانند آنها را به خوبی اجرا کنند یا چیزی جدید در بالای آنها بسازند.
مشکل این است که کار با صدا به طور طبیعی آسان نیست. چگونه یک جریان صوتی را “جستجو” می کنید؟ می توانید به شکل موج نگاه کنید یا از طریق آن تمیز کنید، اما به احتمال زیاد می خواهید ابتدا آن را رونویسی کنید و سپس متن حاصل را جستجو کنید. اینجاست که AssemblyAI وارد عمل میشود: اگرچه خدمات رونویسی متعددی وجود دارد، اغلب ادغام آنها در برنامه یا فرآیند سازمانی خود آسان نیست.
مدیرعامل AssemblyAI گفت: «اگر میخواهید تعدیل محتوا، یا جستجو یا خلاصه کردن دادههای صوتی را انجام دهید، باید آن دادهها را به قالبی تبدیل کنید که انعطافپذیرتر باشد و بتوانید ویژگیها و فرآیندهای تجاری را در بالای آن بسازید». بنیانگذار دیلن فاکس بنابراین ما میخواستیم یک API تجزیه و تحلیل گفتار فوقالعاده دقیق بسازیم که هر کسی میتواند آن را صدا کند، حتی در یک هکاتون – مانند ادغام سبک Twilio یا Stripe. مردم برای ایجاد این ویژگیها به کمک زیادی نیاز دارند، اما نمیخواهند تعدادی از ارائهدهندگان را به هم بچسبانند.»
AssemblyAI تعداد انگشت شماری از API های مختلف را ارائه می دهد که می توانید آنها را بسیار ساده فراخوانی کنید (یک یا دو خط کد) و کارهایی مانند “این پادکست را برای محتوای ممنوعه بررسی کنید” یا “شناسایی سخنرانان در این مکالمه” یا “این جلسه را خلاصه کنید. کمتر از 100 کلمه.»
کدگذاری کنید، آن را صدا بزنید، انجام شد. اعتبار تصویر: AssemblyAI
شما ممکن است، همانطور که من بودم، شک داشته باشید که یک شرکت کوچک می تواند ابزارهای کاری برای انجام بسیاری از وظایف به این سادگی تولید کند، با توجه به اینکه وقتی وارد آنها می شوید چقدر این وظایف پیچیده می شوند. فاکس اذعان کرد که این یک چالش است، اما گفت که این فناوری در یک بازه زمانی کوتاه راه طولانی را پیموده است.
او گفت: «به ویژه در چند سال گذشته دقت در این مدلها افزایش سریعی داشته است. «خلاصه، شناسایی احساسات… همه آنها اکنون واقعاً خوب هستند. و ما در واقع در حال پیشرفت هستیم – مدلهای ما بهتر از آنچه در آنجا وجود دارد هستند، زیرا ما یکی از معدود استارتآپهایی هستیم که واقعاً تحقیقات یادگیری عمیق در مقیاس بزرگ انجام میدهند. ما تنها در چند ماه آینده بیش از یک میلیون دلار برای GPU و محاسبات برای تحقیق و توسعه و آموزش هزینه خواهیم کرد.
درک شهودی آن می تواند سخت تر باشد زیرا به راحتی قابل اثبات نیست، اما مدل های زبان درست مانند مواردی مانند تولید تصویر (این ___ وجود ندارد) و بینایی کامپیوتری (Face ID، دوربین های امنیتی) به وجود آمده اند. البته GPT-3 یک مثال آشنا در این زمینه است، اما فاکس اشاره کرد که درک و تولید کلام نوشته شده عملاً یک حوزه تحقیقاتی کاملاً متفاوت از تجزیه و تحلیل مکالمه و گفتار معمولی است. بنابراین، اگرچه پیشرفتهای مشابه در تکنیکهای یادگیری ماشین (مانند ترانسفورماتورها و چارچوبهای آموزشی جدید و کارآمدتر) به هر دو کمک کرده است، اما از بسیاری جهات مانند سیب و پرتقال هستند.
نتیجه، به هر حال، این بوده است که میتوان به سادگی با فراخوانی API، فرآیندهای تعدیل یا خلاصهسازی مؤثر یک کلیپ صوتی را در چند ثانیه یا یک ساعت انجام داد. زمانی که در حال ساختن یا ادغام یک ویژگی مانند ویدئوی کوتاه فرم هستید، بسیار مفید است – اگر انتظار دارید صد هزار کلیپ در هر ساعت آپلود شود، برای اولین بار برای اطمینان از اینکه پورن نیستند، فرآیند شما چگونه است. ، یا کلاهبرداری یا تکراری؟ و چه مدت زمانی که شما آن فرآیند را ایجاد می کنید، راه اندازی به تعویق می افتد؟
در عوض، فاکس امیدوار است، شرکتهایی که در این موقعیت قرار دارند، به دنبال یک راه آسان و موثر به جلو باشند، راهی که اگر با اضافه کردن یک فرآیند پرداخت مواجه میشدند. مطمئناً می توانید یکی از آن ها را از ابتدا بسازید – یا می توانید Stripe را در حدود 15 دقیقه اضافه کنید. این نه تنها اساساً مطلوب است، بلکه به وضوح آنها را از بسته های پیچیده تر و چند سرویسی که محصولات آنالیز صوتی توسط ارائه دهندگان بزرگی مانند مایکروسافت و آمازون را تعریف می کند، جدا می کند.

روباه مورد نظر اعتبار تصویر: ینس پاندورو
این شرکت در حال حاضر صدها مشتری پرداختی دارد که در سال گذشته سه برابر درآمد داشته است و اکنون روزانه یک میلیون جریان صوتی را پردازش می کند. ما 100% زنده هستیم. فاکس گفت: بازار بزرگ و نیاز زیادی وجود دارد و هزینههای مشتریان نیز وجود دارد.
راند 28 میلیون دلاری A توسط Accel، با شرکت Y Combinator، جان و پاتریک کولیسون (Stripe)، نات فریدمن (GitHub) و دانیل گراس (Pioneer) انجام شد. برنامه این است که تمام این صفرها را در سراسر استخدام، زیرساخت تحقیق و توسعه و ایجاد خط لوله تولید پخش کند. همانطور که فاکس اشاره کرد، این شرکت در چند ماه آینده یک میلیون پردازنده گرافیکی و سرورها هزینه میکند، مجموعهای از Nvidia A100 که فرآیندهای تحقیقاتی و آموزشی بسیار محاسباتی را تامین میکنند. در غیر این صورت در پرداخت هزینه خدمات ابری گیر کرده اید، بنابراین بهتر است آن Band-Aid را زودتر پاره کنید.
در مورد استخدام، من پیشنهاد کردم که آنها ممکن است در رقابت مستقیم با شرکت هایی مانند گوگل و فیس بوک، که البته به شدت روی خطوط لوله تجزیه و تحلیل صوتی خود کار می کنند، کار سختی برای استخدام داشته باشند. با این حال فاکس خوشبین بود و احساس می کرد که فرهنگ در آنجا می تواند کند و خفه کننده باشد.
من فکر میکنم قطعاً در محققان و مهندسان واقعاً خوب هوش مصنوعی تمایلی وجود دارد که بخواهند روی لبه خونریزی – و لبه خونریزی کار کنند. در تولید،” او گفت. “شما چیزی نوآورانه ارائه می کنید، و چند هفته بعد آن را در حال تولید می کنید… استارتاپ تنها جایی است که می توانید چنین کارهایی را انجام دهید.”