کار آفرینی و استارتاپ

AssemblyAI برای رونویسی، خلاصه کردن و تعدیل صدا 28 میلیون دلار برای API همه کاره می گیرد – TechCrunch


انفجار در محتوا و رابط‌های صوتی و تصویری در چند سال گذشته کاملاً قابل مشاهده بوده است، اما راه‌های مقابله با تمام رسانه‌های پشت صحنه کاملاً قابل مشاهده نبوده است. AssemblyAI28 میلیون دلار در بودجه جدید، با هدف تبدیل شدن به راه حل اصلی برای تجزیه و تحلیل گفتار، ارائه دسترسی API بسیار ساده برای رونویسی، خلاصه کردن و در غیر این صورت پی بردن به آنچه در هزاران جریان صوتی در یک زمان می‌گذرد، دارد.

چندرسانه‌ای در زمان بسیار کوتاهی استاندارد بسیاری از چیزها شده است: تماس‌های تلفنی و جلسات به تماس‌های ویدیویی تبدیل شدند، پست‌های رسانه‌های اجتماعی به کلیپ‌های 10 ثانیه‌ای تبدیل شدند، چت‌بات‌ها یاد گرفتند که صحبت کنند و گفتار را درک کنند. تعداد بی‌شماری برنامه‌های کاربردی جدید ظاهر می‌شوند، و مانند هر صنعت جدید و در حال رشد، مردم باید بتوانند با داده‌هایی که آن برنامه‌ها تولید می‌کنند کار کنند تا بتوانند آن‌ها را به خوبی اجرا کنند یا چیزی جدید در بالای آنها بسازند.

مشکل این است که کار با صدا به طور طبیعی آسان نیست. چگونه یک جریان صوتی را “جستجو” می کنید؟ می توانید به شکل موج نگاه کنید یا از طریق آن تمیز کنید، اما به احتمال زیاد می خواهید ابتدا آن را رونویسی کنید و سپس متن حاصل را جستجو کنید. اینجاست که AssemblyAI وارد عمل می‌شود: اگرچه خدمات رونویسی متعددی وجود دارد، اغلب ادغام آنها در برنامه یا فرآیند سازمانی خود آسان نیست.

مدیرعامل AssemblyAI گفت: «اگر می‌خواهید تعدیل محتوا، یا جستجو یا خلاصه کردن داده‌های صوتی را انجام دهید، باید آن داده‌ها را به قالبی تبدیل کنید که انعطاف‌پذیرتر باشد و بتوانید ویژگی‌ها و فرآیندهای تجاری را در بالای آن بسازید». بنیانگذار دیلن فاکس بنابراین ما می‌خواستیم یک API تجزیه و تحلیل گفتار فوق‌العاده دقیق بسازیم که هر کسی می‌تواند آن را صدا کند، حتی در یک هکاتون – مانند ادغام سبک Twilio یا Stripe. مردم برای ایجاد این ویژگی‌ها به کمک زیادی نیاز دارند، اما نمی‌خواهند تعدادی از ارائه‌دهندگان را به هم بچسبانند.»

AssemblyAI تعداد انگشت شماری از API های مختلف را ارائه می دهد که می توانید آنها را بسیار ساده فراخوانی کنید (یک یا دو خط کد) و کارهایی مانند “این پادکست را برای محتوای ممنوعه بررسی کنید” یا “شناسایی سخنرانان در این مکالمه” یا “این جلسه را خلاصه کنید. کمتر از 100 کلمه.»

کدگذاری کنید، آن را صدا بزنید، انجام شد. اعتبار تصویر: AssemblyAI

شما ممکن است، همانطور که من بودم، شک داشته باشید که یک شرکت کوچک می تواند ابزارهای کاری برای انجام بسیاری از وظایف به این سادگی تولید کند، با توجه به اینکه وقتی وارد آنها می شوید چقدر این وظایف پیچیده می شوند. فاکس اذعان کرد که این یک چالش است، اما گفت که این فناوری در یک بازه زمانی کوتاه راه طولانی را پیموده است.

او گفت: «به ویژه در چند سال گذشته دقت در این مدل‌ها افزایش سریعی داشته است. «خلاصه، شناسایی احساسات… همه آنها اکنون واقعاً خوب هستند. و ما در واقع در حال پیشرفت هستیم – مدل‌های ما بهتر از آنچه در آنجا وجود دارد هستند، زیرا ما یکی از معدود استارت‌آپ‌هایی هستیم که واقعاً تحقیقات یادگیری عمیق در مقیاس بزرگ انجام می‌دهند. ما تنها در چند ماه آینده بیش از یک میلیون دلار برای GPU و محاسبات برای تحقیق و توسعه و آموزش هزینه خواهیم کرد.

درک شهودی آن می تواند سخت تر باشد زیرا به راحتی قابل اثبات نیست، اما مدل های زبان درست مانند مواردی مانند تولید تصویر (این ___ وجود ندارد) و بینایی کامپیوتری (Face ID، دوربین های امنیتی) به وجود آمده اند. البته GPT-3 یک مثال آشنا در این زمینه است، اما فاکس اشاره کرد که درک و تولید کلام نوشته شده عملاً یک حوزه تحقیقاتی کاملاً متفاوت از تجزیه و تحلیل مکالمه و گفتار معمولی است. بنابراین، اگرچه پیشرفت‌های مشابه در تکنیک‌های یادگیری ماشین (مانند ترانسفورماتورها و چارچوب‌های آموزشی جدید و کارآمدتر) به هر دو کمک کرده است، اما از بسیاری جهات مانند سیب و پرتقال هستند.

نتیجه، به هر حال، این بوده است که می‌توان به سادگی با فراخوانی API، فرآیندهای تعدیل یا خلاصه‌سازی مؤثر یک کلیپ صوتی را در چند ثانیه یا یک ساعت انجام داد. زمانی که در حال ساختن یا ادغام یک ویژگی مانند ویدئوی کوتاه فرم هستید، بسیار مفید است – اگر انتظار دارید صد هزار کلیپ در هر ساعت آپلود شود، برای اولین بار برای اطمینان از اینکه پورن نیستند، فرآیند شما چگونه است. ، یا کلاهبرداری یا تکراری؟ و چه مدت زمانی که شما آن فرآیند را ایجاد می کنید، راه اندازی به تعویق می افتد؟

در عوض، فاکس امیدوار است، شرکت‌هایی که در این موقعیت قرار دارند، به دنبال یک راه آسان و موثر به جلو باشند، راهی که اگر با اضافه کردن یک فرآیند پرداخت مواجه می‌شدند. مطمئناً می توانید یکی از آن ها را از ابتدا بسازید – یا می توانید Stripe را در حدود 15 دقیقه اضافه کنید. این نه تنها اساساً مطلوب است، بلکه به وضوح آنها را از بسته های پیچیده تر و چند سرویسی که محصولات آنالیز صوتی توسط ارائه دهندگان بزرگی مانند مایکروسافت و آمازون را تعریف می کند، جدا می کند.

روباه مورد نظر

روباه مورد نظر اعتبار تصویر: ینس پاندورو

این شرکت در حال حاضر صدها مشتری پرداختی دارد که در سال گذشته سه برابر درآمد داشته است و اکنون روزانه یک میلیون جریان صوتی را پردازش می کند. ما 100% زنده هستیم. فاکس گفت: بازار بزرگ و نیاز زیادی وجود دارد و هزینه‌های مشتریان نیز وجود دارد.

راند 28 میلیون دلاری A توسط Accel، با شرکت Y Combinator، جان و پاتریک کولیسون (Stripe)، نات فریدمن (GitHub) و دانیل گراس (Pioneer) انجام شد. برنامه این است که تمام این صفرها را در سراسر استخدام، زیرساخت تحقیق و توسعه و ایجاد خط لوله تولید پخش کند. همانطور که فاکس اشاره کرد، این شرکت در چند ماه آینده یک میلیون پردازنده گرافیکی و سرورها هزینه می‌کند، مجموعه‌ای از Nvidia A100 که فرآیندهای تحقیقاتی و آموزشی بسیار محاسباتی را تامین می‌کنند. در غیر این صورت در پرداخت هزینه خدمات ابری گیر کرده اید، بنابراین بهتر است آن Band-Aid را زودتر پاره کنید.

در مورد استخدام، من پیشنهاد کردم که آنها ممکن است در رقابت مستقیم با شرکت هایی مانند گوگل و فیس بوک، که البته به شدت روی خطوط لوله تجزیه و تحلیل صوتی خود کار می کنند، کار سختی برای استخدام داشته باشند. با این حال فاکس خوشبین بود و احساس می کرد که فرهنگ در آنجا می تواند کند و خفه کننده باشد.

من فکر می‌کنم قطعاً در محققان و مهندسان واقعاً خوب هوش مصنوعی تمایلی وجود دارد که بخواهند روی لبه خونریزی – و لبه خونریزی کار کنند. در تولید،” او گفت. “شما چیزی نوآورانه ارائه می کنید، و چند هفته بعد آن را در حال تولید می کنید… استارتاپ تنها جایی است که می توانید چنین کارهایی را انجام دهید.”



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا