Twelve Labs در حال ساخت هوش مصنوعی است که می تواند ویدیوها را تجزیه و تحلیل و جستجو کند

مدلهای هوش مصنوعی که ویدیوها و همچنین متن را درک میکنند، میتوانند برنامههای قدرتمند جدید را باز کنند. حداقل، این چیزی است که جائه لی، یکی از بنیانگذاران آن دوازده آزمایشگاه، معتقد است.
درست است، لی کمی مغرضانه است. Twelve Labs مدل های تحلیل ویدیویی را برای طیف وسیعی از موارد استفاده آموزش می دهد. اما ممکن است فقط چیزی در ادعای او وجود داشته باشد.
با استفاده از مدلهای Twelve Labs، کاربران میتوانند در ویدیوها برای لحظات خاص جستجو کنند، کلیپها را خلاصه کنند، یا سؤالاتی مانند “کسی که پیراهن قرمز پوشیده چه زمانی وارد رستوران شد؟” این مجموعه ای قدرتمند از قابلیت ها است – شاید به همین دلیل است که این شرکت حامیان بزرگی از جمله انویدیا، سامسونگ و اینتل را جذب کرده است.
جستجوی ویدئو
برای لی، یک دانشمند داده با آموزش، جستجوی اساسی هرگز برای ویدیو معنی نداشت. جستجوی کلمات کلیدی می تواند عناوین، برچسب ها و توضیحات را به دست آورد، اما نمی تواند محتوای واقعی کلیپ ها را دریافت کند.
لی به TechCrunch گفت: «ویدئو سریعترین و پر حجمترین رسانه است، اما بیشتر سازمانها منابع انسانی را برای جمعآوری بایگانیهای ویدیویی خود اختصاص نمیدهند. حتی اگر به صورت دستی برچسب گذاری کنید، مشکل را حل نمی کند. یافتن یک لحظه یا زاویه خاص در ویدیوها می تواند مانند جستجوی سوزنی در انبار کاه باشد.
پس از ناکامی در یافتن راه حل بهتر، لی از همتایان خود آیدن لی، اس جی کیم، دیو چونگ و سویونگ لی برای ساختن راه حل استفاده کرد. این پیدایش Twelve Labs بود که به مدلها آموزش میدهد تا متن را با آنچه در داخل یک ویدیو اتفاق میافتد، از جمله اقدامات، اشیا و صداهای پسزمینه ترسیم کنند.
مدلهایی مانند جمینی گوگل میتوانند از طریق فیلم جستجو کنند، و مایکروسافت و آمازون، از جمله، خدمات تجزیه و تحلیل ویدیویی را برای شناسایی اشیا در کلیپها ارائه میدهند. اما لی استدلال میکند که محصولات Twelve Labs با گزینههای سفارشیسازی متفاوت هستند، که به مشتریان اجازه میدهد مدلها را با استفاده از دادههای خود طراحی کنند.
لی گفت: «شرکتهایی مانند OpenAI و گوگل به شدت روی مدلهای چندوجهی همه منظوره سرمایهگذاری میکنند، اما این مدلها برای ویدیو بهینهسازی نشدهاند. وجه تمایز ما در این است که از ابتدا ویدیو اول بودیم… ما معتقدیم که ویدیو سزاوار تمرکز ماست – این یک افزونه نیست.
توسعه دهندگان می توانند برنامه هایی را در بالای مدل های Twelve Labs ایجاد کنند تا در بین فیلم های ویدئویی و موارد دیگر جستجو کنند. فناوری این شرکت میتواند مواردی مانند درج آگهی، تعدیل محتوا، و تولید خودکار حلقههای برجسته از کلیپها را هدایت کند.
وقتی سال گذشته با لی صحبت کردم، در مورد پتانسیل تعصب در مدل های Twelve Labs پرسیدم. این یک عامل خطر بزرگ است. یک 2021 مطالعه کنید دریافتند که آموزش یک مدل درک ویدیویی بر روی کلیپهای اخبار محلی، که تمایل به پوشش جنایات را دارد نژادی شده می تواند باعث شود مدل الگوهای نژادپرستانه را بیاموزد.
لی در آن زمان گفت که Twelve Labs در حال برنامه ریزی برای انتشار معیارها و مجموعه داده های مرتبط با اخلاق است. این شرکت هنوز این کار را نکرده است. در گپ اخیر ما، لی به من اطمینان داد که این ابزارها در راه هستند و Twelve Labs آزمایشهای سوگیری را روی همه مدلهایش قبل از انتشار آنها انجام میدهد.
او گفت: «ما هنوز معیارهای سوگیری رسمی را منتشر نکردهایم زیرا میخواهیم اطمینان حاصل کنیم که آنها معنادار، عملی و قابل اجرا هستند. «هدف کلی ما توسعه معیارهایی است که نه تنها ما را مسئول میسازد، بلکه استانداردی را در صنعت ایجاد میکند… تا زمانی که به طور کامل به این هدف دست یابیم – و تیمی روی آن کار میکند – ما فعالانه برای ایجاد هوش مصنوعی کار میکنیم. که سازمانها را مسئولانه توانمند میسازد، به آزادیهای مدنی مردم احترام میگذارد و تغییرات تکنولوژیکی را به پیش میبرد.»
لی افزود که Twelve Labs مدلهای خود را بر روی ترکیبی از دادههای مالکیت عمومی و دارای مجوز آموزش میدهد و دادههای مشتری را برای آموزش منبع نمیدهد.
حالت رشد
تجزیه و تحلیل ویدیو هسته اصلی کاری است که Twelve Labs انجام می دهد. اما، در تلاش برای زیرک ماندن، این شرکت همچنین در حوزههایی مانند جستجوی «هر-به-هر» و تعبیههای چندوجهی منشعب میشود.
یکی از مدلهای Twelve Labs، Marengo، میتواند علاوه بر ویدیو، تصاویر و صدا را نیز جستجو کند و یک ضبط صوتی مرجع، تصویر یا کلیپ ویدیویی را بپذیرد تا به هدایت جستجو کمک کند.
در جای دیگر، این شرکت یک API به نام Embed API را برای ایجاد تعبیههای چندوجهی برای ویدیوها، متن، تصاویر و فایلهای صوتی ارائه میکند. تعبیهها نمایشهای ریاضی هستند که معنا و روابط بین نقاط داده مختلف را به تصویر میکشند و آنها را برای کاربردهایی مانند تشخیص ناهنجاری مفید میسازند.
سبد محصولات رو به رشد Twelve Labs به استارتاپ کمک کرده است تا مشتریان خود را در محیط های سازمانی، رسانه ای و سرگرمی ایمن کند. دو شریک اصلی Databricks و Snowflake هستند که هر دو در حال ساخت ابزار Twelve Labs در پیشنهادات خود هستند.

Databricks یک ادغام ایجاد کرد که به مشتری امکان می دهد سرویس تعبیه شده Twelve Labs را از خطوط لوله داده موجود فراخوانی کند. در همین حال، Snowflake در حال ایجاد رابطهایی برای مدلهای Twelve Labs در Cortex AI، سرویس هوش مصنوعی کاملاً مدیریت شده خود است.
لی گفت: «در حال حاضر بیش از 30000 توسعهدهنده داریم که از پلتفرم ما استفاده میکنند، از افراد آزمایشکننده گرفته تا شرکتهای بزرگی که فناوری ما را در جریان کار خود ادغام میکنند. به عنوان مثال، ما با شهرداری ها برای موارد استفاده مانند تشخیص تهدید در زمان واقعی، افزایش زمان واکنش اضطراری و کمک به مدیریت ترافیک همکاری کرده ایم.
به عنوان نشانی از حمایت استراتژیک، Databricks و Snowflake هر دو در Twelve Labs در این ماه از طریق بازوهای مخاطرهآمیز مربوطه خود سرمایهگذاری کردند. SK Telecom و HubSpot Ventures به همراه In-Q-Tel، یک VC غیرانتفاعی مستقر در آرلینگتون، ویرجینیا که در استارتاپ هایی سرمایه گذاری می کند که از قابلیت های اطلاعاتی ایالات متحده پشتیبانی می کنند، به آن ملحق شدند.
مجموع سرمایهگذاریهای جدید به 30 میلیون دلار رسید و مجموع درآمد آزمایشگاههای دوازده را به 107.1 میلیون دلار رساند. لی می گوید که درآمد حاصل از آن صرف توسعه محصول و استخدام خواهد شد.
لی گفت: «ما در یک موقعیت مالی بسیار قوی هستیم، اما فرصتی برای تعمیق روابط استراتژیک کلیدی با رهبرانی دیدیم که عمیقاً به Twelve Labs اعتقاد دارند. ما در حال حاضر 73 کارمند تمام وقت داریم و در حال برنامه ریزی برای سرمایه گذاری های قابل توجهی برای استخدام در بخش های مهندسی، تحقیقاتی و مشتریان هستیم.
استخدام جدید
در مورد استخدام، Twelve Labs روز پنجشنبه اعلام کرد که یک رئیس را به مجموعه C خود اضافه می کند: یون کیم، مدیر ارشد فناوری سابق SK Telecom و یک معمار کلیدی پشت سیری اپل. یون همچنین به عنوان مدیر ارشد استراتژی Twelve Labs خدمت خواهد کرد و پیشتاز برنامه توسعه تهاجمی استارتاپ خواهد بود.
لی گفت: «در حالی که برای شرکتی با سن و سال دوازده آزمایشگاه غیرعادی است که رئیسی را استخدام کند، این حرکت گواهی بر تقاضایی است که ما تجربه کرده ایم. دفاتر آن در سئول یون فرد مناسبی است که به ما کمک میکند تا اجرا کنیم – او در پیشبرد رشد آینده با خریدهای کلیدی، گسترش حضور جهانی ما و همسو کردن تیمهای ما به سمت اهداف بلندپروازانه نقش اساسی خواهد داشت.
لی می گوید که هدف این است که در چند سال آینده به عمودی های جدید و مجاور مانند خودرو و امنیت تبدیل شود. با در نظر گرفتن مشارکت In-Q-Tel، امنیت (و احتمالاً کارهای دفاعی) به نظر می رسد مانند یک جابجایی کفش. لی به طور کامل تایید نمی کند.
لی گفت: «سرمایه گذاری In-Q-Tel منعکس کننده تطبیق پذیری و پتانسیل فناوری ما در بسیاری از بخش ها، از جمله امنیت ملی است. ما همیشه آماده کاوش در فرصتهایی هستیم که فناوری ما میتواند تأثیر مثبت، معنادار و مسئولانهای داشته باشد که با دستورالعملهای اخلاقی ما همسو باشد.»
TechCrunch یک خبرنامه متمرکز بر هوش مصنوعی دارد! اینجا ثبت نام کنید تا هر چهارشنبه آن را در صندوق پستی خود دریافت کنید.