Twelve Labs در حال ساخت هوش مصنوعی است که می تواند ویدیوها را تجزیه و تحلیل و جستجو کند

دسامبر 12, 2024

0 خواندن این مطلب 6 دقیقه زمان میبرد

An array of tv and video equipment in a TV studio

مدل‌های هوش مصنوعی که ویدیوها و همچنین متن را درک می‌کنند، می‌توانند برنامه‌های قدرتمند جدید را باز کنند. حداقل، این چیزی است که جائه لی، یکی از بنیانگذاران آن دوازده آزمایشگاه، معتقد است.

درست است، لی کمی مغرضانه است. Twelve Labs مدل های تحلیل ویدیویی را برای طیف وسیعی از موارد استفاده آموزش می دهد. اما ممکن است فقط چیزی در ادعای او وجود داشته باشد.

با استفاده از مدل‌های Twelve Labs، کاربران می‌توانند در ویدیوها برای لحظات خاص جستجو کنند، کلیپ‌ها را خلاصه کنند، یا سؤالاتی مانند “کسی که پیراهن قرمز پوشیده چه زمانی وارد رستوران شد؟” این مجموعه ای قدرتمند از قابلیت ها است – شاید به همین دلیل است که این شرکت حامیان بزرگی از جمله انویدیا، سامسونگ و اینتل را جذب کرده است.

جستجوی ویدئو

برای لی، یک دانشمند داده با آموزش، جستجوی اساسی هرگز برای ویدیو معنی نداشت. جستجوی کلمات کلیدی می تواند عناوین، برچسب ها و توضیحات را به دست آورد، اما نمی تواند محتوای واقعی کلیپ ها را دریافت کند.

لی به TechCrunch گفت: «ویدئو سریع‌ترین و پر حجم‌ترین رسانه است، اما بیشتر سازمان‌ها منابع انسانی را برای جمع‌آوری بایگانی‌های ویدیویی خود اختصاص نمی‌دهند. حتی اگر به صورت دستی برچسب گذاری کنید، مشکل را حل نمی کند. یافتن یک لحظه یا زاویه خاص در ویدیوها می تواند مانند جستجوی سوزنی در انبار کاه باشد.

پس از ناکامی در یافتن راه حل بهتر، لی از همتایان خود آیدن لی، اس جی کیم، دیو چونگ و سویونگ لی برای ساختن راه حل استفاده کرد. این پیدایش Twelve Labs بود که به مدل‌ها آموزش می‌دهد تا متن را با آنچه در داخل یک ویدیو اتفاق می‌افتد، از جمله اقدامات، اشیا و صداهای پس‌زمینه ترسیم کنند.

مدل‌هایی مانند جمینی گوگل می‌توانند از طریق فیلم جستجو کنند، و مایکروسافت و آمازون، از جمله، خدمات تجزیه و تحلیل ویدیویی را برای شناسایی اشیا در کلیپ‌ها ارائه می‌دهند. اما لی استدلال می‌کند که محصولات Twelve Labs با گزینه‌های سفارشی‌سازی متفاوت هستند، که به مشتریان اجازه می‌دهد مدل‌ها را با استفاده از داده‌های خود طراحی کنند.

جائه لی، یکی از بنیانگذاران و مدیر عامل شرکت Twelve Labs.اعتبار تصویر:دوازده آزمایشگاه

لی گفت: «شرکت‌هایی مانند OpenAI و گوگل به شدت روی مدل‌های چندوجهی همه منظوره سرمایه‌گذاری می‌کنند، اما این مدل‌ها برای ویدیو بهینه‌سازی نشده‌اند. وجه تمایز ما در این است که از ابتدا ویدیو اول بودیم… ما معتقدیم که ویدیو سزاوار تمرکز ماست – این یک افزونه نیست.

توسعه دهندگان می توانند برنامه هایی را در بالای مدل های Twelve Labs ایجاد کنند تا در بین فیلم های ویدئویی و موارد دیگر جستجو کنند. فناوری این شرکت می‌تواند مواردی مانند درج آگهی، تعدیل محتوا، و تولید خودکار حلقه‌های برجسته از کلیپ‌ها را هدایت کند.

وقتی سال گذشته با لی صحبت کردم، در مورد پتانسیل تعصب در مدل های Twelve Labs پرسیدم. این یک عامل خطر بزرگ است. یک 2021 مطالعه کنید دریافتند که آموزش یک مدل درک ویدیویی بر روی کلیپ‌های اخبار محلی، که تمایل به پوشش جنایات را دارد نژادی شده می تواند باعث شود مدل الگوهای نژادپرستانه را بیاموزد.

لی در آن زمان گفت که Twelve Labs در حال برنامه ریزی برای انتشار معیارها و مجموعه داده های مرتبط با اخلاق است. این شرکت هنوز این کار را نکرده است. در گپ اخیر ما، لی به من اطمینان داد که این ابزارها در راه هستند و Twelve Labs آزمایش‌های سوگیری را روی همه مدل‌هایش قبل از انتشار آنها انجام می‌دهد.

او گفت: «ما هنوز معیارهای سوگیری رسمی را منتشر نکرده‌ایم زیرا می‌خواهیم اطمینان حاصل کنیم که آنها معنادار، عملی و قابل اجرا هستند. «هدف کلی ما توسعه معیارهایی است که نه تنها ما را مسئول می‌سازد، بلکه استانداردی را در صنعت ایجاد می‌کند… تا زمانی که به طور کامل به این هدف دست یابیم – و تیمی روی آن کار می‌کند – ما فعالانه برای ایجاد هوش مصنوعی کار می‌کنیم. که سازمان‌ها را مسئولانه توانمند می‌سازد، به آزادی‌های مدنی مردم احترام می‌گذارد و تغییرات تکنولوژیکی را به پیش می‌برد.»

لی افزود که Twelve Labs مدل‌های خود را بر روی ترکیبی از داده‌های مالکیت عمومی و دارای مجوز آموزش می‌دهد و داده‌های مشتری را برای آموزش منبع نمی‌دهد.

حالت رشد

تجزیه و تحلیل ویدیو هسته اصلی کاری است که Twelve Labs انجام می دهد. اما، در تلاش برای زیرک ماندن، این شرکت همچنین در حوزه‌هایی مانند جستجوی «هر-به-هر» و تعبیه‌های چندوجهی منشعب می‌شود.

یکی از مدل‌های Twelve Labs، Marengo، می‌تواند علاوه بر ویدیو، تصاویر و صدا را نیز جستجو کند و یک ضبط صوتی مرجع، تصویر یا کلیپ ویدیویی را بپذیرد تا به هدایت جستجو کمک کند.

در جای دیگر، این شرکت یک API به نام Embed API را برای ایجاد تعبیه‌های چندوجهی برای ویدیوها، متن، تصاویر و فایل‌های صوتی ارائه می‌کند. تعبیه‌ها نمایش‌های ریاضی هستند که معنا و روابط بین نقاط داده مختلف را به تصویر می‌کشند و آنها را برای کاربردهایی مانند تشخیص ناهنجاری مفید می‌سازند.

سبد محصولات رو به رشد Twelve Labs به استارتاپ کمک کرده است تا مشتریان خود را در محیط های سازمانی، رسانه ای و سرگرمی ایمن کند. دو شریک اصلی Databricks و Snowflake هستند که هر دو در حال ساخت ابزار Twelve Labs در پیشنهادات خود هستند.

Twelve Labs مدل‌های درک ویدیویی چندوجهی می‌سازد. برخی به سوالات پاسخ می دهند، برخی دیگر جستجو انجام می دهند – و بیشتر. **اعتبار تصویر:**دوازده آزمایشگاه

Databricks یک ادغام ایجاد کرد که به مشتری امکان می دهد سرویس تعبیه شده Twelve Labs را از خطوط لوله داده موجود فراخوانی کند. در همین حال، Snowflake در حال ایجاد رابط‌هایی برای مدل‌های Twelve Labs در Cortex AI، سرویس هوش مصنوعی کاملاً مدیریت شده خود است.

لی گفت: «در حال حاضر بیش از 30000 توسعه‌دهنده داریم که از پلتفرم ما استفاده می‌کنند، از افراد آزمایش‌کننده گرفته تا شرکت‌های بزرگی که فناوری ما را در جریان کار خود ادغام می‌کنند. به عنوان مثال، ما با شهرداری ها برای موارد استفاده مانند تشخیص تهدید در زمان واقعی، افزایش زمان واکنش اضطراری و کمک به مدیریت ترافیک همکاری کرده ایم.

به عنوان نشانی از حمایت استراتژیک، Databricks و Snowflake هر دو در Twelve Labs در این ماه از طریق بازوهای مخاطره‌آمیز مربوطه خود سرمایه‌گذاری کردند. SK Telecom و HubSpot Ventures به همراه In-Q-Tel، یک VC غیرانتفاعی مستقر در آرلینگتون، ویرجینیا که در استارتاپ هایی سرمایه گذاری می کند که از قابلیت های اطلاعاتی ایالات متحده پشتیبانی می کنند، به آن ملحق شدند.

مجموع سرمایه‌گذاری‌های جدید به 30 میلیون دلار رسید و مجموع درآمد آزمایشگاه‌های دوازده را به 107.1 میلیون دلار رساند. لی می گوید که درآمد حاصل از آن صرف توسعه محصول و استخدام خواهد شد.

لی گفت: «ما در یک موقعیت مالی بسیار قوی هستیم، اما فرصتی برای تعمیق روابط استراتژیک کلیدی با رهبرانی دیدیم که عمیقاً به Twelve Labs اعتقاد دارند. ما در حال حاضر 73 کارمند تمام وقت داریم و در حال برنامه ریزی برای سرمایه گذاری های قابل توجهی برای استخدام در بخش های مهندسی، تحقیقاتی و مشتریان هستیم.

استخدام جدید

در مورد استخدام، Twelve Labs روز پنجشنبه اعلام کرد که یک رئیس را به مجموعه C خود اضافه می کند: یون کیم، مدیر ارشد فناوری سابق SK Telecom و یک معمار کلیدی پشت سیری اپل. یون همچنین به عنوان مدیر ارشد استراتژی Twelve Labs خدمت خواهد کرد و پیشتاز برنامه توسعه تهاجمی استارتاپ خواهد بود.

لی گفت: «در حالی که برای شرکتی با سن و سال دوازده آزمایشگاه غیرعادی است که رئیسی را استخدام کند، این حرکت گواهی بر تقاضایی است که ما تجربه کرده ایم. دفاتر آن در سئول یون فرد مناسبی است که به ما کمک می‌کند تا اجرا کنیم – او در پیشبرد رشد آینده با خریدهای کلیدی، گسترش حضور جهانی ما و همسو کردن تیم‌های ما به سمت اهداف بلندپروازانه نقش اساسی خواهد داشت.

لی می گوید که هدف این است که در چند سال آینده به عمودی های جدید و مجاور مانند خودرو و امنیت تبدیل شود. با در نظر گرفتن مشارکت In-Q-Tel، امنیت (و احتمالاً کارهای دفاعی) به نظر می رسد مانند یک جابجایی کفش. لی به طور کامل تایید نمی کند.

لی گفت: «سرمایه گذاری In-Q-Tel منعکس کننده تطبیق پذیری و پتانسیل فناوری ما در بسیاری از بخش ها، از جمله امنیت ملی است. ما همیشه آماده کاوش در فرصت‌هایی هستیم که فناوری ما می‌تواند تأثیر مثبت، معنادار و مسئولانه‌ای داشته باشد که با دستورالعمل‌های اخلاقی ما همسو باشد.»

TechCrunch یک خبرنامه متمرکز بر هوش مصنوعی دارد! اینجا ثبت نام کنید تا هر چهارشنبه آن را در صندوق پستی خود دریافت کنید.

منبع

برچسب ها

دسامبر 12, 2024

0 خواندن این مطلب 6 دقیقه زمان میبرد

جستجوی ویدئو

حالت رشد

استخدام جدید

Cartesia ادعا می کند که هوش مصنوعی آن به اندازه کافی کارآمد است که می تواند تقریباً در هر مکانی اجرا شود

دور 55MC دلاری Evinced به آوردن ابزارهای توسعه‌دهنده دسترسی (و هوش مصنوعی) آن به اروپا کمک می‌کند

دیدگاهتان را بنویسید لغو پاسخ