کار آفرینی و استارتاپ

Dataloop تزریق پول نقد را برای گسترش مجموعه ابزار حاشیه نویسی داده های خود ایمن می کند • TechCrunch


حاشیه نویسی داده یا فرآیند افزودن برچسب به تصاویر، متن، صدا و سایر اشکال داده های نمونه، معمولاً یک مرحله کلیدی در توسعه سیستم های هوش مصنوعی است. اکثریت قریب به اتفاق سیستم‌ها یاد می‌گیرند که با مرتبط کردن برچسب‌ها با نمونه‌های داده خاص، مانند عنوان «خرس» با عکس یک خرس سیاه، پیش‌بینی کنند. برای مثال، سیستمی که بر روی بسیاری از نمونه‌های برچسب‌گذاری شده از انواع مختلف قراردادها آموزش دیده باشد، در نهایت می‌آموزد که بین آن قراردادها تمایز قائل شود و حتی به قراردادهایی تعمیم دهد که قبلاً ندیده است.

مشکل اینجاست که حاشیه نویسی یک فرآیند دستی و کار فشرده است که از لحاظ تاریخی به کارگرانی که در پلتفرم هایی مانند Amazon Mechanical Turk اختصاص داده شده است. اما با افزایش علاقه به هوش مصنوعی – و داده‌های مورد استفاده برای آموزش این هوش مصنوعی – یک صنعت کامل در اطراف ابزارهایی برای حاشیه‌نویسی و برچسب‌گذاری شکل گرفته است.

Dataloopیکی از استارت‌آپ‌های متعددی که برای جایگاهی در بازار نوپا رقابت می‌کند، امروز اعلام کرد که ۳۳ میلیون دلار در دور سری B به رهبری شرکای رشد نوکیا (NGP) Capital و آلفا ویو گلوبال جمع‌آوری کرده است. Dataloop نرم‌افزار و خدماتی را برای خودکارسازی جنبه‌های آماده‌سازی داده توسعه می‌دهد و هدف آن کاهش زمان فرآیند توسعه سیستم هوش مصنوعی است.

اران شلومو، مدیر عامل Dataloop در مصاحبه ایمیلی با TechCrunch گفت: «من بیش از 13 سال در اینتل کار کردم، و در آنجا بود که با دومین بنیانگذار و مدیر ارشد اجرایی Dataloop، Avi Yashar آشنا شدم. من به همراه Avi اینتل را ترک کردم و Dataloop را تأسیس کردم. نیر [Buschi]، CBO ما، به عنوان سومین یکی از بنیانگذاران، پس از اینکه سمت های اجرایی داشت، به ما پیوست [at] شرکت های فناوری و [lead] کسب و کار و ورود به بازار در استارت‌آپ‌های سرمایه‌گذاری.»

Dataloop در ابتدا بر روی حاشیه نویسی داده ها برای بینایی کامپیوتری و تجزیه و تحلیل ویدئو تمرکز کرد. اما در سال‌های اخیر، این شرکت ابزارهای جدیدی را برای داده‌های متنی، صوتی، فرم و اسناد اضافه کرده است و به مشتریان اجازه می‌دهد تا برنامه‌های داده سفارشی توسعه‌یافته داخلی را یکپارچه کنند.

یکی از جدیدترین موارد اضافه شده به پلتفرم Dataloop، داشبوردهای مدیریت داده برای داده های بدون ساختار است. (به عنوان مخالف ساختار یافته داده ها یا داده هایی که در قالبی استاندارد مرتب شده اند، بدون ساختار داده ها بر اساس یک مدل یا طرح رایج سازماندهی نمی شوند.) هر کدام ابزارهایی را برای نسخه سازی داده ها و جستجوی فراداده ها، و همچنین یک زبان پرس و جو برای جستجو در مجموعه داده ها و تجسم نمونه های داده را فراهم می کند.

اعتبار تصویر: Dataloop

تمام مدل‌های هوش مصنوعی از طریق فرآیند برچسب‌گذاری داده‌ها از انسان‌ها آموخته می‌شوند. فرآیند برچسب‌گذاری اساساً یک فرآیند رمزگذاری دانش است که در آن انسان با استفاده از نمونه‌های داده‌های مثبت و منفی قوانین را به ماشین آموزش می‌دهد.» “هدف اصلی هر برنامه هوش مصنوعی ایجاد “اثر چرخ لنگر داده” با استفاده از داده های مشتری است: محصول بهتر منجر به کاربران بیشتر می شود منجر به داده های بیشتر و متعاقباً محصول بهتر می شود.”

Dataloop در فضای حاشیه‌نویسی و برچسب‌گذاری داده‌ها، از جمله Scale AI، که بیش از 600 میلیون دلار سرمایه‌گذاری مخاطره‌آمیز جمع‌آوری کرده، با شرکت‌های سنگین‌وزن رقابت می‌کند. Labelbox یکی دیگر از رقبای اصلی است که اخیراً بیش از 110 میلیون دلار در یک دور مالی به رهبری SoftBank به دست آورده است. فراتر از حوزه راه اندازی، غول های فناوری از جمله گوگل، آمازون، اسنو فلیک و مایکروسافت خدمات حاشیه نویسی داده های خود را ارائه می دهند.

Dataloop باید کاری را درست انجام دهد. شلومو ادعا می کند که این شرکت در حال حاضر “صدها” مشتری در خرده فروشی، کشاورزی، روباتیک، وسایل نقلیه خودران و ساخت و ساز دارد، اگرچه او از فاش کردن ارقام درآمد خودداری کرد.

یک سوال باز این است که آیا پلتفرم Dataloop برخی از چالش های عمده ای که امروزه در برچسب گذاری داده ها وجود دارد را حل می کند؟ سال گذشته، مقاله ای که از MIT منتشر شده است دریافتند که برچسب‌گذاری داده‌ها به شدت ناسازگار است و به طور بالقوه به دقت سیستم‌های هوش مصنوعی آسیب می‌زند. تعداد فزاینده ای از تحقیقات آکادمیک نشان می دهد که حاشیه نویسان هنگام برچسب گذاری داده ها تعصبات خود را معرفی می کنند – برای مثال، برچسب زدن عبارات در انگلیسی آفریقایی آمریکایی (گویش مدرنی که عمدتا توسط سیاهپوستان آمریکایی صحبت می شود) سمی تر از معادل های عمومی انگلیسی آمریکایی است. این تعصبات اغلب به شیوه‌های ناگوار ظاهر می‌شوند. به الگوریتم های تعدیل فکر کنید که هستند احتمال بیشتری دارد برای ممنوع کردن کاربران سیاه پوست نسبت به کاربران سفید پوست.

برچسب‌زنان داده نیز به طرز چشمگیری دستمزد کمتری دارند. حاشیه نویسانی که برای ImageNet، یکی از شناخته شده‌ترین کتابخانه‌های بینایی کامپیوتری منبع باز، زیرنویس‌ها را ارائه می‌کردند، طبق گزارش‌ها، میانگین دستمزد ۲ دلار در ساعت دریافت کردند.

شلومو می‌گوید این بر عهده شرکت‌هایی است که از ابزارهای Dataloop برای تأثیرگذاری بر تغییرات استفاده می‌کنند – نه لزوماً خود Dataloop.

ما پرداخت کمتر از حاشیه نویسان را یک شکست بازار می دانیم. حاشیه نویسی داده ها دارای ویژگی های بسیاری با توسعه نرم افزار است که یکی از آنها تأثیر استعداد بر بهره وری است. “[As for bias,] سوگیری در هوش مصنوعی با سوالی که توسعه‌دهنده هوش مصنوعی انتخاب می‌کند و دستورالعمل‌هایی که به شرکت‌های برچسب‌گذاری ارائه می‌کنند شروع می‌شود. ما آن را “سوگیری اولیه” می نامیم. برای مثال، شما هرگز نمی‌توانید سوگیری رنگ را شناسایی کنید، مگر اینکه رنگ پوست را در دستور العمل برچسب‌گذاری خود بخواهید. موضوع اصلی سوگیری چیزی است که صنعت و تنظیم کننده ها باید به آن توجه کنند. فناوری به تنهایی مشکل را حل نخواهد کرد.»

تا به امروز، Dataloop که 60 کارمند دارد، 50 میلیون دلار سرمایه سرمایه گذاری کرده است. این شرکت قصد دارد تا پایان سال نیروی کار خود را به 80 نفر افزایش دهد.



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا