Dataloop تزریق پول نقد را برای گسترش مجموعه ابزار حاشیه نویسی داده های خود ایمن می کند • TechCrunch

حاشیه نویسی داده یا فرآیند افزودن برچسب به تصاویر، متن، صدا و سایر اشکال داده های نمونه، معمولاً یک مرحله کلیدی در توسعه سیستم های هوش مصنوعی است. اکثریت قریب به اتفاق سیستمها یاد میگیرند که با مرتبط کردن برچسبها با نمونههای داده خاص، مانند عنوان «خرس» با عکس یک خرس سیاه، پیشبینی کنند. برای مثال، سیستمی که بر روی بسیاری از نمونههای برچسبگذاری شده از انواع مختلف قراردادها آموزش دیده باشد، در نهایت میآموزد که بین آن قراردادها تمایز قائل شود و حتی به قراردادهایی تعمیم دهد که قبلاً ندیده است.
مشکل اینجاست که حاشیه نویسی یک فرآیند دستی و کار فشرده است که از لحاظ تاریخی به کارگرانی که در پلتفرم هایی مانند Amazon Mechanical Turk اختصاص داده شده است. اما با افزایش علاقه به هوش مصنوعی – و دادههای مورد استفاده برای آموزش این هوش مصنوعی – یک صنعت کامل در اطراف ابزارهایی برای حاشیهنویسی و برچسبگذاری شکل گرفته است.
Dataloopیکی از استارتآپهای متعددی که برای جایگاهی در بازار نوپا رقابت میکند، امروز اعلام کرد که ۳۳ میلیون دلار در دور سری B به رهبری شرکای رشد نوکیا (NGP) Capital و آلفا ویو گلوبال جمعآوری کرده است. Dataloop نرمافزار و خدماتی را برای خودکارسازی جنبههای آمادهسازی داده توسعه میدهد و هدف آن کاهش زمان فرآیند توسعه سیستم هوش مصنوعی است.
اران شلومو، مدیر عامل Dataloop در مصاحبه ایمیلی با TechCrunch گفت: «من بیش از 13 سال در اینتل کار کردم، و در آنجا بود که با دومین بنیانگذار و مدیر ارشد اجرایی Dataloop، Avi Yashar آشنا شدم. من به همراه Avi اینتل را ترک کردم و Dataloop را تأسیس کردم. نیر [Buschi]، CBO ما، به عنوان سومین یکی از بنیانگذاران، پس از اینکه سمت های اجرایی داشت، به ما پیوست [at] شرکت های فناوری و [lead] کسب و کار و ورود به بازار در استارتآپهای سرمایهگذاری.»
Dataloop در ابتدا بر روی حاشیه نویسی داده ها برای بینایی کامپیوتری و تجزیه و تحلیل ویدئو تمرکز کرد. اما در سالهای اخیر، این شرکت ابزارهای جدیدی را برای دادههای متنی، صوتی، فرم و اسناد اضافه کرده است و به مشتریان اجازه میدهد تا برنامههای داده سفارشی توسعهیافته داخلی را یکپارچه کنند.
یکی از جدیدترین موارد اضافه شده به پلتفرم Dataloop، داشبوردهای مدیریت داده برای داده های بدون ساختار است. (به عنوان مخالف ساختار یافته داده ها یا داده هایی که در قالبی استاندارد مرتب شده اند، بدون ساختار داده ها بر اساس یک مدل یا طرح رایج سازماندهی نمی شوند.) هر کدام ابزارهایی را برای نسخه سازی داده ها و جستجوی فراداده ها، و همچنین یک زبان پرس و جو برای جستجو در مجموعه داده ها و تجسم نمونه های داده را فراهم می کند.
اعتبار تصویر: Dataloop
تمام مدلهای هوش مصنوعی از طریق فرآیند برچسبگذاری دادهها از انسانها آموخته میشوند. فرآیند برچسبگذاری اساساً یک فرآیند رمزگذاری دانش است که در آن انسان با استفاده از نمونههای دادههای مثبت و منفی قوانین را به ماشین آموزش میدهد.» “هدف اصلی هر برنامه هوش مصنوعی ایجاد “اثر چرخ لنگر داده” با استفاده از داده های مشتری است: محصول بهتر منجر به کاربران بیشتر می شود منجر به داده های بیشتر و متعاقباً محصول بهتر می شود.”
Dataloop در فضای حاشیهنویسی و برچسبگذاری دادهها، از جمله Scale AI، که بیش از 600 میلیون دلار سرمایهگذاری مخاطرهآمیز جمعآوری کرده، با شرکتهای سنگینوزن رقابت میکند. Labelbox یکی دیگر از رقبای اصلی است که اخیراً بیش از 110 میلیون دلار در یک دور مالی به رهبری SoftBank به دست آورده است. فراتر از حوزه راه اندازی، غول های فناوری از جمله گوگل، آمازون، اسنو فلیک و مایکروسافت خدمات حاشیه نویسی داده های خود را ارائه می دهند.
Dataloop باید کاری را درست انجام دهد. شلومو ادعا می کند که این شرکت در حال حاضر “صدها” مشتری در خرده فروشی، کشاورزی، روباتیک، وسایل نقلیه خودران و ساخت و ساز دارد، اگرچه او از فاش کردن ارقام درآمد خودداری کرد.
یک سوال باز این است که آیا پلتفرم Dataloop برخی از چالش های عمده ای که امروزه در برچسب گذاری داده ها وجود دارد را حل می کند؟ سال گذشته، مقاله ای که از MIT منتشر شده است دریافتند که برچسبگذاری دادهها به شدت ناسازگار است و به طور بالقوه به دقت سیستمهای هوش مصنوعی آسیب میزند. تعداد فزاینده ای از تحقیقات آکادمیک نشان می دهد که حاشیه نویسان هنگام برچسب گذاری داده ها تعصبات خود را معرفی می کنند – برای مثال، برچسب زدن عبارات در انگلیسی آفریقایی آمریکایی (گویش مدرنی که عمدتا توسط سیاهپوستان آمریکایی صحبت می شود) سمی تر از معادل های عمومی انگلیسی آمریکایی است. این تعصبات اغلب به شیوههای ناگوار ظاهر میشوند. به الگوریتم های تعدیل فکر کنید که هستند احتمال بیشتری دارد برای ممنوع کردن کاربران سیاه پوست نسبت به کاربران سفید پوست.
برچسبزنان داده نیز به طرز چشمگیری دستمزد کمتری دارند. حاشیه نویسانی که برای ImageNet، یکی از شناخته شدهترین کتابخانههای بینایی کامپیوتری منبع باز، زیرنویسها را ارائه میکردند، طبق گزارشها، میانگین دستمزد ۲ دلار در ساعت دریافت کردند.
شلومو میگوید این بر عهده شرکتهایی است که از ابزارهای Dataloop برای تأثیرگذاری بر تغییرات استفاده میکنند – نه لزوماً خود Dataloop.
ما پرداخت کمتر از حاشیه نویسان را یک شکست بازار می دانیم. حاشیه نویسی داده ها دارای ویژگی های بسیاری با توسعه نرم افزار است که یکی از آنها تأثیر استعداد بر بهره وری است. “[As for bias,] سوگیری در هوش مصنوعی با سوالی که توسعهدهنده هوش مصنوعی انتخاب میکند و دستورالعملهایی که به شرکتهای برچسبگذاری ارائه میکنند شروع میشود. ما آن را “سوگیری اولیه” می نامیم. برای مثال، شما هرگز نمیتوانید سوگیری رنگ را شناسایی کنید، مگر اینکه رنگ پوست را در دستور العمل برچسبگذاری خود بخواهید. موضوع اصلی سوگیری چیزی است که صنعت و تنظیم کننده ها باید به آن توجه کنند. فناوری به تنهایی مشکل را حل نخواهد کرد.»
تا به امروز، Dataloop که 60 کارمند دارد، 50 میلیون دلار سرمایه سرمایه گذاری کرده است. این شرکت قصد دارد تا پایان سال نیروی کار خود را به 80 نفر افزایش دهد.