هوش مصنوعی پاککننده کاغذ Reliant، سختیهای دادههای علم را به عهده میگیرد

مدلهای هوش مصنوعی توانایی انجام بسیاری از کارها را ثابت کردهاند، اما ما واقعاً میخواهیم آنها چه وظایفی را انجام دهند؟ ترجیحاً مشقتآمیز – و از آن در تحقیقات و دانشگاهها زیاد است. متکی امیدوار است در نوع کار زمانبر استخراج دادهها که در حال حاضر تخصص دانشجویان فارغالتحصیلی و کارآموزان خسته است، تخصص پیدا کند.
کارل موریتز هرمان، مدیرعامل این شرکت میگوید: «بهترین کاری که میتوانید با هوش مصنوعی انجام دهید، بهبود تجربه انسانی است: کاهش نیروی کار ضعیف و اجازه دادن به افراد برای انجام کارهایی که برایشان مهم است». در دنیای پژوهشی، جایی که او و بنیانگذارانش مارک بلمار و ریچارد شلگل سالها کار کردهاند، مرور ادبیات یکی از رایجترین نمونههای این «کار بد» است.
هر مقاله ای به آثار قبلی و مرتبط اشاره می کند، اما یافتن این منابع در دریای علم کار آسانی نیست. و برخی، مانند بررسیهای سیستماتیک، دادههای هزاران نفر را ذکر کرده یا استفاده میکنند.
برای یک مطالعههرمان به یاد می آورد: «نویسندگان باید به 3500 نشریه علمی نگاه می کردند، و بسیاری از آنها در نهایت مرتبط نبودند. زمان زیادی برای استخراج مقدار کمی از اطلاعات مفید صرف شده است – این چیزی شبیه چیزی است که واقعاً باید توسط هوش مصنوعی خودکار شود.
آنها میدانستند که مدلهای زبان مدرن میتوانند این کار را انجام دهند: یک آزمایش ChatGPT را روی این کار قرار داد و دریافت که میتواند دادهها را با نرخ خطای ۱۱ درصد استخراج کند. مانند بسیاری از کارهایی که LLM می توانند انجام دهند، چشمگیر است اما هیچ شباهتی به نیاز مردم ندارد.
هرمان گفت: «این به اندازه کافی خوب نیست. “برای این وظایف دانشی، هر چقدر هم که ممکن است ساده باشند، بسیار مهم است که اشتباه نکنید.”
محصول اصلی Reliant، Tabular، تا حدی بر اساس یک LLM (Llama 3.1) است، اما افزوده شده با سایر تکنیک های اختصاصی، بسیار موثرتر است. در استخراج چند هزار مطالعه بالا، آنها گفتند که همان کار را با خطای صفر انجام می دهد.
معنی آن این است که شما هزاران سند را داخل آن میریزید، میگویید که این، آن و سایر دادهها را از آنها میخواهید، و Reliant آنها را بررسی میکند و آن اطلاعات را پیدا میکند – چه کاملاً برچسبگذاری شده و ساختار یافته باشد یا (به احتمال بسیار زیاد) ‘t. سپس تمام آن دادهها و هر تحلیلی که میخواهید انجام شود را در یک رابط کاربری خوب قرار میدهد تا بتوانید در موارد جداگانه فرو بروید.
«کاربران ما باید بتوانند با همه داده ها به طور همزمان کار کنند، و ما در حال ایجاد ویژگی هایی هستیم تا به آنها اجازه دهیم داده های موجود را ویرایش کنند یا از داده ها به ادبیات بروند. هرمان گفت: ما نقش خود را کمک به کاربران میدانیم تا توجه خود را به کجا اختصاص دهند.

این کاربرد مناسب و مؤثر هوش مصنوعی – نه به اندازه یک دوست دیجیتالی پر زرق و برق اما تقریباً مطمئناً بسیار قابل اجراتر – می تواند علم را در تعدادی از حوزه های بسیار فنی سرعت بخشد. سرمایه گذاران توجه داشته اند، سرمایه گذاری 11.3 میلیون دلاری دور اولیه. تولا کپیتال و اینویا کپیتال با حضور فرشته مایک ولپی دور را رهبری کردند.
مانند هر کاربرد هوش مصنوعی، فناوری Reliant بسیار محاسباتی است، به همین دلیل است که این شرکت سختافزار خود را خریداری کرده است تا اینکه آن را از یکی از ارائهدهندگان بزرگ اجاره کند. ورود به داخل با سختافزار هم ریسک و هم پاداش را به همراه دارد: شما باید کاری کنید که این ماشینهای گران قیمت هزینههای خود را بپردازند، اما این فرصت را دارید که با محاسبات اختصاصی، فضای مشکل را باز کنید.
هرمان توضیح داد: «یک چیزی که ما متوجه شدیم این است که اگر زمان محدودی برای دادن آن پاسخ دارید، دادن یک پاسخ خوب بسیار چالش برانگیز است. صد مقاله می توان آن را به سرعت یا به خوبی انجام داد، اما نه هر دو – مگر اینکه پیش بینی کنند چه کاربرانی ممکن است از قبل بپرسید و پاسخ یا چیزی شبیه به آن را پیدا کنید.
بلمر، مدیر ارشد علمی این استارت آپ، گفت: «موضوع این است که بسیاری از مردم سؤالات یکسانی دارند، بنابراین ما می توانیم قبل از اینکه بپرسند، به عنوان نقطه شروع، پاسخ ها را پیدا کنیم. “ما می توانیم 100 صفحه متن را به چیز دیگری تقطیر کنیم، ممکن است دقیقاً آن چیزی نباشد که شما می خواهید، اما کار کردن با آن برای ما آسان تر است.”
به این موضوع فکر کنید: اگر میخواستید معنای هزار رمان را استخراج کنید، آیا منتظر میمانید تا کسی نام شخصیتها را بخواهد و آنها را بگیرد؟ یا آیا این کار را زودتر از موعد انجام می دهید (همراه با مواردی مانند مکان ها، تاریخ ها، روابط و غیره) با دانستن اینکه احتمالاً داده ها مورد نیاز هستند؟ مطمئناً دومی – اگر محاسبات لازم را داشتید.
این پیش استخراج همچنین به مدل ها زمان می دهد تا ابهامات و فرضیات اجتناب ناپذیر موجود در حوزه های علمی مختلف را حل کنند. وقتی یک متریک دیگری را “نشان می دهد”، ممکن است در داروسازی به همان معنا نباشد که در آسیب شناسی یا کارآزمایی های بالینی دارد. نه تنها این، بلکه مدلهای زبانی بسته به اینکه چگونه سؤالات خاصی از آنها پرسیده میشود، خروجیهای متفاوتی ارائه میدهند. بنابراین وظیفه Reliant تبدیل ابهام به قطعیت بوده است – هرمان خاطرنشان کرد: «و این کاری است که فقط در صورتی میتوانید انجام دهید که مایل به سرمایهگذاری در علم یا حوزه خاصی باشید».
به عنوان یک شرکت، اولین تمرکز Reliant بر این است که این فناوری بتواند قبل از اقدام بلندپروازانهتر، هزینههای خود را بپردازد. هرمان میگوید: «برای اینکه پیشرفت جالبی داشته باشید، باید چشمانداز بزرگی داشته باشید، اما همچنین باید با چیزی مشخص شروع کنید. از نقطه نظر بقای استارتآپها، ما بر شرکتهای انتفاعی تمرکز میکنیم، زیرا آنها به ما پول میدهند تا برای GPUهایمان بپردازیم. ما این را با ضرر به مشتریان نمی فروشیم.»
ممکن است انتظار داشته باشیم که شرکت گرمای شرکتهایی مانند OpenAI و Anthropic را که برای انجام وظایف ساختاریافتهتر مانند مدیریت پایگاه داده و کدنویسی پول میریزند، یا از شرکای پیادهسازی مانند Cohere و Scale احساس کند. اما Bellemare خوشبین بود: “ما در حال ساخت این کار بر روی زمین هستیم – هر گونه پیشرفت در پشته فناوری ما برای ما عالی است. LLM یکی از هشت مدل بزرگ یادگیری ماشینی است که در آن وجود دارد – بقیه مدلهای کاملاً اختصاصی ما هستند و از ابتدا بهخاطر دادههای ما ساخته شدهاند.
تبدیل صنعت بیوتکنولوژی و تحقیقات به صنعتی مبتنی بر هوش مصنوعی مطمئناً تازه شروع شده است و ممکن است برای سالهای آینده تقریباً یکپارچه باشد. اما به نظر میرسد که Reliant یک پایه قوی برای شروع پیدا کرده است.
هرمان گفت: «اگر راه حل 95 درصدی را میخواهید و هر چند وقت یکبار از یکی از مشتریانتان عذرخواهی میکنید، عالی است». ما طرفدار آن هستیم که دقت و یادآوری واقعاً مهم است و اشتباهات واقعاً مهم هستند. و صادقانه بگویم، همین کافی است. ما خوشحالیم که بقیه را به دیگران واگذار می کنیم.»
(این داستان در ابتدا نام هرمان را نادرست داشت – اشتباه خود من است، من آن را در تمام مدت تغییر داده ام.)