کار آفرینی و استارتاپ

پس از موفقیت AgentGPT، Reworkd به سمت عوامل AI خراش وب می‌رود


بنیانگذاران Reworkd سال گذشته با AgentGPT، ابزاری رایگان برای ساخت عوامل هوش مصنوعی که بیش از 100000 کاربر روزانه را در یک هفته به دست آورد، در GitHub به صورت ویروسی منتشر شدند. این باعث شد آنها در گروه تابستانی 2023 Y Combinator جایگاهی کسب کنند، اما بنیانگذاران به سرعت متوجه شدند که ساخت عوامل هوش مصنوعی عمومی بسیار گسترده است. بنابراین اکنون Reworkd یک شرکت خراش‌دهنده وب است که به طور خاص عامل‌های هوش مصنوعی را برای استخراج داده‌های ساختاریافته از وب عمومی می‌سازد.

AgentGPT یک رابط ساده در یک مرورگر ارائه کرد که در آن کاربران می توانستند عوامل هوش مصنوعی مستقل ایجاد کنند. به زودی، همه در مورد چگونگی آینده محاسباتی کارگزاران هیجان زده شدند.

وقتی این ابزار شروع به کار کرد، آسیم شرستا، آدام واتکینز و سریجان سوبدی هنوز در کانادا زندگی می کردند و Reworkd وجود نداشت. هجوم گسترده کاربران آنها را غافلگیر کرد. Subedi که اکنون مدیر ارشد اجرایی Reworkd است، گفت که این ابزار روزانه 2000 دلار در تماس های API برای آنها هزینه دارد. به همین دلیل، آنها مجبور شدند Reworkd را ایجاد کنند و به سرعت بودجه دریافت کنند. یکی از محبوب‌ترین موارد استفاده برای AgentGPT ایجاد اسکراپرهای وب بود، یک کار نسبتاً ساده اما با حجم بالا، بنابراین Reworkd این تمرکز را منحصر به فرد خود کرد.

اسکراپرهای وب در عصر هوش مصنوعی بسیار ارزشمند شده اند. به گفته Bright Data، دلیل شماره یک استفاده سازمان ها از داده های وب عمومی در سال 2024، ساخت مدل های هوش مصنوعی است. آخرین گزارش. مشکل این است که اسکریپرهای وب به طور سنتی توسط انسان ساخته می‌شوند و باید برای صفحات وب خاص سفارشی شوند، که باعث گران شدن آنها می‌شود. اما عوامل هوش مصنوعی Reworkd می توانند تعداد بیشتری از وب را با تعداد کمتری انسان در حلقه خراش دهند.

مشتریان می‌توانند فهرستی از صدها یا حتی هزاران وب‌سایت را به Reworkd بدهند تا آن‌ها را جمع‌آوری کند و سپس انواع داده‌های مورد علاقه خود را مشخص کنند. سپس عوامل هوش مصنوعی Reworkd از تولید کد چندوجهی برای تبدیل آن به داده‌های ساختاریافته استفاده می‌کنند. نمایندگان کد منحصر به فردی تولید می کنند تا هر وب سایت را خراش دهند و آن داده ها را برای مشتریان استخراج کنند تا به دلخواه خود از آنها استفاده کنند.

به عنوان مثال، فرض کنید که می خواهید آمار هر بازیکن NFL را داشته باشید، اما وب سایت هر تیم دارای طرح بندی متفاوتی است. به جای ساختن یک اسکراپر برای هر وب سایت، عوامل Reworkd این کار را برای شما انجام می دهند که فقط پیوندها و توضیحاتی از داده هایی که می خواهید استخراج کنید. با 32 تیم، این می‌تواند باعث صرفه‌جویی در ساعات شما شود – اما اگر 1000 تیم وجود داشت، می‌توانست هفته‌ها برای شما صرفه‌جویی کند.

این استارت‌آپ به طور انحصاری به TechCrunch گفت که Reworkd 2.75 میلیون دلار سرمایه اولیه از پل گراهام، AI Grant (شتاب دهنده استارت‌آپ نات فریدمن و دنیل گراس)، SV Angel، General Catalyst و Panache Ventures و دیگران جذب کرد. همراه با یک سرمایه‌گذاری اولیه 1.25 میلیون دلاری در سال گذشته از سوی Panache Ventures و Y Combinator، کل بودجه Reworkd که تا به امروز جمع‌آوری شده است به 4 میلیون دلار می‌رسد.

هوش مصنوعی که می تواند از اینترنت استفاده کند

مدت کوتاهی پس از تشکیل Reworkd و نقل مکان به سانفرانسیسکو، تیم Rohan Pandey را به عنوان مهندس پژوهشی موسس استخدام کرد. او در حال حاضر در AGI House SF، یکی از محبوب‌ترین خانه‌های هکری در منطقه خلیج برای عصر هوش مصنوعی زندگی می‌کند. یکی از سرمایه گذاران Pandey را به عنوان یک “آزمایشگاه تحقیقاتی یک نفره در Reworkd” توصیف کرد.

پاندی در مصاحبه ای با TechCrunch، با اشاره به دیدگاه تیم برنرز لی، مخترع وب جهانی که در آن رایانه ها می توانند کل اینترنت را بخوانند، گفت: «ما خود را نقطه اوج این رویای 30 ساله وب معنایی می دانیم. اگرچه برخی از وب سایت ها نشانه گذاری ندارند، LLM ها می توانند وب سایت ها را به همان روشی که انسان ها می توانند درک کنند، به طوری که ما می توانیم اساساً هر وب سایت را به عنوان یک API در معرض دید قرار دهیم. بنابراین به نوعی، Reworkd مانند لایه جهانی API برای اینترنت است.

Reworkd می‌گوید که می‌تواند نیازهای داده‌های مشتری را در انتها دراز کند، به این معنی که عوامل هوش مصنوعی آن به‌طور خاص برای از بین بردن هزاران وب‌سایت عمومی کوچک‌تر که رقبای بزرگ اغلب از آنها صرفنظر می‌کنند، خوب هستند. سایرین، مانند Bright Data، قبلاً برای وب‌سایت‌های بزرگ مانند LinkedIn یا آمازون اسکراپرهایی دارند، اما ممکن است برای انسان ارزش این نداشته باشد که برای هر وب‌سایت کوچک یک اسکراپر بسازد. Reworkd این نگرانی را برطرف می کند، اما به طور بالقوه دیگران را مطرح می کند.

داده های وب «عمومی» دقیقاً چیست؟

اگرچه اسکراپرهای وب ده ها سال است که وجود داشته اند، اما در عصر هوش مصنوعی جنجال برانگیخته اند. خراش دادن بدون محدودیت در بخش های عظیمی از داده ها، OpenAI و Perplexity را با مشکل قانونی مواجه کرده است: سازمان های خبری و رسانه ای ادعا می کنند که شرکت های هوش مصنوعی مالکیت معنوی را از پشت یک دیوار پرداخت استخراج کرده و آن را به طور گسترده بدون پرداخت بازتولید می کنند. Reworkd در حال انجام اقدامات احتیاطی برای جلوگیری از این مشکلات است.

Shrestha، یکی از بنیانگذاران و مدیر عامل Reworkd، در مصاحبه ای با TechCrunch گفت: “ما به آن به عنوان ارتقای دسترسی به اطلاعات عمومی در دسترس نگاه می کنیم.” ما فقط به اطلاعاتی اجازه می دهیم که در دسترس عموم باشد. ما از دیوارهای ورود به سیستم یا چیزی شبیه به آن عبور نمی کنیم.»

برای اینکه قدمی فراتر بگذاریم، Reworkd می‌گوید که از انتشار اخبار به‌کلی اجتناب می‌کند و در مورد افرادی که با آن‌ها کار می‌کنند انتخابی است. Watkins، مدیر ارشد فناوری این شرکت، می‌گوید ابزارهای بهتری برای جمع‌آوری محتوای خبری در جاهای دیگر وجود دارد و تمرکز آنها بر این نیست.

Reworkd به عنوان نمونه ای از آنچه هست، کار خود را با Axis توضیح داد، شرکتی که به تیم های سیاست گذاری کمک می کند تا از مقررات دولتی پیروی کنند. Axis از هوش مصنوعی Reworkd برای استخراج داده ها از هزاران سند مقررات دولتی برای بسیاری از کشورهای اتحادیه اروپا استفاده می کند. سپس Axis یک مدل هوش مصنوعی را بر اساس این داده ها آموزش و تنظیم می کند و آن را به عنوان یک محصول به مشتریان ارائه می دهد.

به گفته آرون فیسک، شریک شرکت حقوقی گاندرسون دتمر مستقر در سیلیکون ولی، این روزها می‌توان راه‌اندازی یک شرکت خراش‌دهنده وب را در قلمرو خطرناکی در نظر گرفت. در حال حاضر چشم انداز تا حدودی سیال است و هیئت منصفه هنوز در مورد اینکه واقعاً داده های وب «عمومی» برای مدل های هوش مصنوعی چقدر است. با این حال، Fiske می‌گوید رویکرد Reworkd، که در آن مشتریان تصمیم می‌گیرند چه وب‌سایتی را پاک کنند، ممکن است آنها را از مسئولیت قانونی مصون نگه دارد.

فیسک در مصاحبه‌ای با TechCrunch گفت: «مثل این است که آنها دستگاه کپی را اختراع کرده‌اند، و یک مورد استفاده برای ساختن کپی‌هایی وجود دارد که از نظر اقتصادی بسیار ارزشمند است، اما از نظر قانونی نیز واقعاً مشکوک است. اینطور نیست که سرویس‌دهنده‌های وب که به شرکت‌های هوش مصنوعی خدمات رسانی می‌کنند لزوماً خطرناک باشد، اما کار با شرکت‌های هوش مصنوعی که واقعاً علاقه‌مند به جمع‌آوری محتوای دارای حق چاپ هستند، ممکن است یک مشکل باشد.»

به همین دلیل Reworkd مراقب است که با چه کسی کار می کند. خراش دهنده های وب تا کنون بسیاری از تقصیرها را در موارد نقض احتمالی حق نسخه برداری مرتبط با هوش مصنوعی پنهان کرده اند. در پرونده OpenAI، فیسک اشاره می‌کند که نیویورک تایمز از خراش‌دهنده وب که مقالات آن را جمع‌آوری کرده بود، شکایت نکرد، بلکه از شرکتی که ادعا می‌کرد کار آن را بازتولید کرده بود، شکایت کرد. اما حتی در آنجا، هنوز تصمیم گرفته نشده است که آیا کاری که OpenAI انجام داده واقعاً نقض حق چاپ بوده است یا خیر.

شواهد بیشتری وجود دارد مبنی بر اینکه اسکریپرهای وب از نظر قانونی در طول رونق هوش مصنوعی کاملاً روشن هستند. دادگاهی اخیراً پس از حذف پروفایل های فیس بوک و اینستاگرام از طریق وب، به نفع Bright Data رای داد. یک نمونه در پرونده دادگاه مجموعه داده ای از 615 میلیون رکورد از داده های کاربران اینستاگرام بود که Bright Data به قیمت 860000 دلار به فروش می رسد. متا از این شرکت شکایت کرد و مدعی شد که این شرایط شرایط خدمات آن را نقض کرده است. اما یک دادگاه حکم داد که این داده ها عمومی است و بنابراین در دسترس است.

سرمایه گذاران فکر می کنند که Reworkd با افراد بزرگ ترازویی می کند

Reworkd نام های بزرگی را به عنوان سرمایه گذاران اولیه جذب کرده است، از Y Combinator و Paul Graham گرفته تا Daniel Gross و Nat Friedman. برخی از سرمایه گذاران می گویند این به این دلیل است که فناوری Reworkd در کنار مدل های جدید بهبود یافته و ارزان تر می شود. این استارت‌آپ می‌گوید که GPT-4o OpenAI در حال حاضر بهترین برای تولید کد چندوجهی است و بسیاری از فناوری Reworkd تا همین چند ماه پیش امکان‌پذیر نبود.

ویت لو از جنرال کاتالیست به TechCrunch گفت: “اگر سعی کنید با سرعت پیشرفت فناوری رقابت کنید – نه اینکه بر روی آن پیشرفت کنید – پس فکر می کنم به عنوان یک بنیانگذار کار سختی خواهید داشت.” “Reworkd این ذهنیت را دارد که راه حل خود را بر اساس نرخ پیشرفت قرار دهد.”

Reworkd در حال ایجاد عوامل هوش مصنوعی است که یک شکاف خاص در بازار را برطرف می کند. شرکت ها به داده های بیشتری نیاز دارند زیرا هوش مصنوعی به سرعت در حال پیشرفت است. از آنجایی که شرکت‌های بیشتری مدل‌های هوش مصنوعی مخصوص کسب‌وکار خود را می‌سازند، Reworkd مشتریان بیشتری به دست می‌آورد. مدل‌های تنظیم دقیق نیاز به کیفیت، داده‌های ساختاریافته و بسیاری از آن‌ها دارند.

Reworkd می‌گوید رویکردش «خود درمانی» است، به این معنی که اسکراپرهای وب آن به دلیل به‌روزرسانی صفحه وب خراب نمی‌شوند. این استارت آپ ادعا می کند که از مسائل توهم که به طور سنتی با مدل های هوش مصنوعی مرتبط است جلوگیری می کند زیرا عوامل Reworkd در حال تولید کد برای خراش دادن یک وب سایت هستند. این احتمال وجود دارد که هوش مصنوعی اشتباه کند و داده های اشتباهی را از یک وب سایت بگیرد، اما تیم Reworkd ایجاد کرده است. بآنانا لیزریک چارچوب ارزیابی منبع باز، برای ارزیابی منظم دقت آن.

Reworkd لیست حقوق و دستمزد زیادی ندارد – تیم فقط چهار نفر است – اما باید هزینه های قابل توجهی را برای اجرای عوامل هوش مصنوعی خود متحمل شود. این استارتاپ انتظار دارد با کاهش این هزینه ها، قیمت گذاری آن به طور فزاینده ای رقابتی شود. OpenAI به تازگی GPT-4o mini را منتشر کرده است، نسخه کوچکتری از مدل پیشرو در صنعت خود با معیارهای رقابتی. نوآوری هایی مانند این می تواند Reworkd را رقابتی تر کند.

پل گراهام و AI Grant به درخواست TechCrunch برای اظهار نظر پاسخ ندادند.



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا