پس از موفقیت AgentGPT، Reworkd به سمت عوامل AI خراش وب میرود

بنیانگذاران Reworkd سال گذشته با AgentGPT، ابزاری رایگان برای ساخت عوامل هوش مصنوعی که بیش از 100000 کاربر روزانه را در یک هفته به دست آورد، در GitHub به صورت ویروسی منتشر شدند. این باعث شد آنها در گروه تابستانی 2023 Y Combinator جایگاهی کسب کنند، اما بنیانگذاران به سرعت متوجه شدند که ساخت عوامل هوش مصنوعی عمومی بسیار گسترده است. بنابراین اکنون Reworkd یک شرکت خراشدهنده وب است که به طور خاص عاملهای هوش مصنوعی را برای استخراج دادههای ساختاریافته از وب عمومی میسازد.
AgentGPT یک رابط ساده در یک مرورگر ارائه کرد که در آن کاربران می توانستند عوامل هوش مصنوعی مستقل ایجاد کنند. به زودی، همه در مورد چگونگی آینده محاسباتی کارگزاران هیجان زده شدند.
وقتی این ابزار شروع به کار کرد، آسیم شرستا، آدام واتکینز و سریجان سوبدی هنوز در کانادا زندگی می کردند و Reworkd وجود نداشت. هجوم گسترده کاربران آنها را غافلگیر کرد. Subedi که اکنون مدیر ارشد اجرایی Reworkd است، گفت که این ابزار روزانه 2000 دلار در تماس های API برای آنها هزینه دارد. به همین دلیل، آنها مجبور شدند Reworkd را ایجاد کنند و به سرعت بودجه دریافت کنند. یکی از محبوبترین موارد استفاده برای AgentGPT ایجاد اسکراپرهای وب بود، یک کار نسبتاً ساده اما با حجم بالا، بنابراین Reworkd این تمرکز را منحصر به فرد خود کرد.
اسکراپرهای وب در عصر هوش مصنوعی بسیار ارزشمند شده اند. به گفته Bright Data، دلیل شماره یک استفاده سازمان ها از داده های وب عمومی در سال 2024، ساخت مدل های هوش مصنوعی است. آخرین گزارش. مشکل این است که اسکریپرهای وب به طور سنتی توسط انسان ساخته میشوند و باید برای صفحات وب خاص سفارشی شوند، که باعث گران شدن آنها میشود. اما عوامل هوش مصنوعی Reworkd می توانند تعداد بیشتری از وب را با تعداد کمتری انسان در حلقه خراش دهند.
مشتریان میتوانند فهرستی از صدها یا حتی هزاران وبسایت را به Reworkd بدهند تا آنها را جمعآوری کند و سپس انواع دادههای مورد علاقه خود را مشخص کنند. سپس عوامل هوش مصنوعی Reworkd از تولید کد چندوجهی برای تبدیل آن به دادههای ساختاریافته استفاده میکنند. نمایندگان کد منحصر به فردی تولید می کنند تا هر وب سایت را خراش دهند و آن داده ها را برای مشتریان استخراج کنند تا به دلخواه خود از آنها استفاده کنند.
به عنوان مثال، فرض کنید که می خواهید آمار هر بازیکن NFL را داشته باشید، اما وب سایت هر تیم دارای طرح بندی متفاوتی است. به جای ساختن یک اسکراپر برای هر وب سایت، عوامل Reworkd این کار را برای شما انجام می دهند که فقط پیوندها و توضیحاتی از داده هایی که می خواهید استخراج کنید. با 32 تیم، این میتواند باعث صرفهجویی در ساعات شما شود – اما اگر 1000 تیم وجود داشت، میتوانست هفتهها برای شما صرفهجویی کند.
این استارتآپ به طور انحصاری به TechCrunch گفت که Reworkd 2.75 میلیون دلار سرمایه اولیه از پل گراهام، AI Grant (شتاب دهنده استارتآپ نات فریدمن و دنیل گراس)، SV Angel، General Catalyst و Panache Ventures و دیگران جذب کرد. همراه با یک سرمایهگذاری اولیه 1.25 میلیون دلاری در سال گذشته از سوی Panache Ventures و Y Combinator، کل بودجه Reworkd که تا به امروز جمعآوری شده است به 4 میلیون دلار میرسد.
هوش مصنوعی که می تواند از اینترنت استفاده کند
مدت کوتاهی پس از تشکیل Reworkd و نقل مکان به سانفرانسیسکو، تیم Rohan Pandey را به عنوان مهندس پژوهشی موسس استخدام کرد. او در حال حاضر در AGI House SF، یکی از محبوبترین خانههای هکری در منطقه خلیج برای عصر هوش مصنوعی زندگی میکند. یکی از سرمایه گذاران Pandey را به عنوان یک “آزمایشگاه تحقیقاتی یک نفره در Reworkd” توصیف کرد.
پاندی در مصاحبه ای با TechCrunch، با اشاره به دیدگاه تیم برنرز لی، مخترع وب جهانی که در آن رایانه ها می توانند کل اینترنت را بخوانند، گفت: «ما خود را نقطه اوج این رویای 30 ساله وب معنایی می دانیم. اگرچه برخی از وب سایت ها نشانه گذاری ندارند، LLM ها می توانند وب سایت ها را به همان روشی که انسان ها می توانند درک کنند، به طوری که ما می توانیم اساساً هر وب سایت را به عنوان یک API در معرض دید قرار دهیم. بنابراین به نوعی، Reworkd مانند لایه جهانی API برای اینترنت است.
Reworkd میگوید که میتواند نیازهای دادههای مشتری را در انتها دراز کند، به این معنی که عوامل هوش مصنوعی آن بهطور خاص برای از بین بردن هزاران وبسایت عمومی کوچکتر که رقبای بزرگ اغلب از آنها صرفنظر میکنند، خوب هستند. سایرین، مانند Bright Data، قبلاً برای وبسایتهای بزرگ مانند LinkedIn یا آمازون اسکراپرهایی دارند، اما ممکن است برای انسان ارزش این نداشته باشد که برای هر وبسایت کوچک یک اسکراپر بسازد. Reworkd این نگرانی را برطرف می کند، اما به طور بالقوه دیگران را مطرح می کند.
داده های وب «عمومی» دقیقاً چیست؟
اگرچه اسکراپرهای وب ده ها سال است که وجود داشته اند، اما در عصر هوش مصنوعی جنجال برانگیخته اند. خراش دادن بدون محدودیت در بخش های عظیمی از داده ها، OpenAI و Perplexity را با مشکل قانونی مواجه کرده است: سازمان های خبری و رسانه ای ادعا می کنند که شرکت های هوش مصنوعی مالکیت معنوی را از پشت یک دیوار پرداخت استخراج کرده و آن را به طور گسترده بدون پرداخت بازتولید می کنند. Reworkd در حال انجام اقدامات احتیاطی برای جلوگیری از این مشکلات است.
Shrestha، یکی از بنیانگذاران و مدیر عامل Reworkd، در مصاحبه ای با TechCrunch گفت: “ما به آن به عنوان ارتقای دسترسی به اطلاعات عمومی در دسترس نگاه می کنیم.” ما فقط به اطلاعاتی اجازه می دهیم که در دسترس عموم باشد. ما از دیوارهای ورود به سیستم یا چیزی شبیه به آن عبور نمی کنیم.»
برای اینکه قدمی فراتر بگذاریم، Reworkd میگوید که از انتشار اخبار بهکلی اجتناب میکند و در مورد افرادی که با آنها کار میکنند انتخابی است. Watkins، مدیر ارشد فناوری این شرکت، میگوید ابزارهای بهتری برای جمعآوری محتوای خبری در جاهای دیگر وجود دارد و تمرکز آنها بر این نیست.
Reworkd به عنوان نمونه ای از آنچه هست، کار خود را با Axis توضیح داد، شرکتی که به تیم های سیاست گذاری کمک می کند تا از مقررات دولتی پیروی کنند. Axis از هوش مصنوعی Reworkd برای استخراج داده ها از هزاران سند مقررات دولتی برای بسیاری از کشورهای اتحادیه اروپا استفاده می کند. سپس Axis یک مدل هوش مصنوعی را بر اساس این داده ها آموزش و تنظیم می کند و آن را به عنوان یک محصول به مشتریان ارائه می دهد.
به گفته آرون فیسک، شریک شرکت حقوقی گاندرسون دتمر مستقر در سیلیکون ولی، این روزها میتوان راهاندازی یک شرکت خراشدهنده وب را در قلمرو خطرناکی در نظر گرفت. در حال حاضر چشم انداز تا حدودی سیال است و هیئت منصفه هنوز در مورد اینکه واقعاً داده های وب «عمومی» برای مدل های هوش مصنوعی چقدر است. با این حال، Fiske میگوید رویکرد Reworkd، که در آن مشتریان تصمیم میگیرند چه وبسایتی را پاک کنند، ممکن است آنها را از مسئولیت قانونی مصون نگه دارد.
فیسک در مصاحبهای با TechCrunch گفت: «مثل این است که آنها دستگاه کپی را اختراع کردهاند، و یک مورد استفاده برای ساختن کپیهایی وجود دارد که از نظر اقتصادی بسیار ارزشمند است، اما از نظر قانونی نیز واقعاً مشکوک است. اینطور نیست که سرویسدهندههای وب که به شرکتهای هوش مصنوعی خدمات رسانی میکنند لزوماً خطرناک باشد، اما کار با شرکتهای هوش مصنوعی که واقعاً علاقهمند به جمعآوری محتوای دارای حق چاپ هستند، ممکن است یک مشکل باشد.»
به همین دلیل Reworkd مراقب است که با چه کسی کار می کند. خراش دهنده های وب تا کنون بسیاری از تقصیرها را در موارد نقض احتمالی حق نسخه برداری مرتبط با هوش مصنوعی پنهان کرده اند. در پرونده OpenAI، فیسک اشاره میکند که نیویورک تایمز از خراشدهنده وب که مقالات آن را جمعآوری کرده بود، شکایت نکرد، بلکه از شرکتی که ادعا میکرد کار آن را بازتولید کرده بود، شکایت کرد. اما حتی در آنجا، هنوز تصمیم گرفته نشده است که آیا کاری که OpenAI انجام داده واقعاً نقض حق چاپ بوده است یا خیر.
شواهد بیشتری وجود دارد مبنی بر اینکه اسکریپرهای وب از نظر قانونی در طول رونق هوش مصنوعی کاملاً روشن هستند. دادگاهی اخیراً پس از حذف پروفایل های فیس بوک و اینستاگرام از طریق وب، به نفع Bright Data رای داد. یک نمونه در پرونده دادگاه مجموعه داده ای از 615 میلیون رکورد از داده های کاربران اینستاگرام بود که Bright Data به قیمت 860000 دلار به فروش می رسد. متا از این شرکت شکایت کرد و مدعی شد که این شرایط شرایط خدمات آن را نقض کرده است. اما یک دادگاه حکم داد که این داده ها عمومی است و بنابراین در دسترس است.
سرمایه گذاران فکر می کنند که Reworkd با افراد بزرگ ترازویی می کند
Reworkd نام های بزرگی را به عنوان سرمایه گذاران اولیه جذب کرده است، از Y Combinator و Paul Graham گرفته تا Daniel Gross و Nat Friedman. برخی از سرمایه گذاران می گویند این به این دلیل است که فناوری Reworkd در کنار مدل های جدید بهبود یافته و ارزان تر می شود. این استارتآپ میگوید که GPT-4o OpenAI در حال حاضر بهترین برای تولید کد چندوجهی است و بسیاری از فناوری Reworkd تا همین چند ماه پیش امکانپذیر نبود.
ویت لو از جنرال کاتالیست به TechCrunch گفت: “اگر سعی کنید با سرعت پیشرفت فناوری رقابت کنید – نه اینکه بر روی آن پیشرفت کنید – پس فکر می کنم به عنوان یک بنیانگذار کار سختی خواهید داشت.” “Reworkd این ذهنیت را دارد که راه حل خود را بر اساس نرخ پیشرفت قرار دهد.”
Reworkd در حال ایجاد عوامل هوش مصنوعی است که یک شکاف خاص در بازار را برطرف می کند. شرکت ها به داده های بیشتری نیاز دارند زیرا هوش مصنوعی به سرعت در حال پیشرفت است. از آنجایی که شرکتهای بیشتری مدلهای هوش مصنوعی مخصوص کسبوکار خود را میسازند، Reworkd مشتریان بیشتری به دست میآورد. مدلهای تنظیم دقیق نیاز به کیفیت، دادههای ساختاریافته و بسیاری از آنها دارند.
Reworkd میگوید رویکردش «خود درمانی» است، به این معنی که اسکراپرهای وب آن به دلیل بهروزرسانی صفحه وب خراب نمیشوند. این استارت آپ ادعا می کند که از مسائل توهم که به طور سنتی با مدل های هوش مصنوعی مرتبط است جلوگیری می کند زیرا عوامل Reworkd در حال تولید کد برای خراش دادن یک وب سایت هستند. این احتمال وجود دارد که هوش مصنوعی اشتباه کند و داده های اشتباهی را از یک وب سایت بگیرد، اما تیم Reworkd ایجاد کرده است. بآنانا لیزریک چارچوب ارزیابی منبع باز، برای ارزیابی منظم دقت آن.
Reworkd لیست حقوق و دستمزد زیادی ندارد – تیم فقط چهار نفر است – اما باید هزینه های قابل توجهی را برای اجرای عوامل هوش مصنوعی خود متحمل شود. این استارتاپ انتظار دارد با کاهش این هزینه ها، قیمت گذاری آن به طور فزاینده ای رقابتی شود. OpenAI به تازگی GPT-4o mini را منتشر کرده است، نسخه کوچکتری از مدل پیشرو در صنعت خود با معیارهای رقابتی. نوآوری هایی مانند این می تواند Reworkd را رقابتی تر کند.
پل گراهام و AI Grant به درخواست TechCrunch برای اظهار نظر پاسخ ندادند.