کار آفرینی و استارتاپ

O3 OpenAI نشان می‌دهد که مدل‌های هوش مصنوعی به روش‌های جدیدی در حال گسترش هستند – اما هزینه‌ها نیز همین‌طور است


ماه گذشته، بنیان‌گذاران و سرمایه‌گذاران هوش مصنوعی به TechCrunch گفتند که ما اکنون در «دوره دوم قوانین مقیاس‌بندی» هستیم و به این نکته اشاره کردند که چگونه روش‌های تثبیت‌شده برای بهبود مدل‌های هوش مصنوعی بازدهی رو به کاهشی را نشان می‌دهند. یکی از روش‌های نویدبخش جدید که آنها پیشنهاد کردند می‌تواند دستاوردها را حفظ کند، «مقیاس‌سازی زمان آزمایش» بود، که به نظر می‌رسد پشت عملکرد مدل o3 OpenAI است – اما خود دارای اشکالاتی است.

بسیاری از دنیای هوش مصنوعی اعلام مدل o3 OpenAI را به عنوان دلیلی بر این موضوع تلقی کردند که پیشرفت مقیاس‌بندی هوش مصنوعی «به دیوار برخورد نکرده است». مدل o3 در معیارها به خوبی عمل می کند، به طور قابل توجهی از تمام مدل های دیگر در آزمون توانایی عمومی به نام ARC-AGI پیشی می گیرد و در یک آزمون 25 درصد امتیاز کسب می کند. آزمون سخت ریاضی که هیچ مدل هوش مصنوعی دیگری امتیازی بیش از 2 درصد کسب نکرده است.

البته، ما در TechCrunch همه اینها را تا زمانی که بتوانیم o3 را برای خودمان آزمایش کنیم (تعداد بسیار کمی تا کنون آن را امتحان کرده اند) با مقداری نمک مصرف می کنیم. اما حتی قبل از انتشار o3، دنیای هوش مصنوعی از قبل متقاعد شده است که چیزی بزرگ تغییر کرده است.

نوام براون، یکی از خالقان سری مدل‌های OpenAI، روز جمعه خاطرنشان کرد که این استارت‌آپ تنها سه ماه پس از اعلام o1 توسط استارت‌آپ، دستاوردهای چشمگیر o3 را اعلام می‌کند – یک بازه زمانی نسبتاً کوتاه برای چنین جهشی در عملکرد.

براون در مصاحبه ای گفت: «ما دلایل زیادی داریم که باور کنیم این مسیر ادامه خواهد داشت توییت.

جک کلارک یکی از بنیانگذاران Anthropic در یک پست وبلاگ روز دوشنبه، o3 شواهدی است که نشان می دهد هوش مصنوعی “پیشرفت در سال 2025 سریعتر از سال 2024 خواهد بود.” (به خاطر داشته باشید که به نفع آنتروپیک – به ویژه توانایی آن در افزایش سرمایه – است که نشان می دهد قوانین مقیاس بندی هوش مصنوعی همچنان ادامه دارند، حتی اگر کلارک مکمل یک رقیب باشد.)

کلارک می‌گوید که در سال آینده، دنیای هوش مصنوعی مقیاس‌گذاری در زمان آزمایش و روش‌های سنتی مقیاس‌گذاری قبل از آموزش را با هم ترکیب خواهد کرد تا بازدهی بیشتری از مدل‌های هوش مصنوعی به دست آورد. شاید او پیشنهاد می کند که Anthropic و سایر ارائه دهندگان مدل های هوش مصنوعی، مدل های استدلالی خود را در سال 2025 منتشر کنند، درست مانند گوگل در هفته گذشته.

مقیاس‌بندی زمان تست به این معنی است که OpenAI از محاسبات بیشتری در مرحله استنتاج ChatGPT استفاده می‌کند، دوره زمانی پس از فشار دادن enter در یک فرمان. دقیقاً مشخص نیست که پشت صحنه چه اتفاقی می‌افتد: OpenAI یا از تراشه‌های رایانه‌ای بیشتر برای پاسخ به سؤال کاربر استفاده می‌کند، تراشه‌های استنتاج قوی‌تری را اجرا می‌کند، یا آن تراشه‌ها را برای مدت زمان طولانی‌تری (در برخی موارد 10 تا 15 دقیقه) اجرا می‌کند. هوش مصنوعی پاسخی را تولید می کند. ما تمام جزئیات نحوه ساخت o3 را نمی دانیم، اما این معیارها نشانه های اولیه ای هستند که نشان می دهد مقیاس زمان تست ممکن است برای بهبود عملکرد مدل های هوش مصنوعی کار کند.

در حالی که o3 ممکن است به برخی از افراد نسبت به پیشرفت قوانین مقیاس‌بندی هوش مصنوعی اعتقاد تازه‌ای بدهد، جدیدترین مدل OpenAI از سطح محاسباتی که قبلاً دیده نشده بود، استفاده می‌کند که به معنای قیمت بالاتر برای هر پاسخ است.

شاید تنها نکته مهم در اینجا درک این موضوع باشد که یکی از دلایلی که O3 بسیار بهتر است این است که اجرای آن در زمان استنتاج هزینه بیشتری دارد – توانایی استفاده از محاسبه زمان آزمون به معنی برخی از مشکلات است که می توانید محاسبه را به پاسخ بهتری تبدیل کنید. کلارک در وبلاگ خود می نویسد. این جالب است زیرا هزینه‌های اجرای سیستم‌های هوش مصنوعی را تا حدودی کمتر قابل پیش‌بینی کرده است – قبلاً، می‌توانستید با نگاه کردن به مدل و هزینه تولید یک خروجی مشخص، میزان هزینه ارائه یک مدل تولیدی را محاسبه کنید.

کلارک و دیگران به عملکرد o3 در معیار ARC-AGI – آزمونی دشوار که برای ارزیابی پیشرفت‌ها در AGI استفاده می‌شود – به عنوان شاخصی از پیشرفت آن اشاره کردند. شایان ذکر است که قبولی در این آزمون به گفته سازندگان آن به معنای مدل هوش مصنوعی نیست به دست آورده است AGI، بلکه یکی از راه‌های سنجش پیشرفت به سوی هدف مبهم است. با این حال، مدل o3 نمرات تمام مدل‌های قبلی هوش مصنوعی را که آزمایش را انجام داده بودند، پشت سر گذاشت و در یکی از تلاش‌های خود موفق به کسب 88 درصد شد. بهترین مدل هوش مصنوعی بعدی OpenAI، o1، تنها 32 درصد امتیاز کسب کرد.

نموداری که عملکرد سری o OpenAI را در تست ARC-AGI نشان می دهد.اعتبار تصویر:جایزه ARC

اما محور x لگاریتمی در این نمودار ممکن است برای برخی هشدار دهنده باشد. نسخه با امتیاز بالای o3 برای هر کار بیش از 1000 دلار محاسبه کرده است. مدل‌های o1 حدود 5 دلار برای هر کار محاسبه می‌کردند و o1-mini فقط چند سنت استفاده می‌کرد.

خالق معیار ARC-AGI، فرانسوا شوله، در وبلاگ که OpenAI تقریباً 170 برابر بیشتر از محاسبات برای ایجاد آن امتیاز 88 درصد استفاده کرد، در مقایسه با نسخه با کارایی بالا o3 که فقط 12 درصد امتیاز کمتری کسب کرد. نسخه پر امتیاز o3 از بیش از 10000 دلار منابع برای تکمیل تست استفاده کرد که رقابت برای جایزه ARC را بسیار گران می کند – رقابتی بی نظیر برای مدل های هوش مصنوعی برای شکست دادن تست ARC.

با این حال، Chollet می‌گوید که o3 هنوز یک پیشرفت برای مدل‌های هوش مصنوعی است.

Chollet در وبلاگ می‌گوید: «o3 سیستمی است که قادر به تطبیق با وظایفی است که قبلاً هرگز با آن‌ها مواجه نشده بود و احتمالاً به عملکرد سطح انسانی در دامنه ARC-AGI نزدیک می‌شود. «البته، چنین کلیاتی هزینه گزافی دارد و هنوز کاملاً مقرون به صرفه نیست: می‌توانید به یک انسان برای حل وظایف ARC-AGI تقریباً 5 دلار برای هر کار بپردازید (می‌دانیم، ما این کار را انجام دادیم)، در حالی که صرفاً سنت مصرف می‌کند. در انرژی.»

هنوز زود است که قیمت دقیق همه این موارد را بررسی کنیم – ما شاهد کاهش قیمت‌های مدل‌های هوش مصنوعی در سال گذشته بوده‌ایم، و OpenAI هنوز اعلام نکرده است که واقعاً چقدر هزینه o3 خواهد داشت. با این حال، این قیمت‌ها نشان می‌دهند که چقدر محاسبات برای شکستن، حتی اندکی، موانع عملکردی که توسط مدل‌های پیشرو هوش مصنوعی امروزی تعیین می‌شود، مورد نیاز است.

این چند سوال را ایجاد می کند. o3 در واقع برای چیست؟ و چقدر محاسبات بیشتر لازم است تا با استفاده از o4، o5، یا هر چیز دیگری که OpenAI مدل‌های استدلال بعدی خود را نام می‌برد، دستاوردهای بیشتری در مورد استنتاج حاصل شود؟

به نظر نمی رسد که o3، یا جانشینان آن، “درایور روزانه” هر کسی مانند GPT-4o یا جستجوی گوگل باشد. این مدل‌ها فقط از محاسبات بیش از حد برای پاسخ دادن به سؤالات کوچک در طول روز استفاده می‌کنند، مانند «چطور کلیولند براونز هنوز می‌تواند به پلی آف ۲۰۲۴ راه پیدا کند؟»

درعوض، به نظر می‌رسد که مدل‌های هوش مصنوعی با محاسبه زمان تست مقیاس‌شده ممکن است فقط برای اعلان‌های تصویری بزرگ مانند «چطور کلیولند براونز می‌تواند در سال 2027 به یک مجموعه Super Bowl تبدیل شود؟» خوب باشد. حتی در آن زمان، شاید تنها زمانی ارزش هزینه‌های محاسباتی بالا را داشته باشد که مدیر کل کلیولند براونز باشید و از این ابزارها برای گرفتن تصمیم‌های بزرگ استفاده کنید.

همانطور که پروفسور وارتون، ایتان مولیک، در مقاله ای اشاره می کند، موسساتی با جیب های عمیق ممکن است تنها مؤسساتی باشند که می توانند حداقل برای شروع O3 بپردازند. توییت

ما قبلاً شاهد بودیم که OpenAI یک لایه 200 دلاری برای استفاده از یک نسخه محاسباتی بالا از o1 منتشر کرد، اما این استارتاپ طبق گزارشات، ایجاد طرح های اشتراک با هزینه تا 2000 دلار وزن داشت. وقتی می بینید که o3 چقدر از محاسبه استفاده می کند، می توانید بفهمید که چرا OpenAI آن را در نظر می گیرد.

اما استفاده از o3 برای کارهای با تاثیر بالا دارای اشکالاتی است. همانطور که Chollet اشاره می کند، o3 AGI نیست، و هنوز هم در برخی از کارهای بسیار آسان که یک انسان به راحتی انجام می دهد شکست می خورد.

این لزوماً تعجب‌آور نیست، زیرا مدل‌های زبان بزرگ هنوز یک مشکل توهم بزرگ دارند که به نظر نمی‌رسد o3 و محاسبه زمان آزمون آن را حل کرده باشند. به همین دلیل است که ChatGPT و Gemini در زیر هر پاسخی که ارائه می‌کنند، سلب مسئولیت می‌کنند و از کاربران می‌خواهند که به پاسخ‌ها در ارزش اسمی اعتماد نکنند. احتمالاً AGI، در صورت رسیدن به آن، نیازی به چنین سلب مسئولیتی نخواهد داشت.

یکی از راه‌های باز کردن سود بیشتر در مقیاس‌بندی زمان تست می‌تواند تراشه‌های استنتاج هوش مصنوعی بهتر باشد. استارت‌آپ‌هایی مانند Groq یا Cerebras که فقط به این موضوع رسیدگی می‌کنند کمبودی ندارند، در حالی که استارت‌آپ‌های دیگر در حال طراحی تراشه‌های هوش مصنوعی مقرون‌به‌صرفه‌تر هستند، مانند MatX. شریک عمومی Andreessen Horowitz، Anjney Midha، قبلاً به TechCrunch گفته بود که انتظار دارد این استارت‌آپ‌ها نقش بزرگ‌تری در مقیاس‌بندی زمان آزمون در حرکت رو به جلو ایفا کنند.

در حالی که o3 یک بهبود قابل توجه در عملکرد مدل های هوش مصنوعی است، چندین سوال جدید در مورد استفاده و هزینه ها ایجاد می کند. با این حال، عملکرد o3 به این ادعا که محاسبات در زمان آزمایش بهترین راه بعدی صنعت فناوری برای مقیاس‌بندی مدل‌های هوش مصنوعی است، اعتبار می‌افزاید.

TechCrunch یک خبرنامه متمرکز بر هوش مصنوعی دارد! اینجا ثبت نام کنید تا هر چهارشنبه آن را در صندوق پستی خود دریافت کنید.





منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا