O3 OpenAI نشان میدهد که مدلهای هوش مصنوعی به روشهای جدیدی در حال گسترش هستند – اما هزینهها نیز همینطور است

ماه گذشته، بنیانگذاران و سرمایهگذاران هوش مصنوعی به TechCrunch گفتند که ما اکنون در «دوره دوم قوانین مقیاسبندی» هستیم و به این نکته اشاره کردند که چگونه روشهای تثبیتشده برای بهبود مدلهای هوش مصنوعی بازدهی رو به کاهشی را نشان میدهند. یکی از روشهای نویدبخش جدید که آنها پیشنهاد کردند میتواند دستاوردها را حفظ کند، «مقیاسسازی زمان آزمایش» بود، که به نظر میرسد پشت عملکرد مدل o3 OpenAI است – اما خود دارای اشکالاتی است.
بسیاری از دنیای هوش مصنوعی اعلام مدل o3 OpenAI را به عنوان دلیلی بر این موضوع تلقی کردند که پیشرفت مقیاسبندی هوش مصنوعی «به دیوار برخورد نکرده است». مدل o3 در معیارها به خوبی عمل می کند، به طور قابل توجهی از تمام مدل های دیگر در آزمون توانایی عمومی به نام ARC-AGI پیشی می گیرد و در یک آزمون 25 درصد امتیاز کسب می کند. آزمون سخت ریاضی که هیچ مدل هوش مصنوعی دیگری امتیازی بیش از 2 درصد کسب نکرده است.
البته، ما در TechCrunch همه اینها را تا زمانی که بتوانیم o3 را برای خودمان آزمایش کنیم (تعداد بسیار کمی تا کنون آن را امتحان کرده اند) با مقداری نمک مصرف می کنیم. اما حتی قبل از انتشار o3، دنیای هوش مصنوعی از قبل متقاعد شده است که چیزی بزرگ تغییر کرده است.
نوام براون، یکی از خالقان سری مدلهای OpenAI، روز جمعه خاطرنشان کرد که این استارتآپ تنها سه ماه پس از اعلام o1 توسط استارتآپ، دستاوردهای چشمگیر o3 را اعلام میکند – یک بازه زمانی نسبتاً کوتاه برای چنین جهشی در عملکرد.
براون در مصاحبه ای گفت: «ما دلایل زیادی داریم که باور کنیم این مسیر ادامه خواهد داشت توییت.
جک کلارک یکی از بنیانگذاران Anthropic در یک پست وبلاگ روز دوشنبه، o3 شواهدی است که نشان می دهد هوش مصنوعی “پیشرفت در سال 2025 سریعتر از سال 2024 خواهد بود.” (به خاطر داشته باشید که به نفع آنتروپیک – به ویژه توانایی آن در افزایش سرمایه – است که نشان می دهد قوانین مقیاس بندی هوش مصنوعی همچنان ادامه دارند، حتی اگر کلارک مکمل یک رقیب باشد.)
کلارک میگوید که در سال آینده، دنیای هوش مصنوعی مقیاسگذاری در زمان آزمایش و روشهای سنتی مقیاسگذاری قبل از آموزش را با هم ترکیب خواهد کرد تا بازدهی بیشتری از مدلهای هوش مصنوعی به دست آورد. شاید او پیشنهاد می کند که Anthropic و سایر ارائه دهندگان مدل های هوش مصنوعی، مدل های استدلالی خود را در سال 2025 منتشر کنند، درست مانند گوگل در هفته گذشته.
مقیاسبندی زمان تست به این معنی است که OpenAI از محاسبات بیشتری در مرحله استنتاج ChatGPT استفاده میکند، دوره زمانی پس از فشار دادن enter در یک فرمان. دقیقاً مشخص نیست که پشت صحنه چه اتفاقی میافتد: OpenAI یا از تراشههای رایانهای بیشتر برای پاسخ به سؤال کاربر استفاده میکند، تراشههای استنتاج قویتری را اجرا میکند، یا آن تراشهها را برای مدت زمان طولانیتری (در برخی موارد 10 تا 15 دقیقه) اجرا میکند. هوش مصنوعی پاسخی را تولید می کند. ما تمام جزئیات نحوه ساخت o3 را نمی دانیم، اما این معیارها نشانه های اولیه ای هستند که نشان می دهد مقیاس زمان تست ممکن است برای بهبود عملکرد مدل های هوش مصنوعی کار کند.
در حالی که o3 ممکن است به برخی از افراد نسبت به پیشرفت قوانین مقیاسبندی هوش مصنوعی اعتقاد تازهای بدهد، جدیدترین مدل OpenAI از سطح محاسباتی که قبلاً دیده نشده بود، استفاده میکند که به معنای قیمت بالاتر برای هر پاسخ است.
شاید تنها نکته مهم در اینجا درک این موضوع باشد که یکی از دلایلی که O3 بسیار بهتر است این است که اجرای آن در زمان استنتاج هزینه بیشتری دارد – توانایی استفاده از محاسبه زمان آزمون به معنی برخی از مشکلات است که می توانید محاسبه را به پاسخ بهتری تبدیل کنید. کلارک در وبلاگ خود می نویسد. این جالب است زیرا هزینههای اجرای سیستمهای هوش مصنوعی را تا حدودی کمتر قابل پیشبینی کرده است – قبلاً، میتوانستید با نگاه کردن به مدل و هزینه تولید یک خروجی مشخص، میزان هزینه ارائه یک مدل تولیدی را محاسبه کنید.
کلارک و دیگران به عملکرد o3 در معیار ARC-AGI – آزمونی دشوار که برای ارزیابی پیشرفتها در AGI استفاده میشود – به عنوان شاخصی از پیشرفت آن اشاره کردند. شایان ذکر است که قبولی در این آزمون به گفته سازندگان آن به معنای مدل هوش مصنوعی نیست به دست آورده است AGI، بلکه یکی از راههای سنجش پیشرفت به سوی هدف مبهم است. با این حال، مدل o3 نمرات تمام مدلهای قبلی هوش مصنوعی را که آزمایش را انجام داده بودند، پشت سر گذاشت و در یکی از تلاشهای خود موفق به کسب 88 درصد شد. بهترین مدل هوش مصنوعی بعدی OpenAI، o1، تنها 32 درصد امتیاز کسب کرد.
اما محور x لگاریتمی در این نمودار ممکن است برای برخی هشدار دهنده باشد. نسخه با امتیاز بالای o3 برای هر کار بیش از 1000 دلار محاسبه کرده است. مدلهای o1 حدود 5 دلار برای هر کار محاسبه میکردند و o1-mini فقط چند سنت استفاده میکرد.
خالق معیار ARC-AGI، فرانسوا شوله، در وبلاگ که OpenAI تقریباً 170 برابر بیشتر از محاسبات برای ایجاد آن امتیاز 88 درصد استفاده کرد، در مقایسه با نسخه با کارایی بالا o3 که فقط 12 درصد امتیاز کمتری کسب کرد. نسخه پر امتیاز o3 از بیش از 10000 دلار منابع برای تکمیل تست استفاده کرد که رقابت برای جایزه ARC را بسیار گران می کند – رقابتی بی نظیر برای مدل های هوش مصنوعی برای شکست دادن تست ARC.
با این حال، Chollet میگوید که o3 هنوز یک پیشرفت برای مدلهای هوش مصنوعی است.
Chollet در وبلاگ میگوید: «o3 سیستمی است که قادر به تطبیق با وظایفی است که قبلاً هرگز با آنها مواجه نشده بود و احتمالاً به عملکرد سطح انسانی در دامنه ARC-AGI نزدیک میشود. «البته، چنین کلیاتی هزینه گزافی دارد و هنوز کاملاً مقرون به صرفه نیست: میتوانید به یک انسان برای حل وظایف ARC-AGI تقریباً 5 دلار برای هر کار بپردازید (میدانیم، ما این کار را انجام دادیم)، در حالی که صرفاً سنت مصرف میکند. در انرژی.»
هنوز زود است که قیمت دقیق همه این موارد را بررسی کنیم – ما شاهد کاهش قیمتهای مدلهای هوش مصنوعی در سال گذشته بودهایم، و OpenAI هنوز اعلام نکرده است که واقعاً چقدر هزینه o3 خواهد داشت. با این حال، این قیمتها نشان میدهند که چقدر محاسبات برای شکستن، حتی اندکی، موانع عملکردی که توسط مدلهای پیشرو هوش مصنوعی امروزی تعیین میشود، مورد نیاز است.
این چند سوال را ایجاد می کند. o3 در واقع برای چیست؟ و چقدر محاسبات بیشتر لازم است تا با استفاده از o4، o5، یا هر چیز دیگری که OpenAI مدلهای استدلال بعدی خود را نام میبرد، دستاوردهای بیشتری در مورد استنتاج حاصل شود؟
به نظر نمی رسد که o3، یا جانشینان آن، “درایور روزانه” هر کسی مانند GPT-4o یا جستجوی گوگل باشد. این مدلها فقط از محاسبات بیش از حد برای پاسخ دادن به سؤالات کوچک در طول روز استفاده میکنند، مانند «چطور کلیولند براونز هنوز میتواند به پلی آف ۲۰۲۴ راه پیدا کند؟»
درعوض، به نظر میرسد که مدلهای هوش مصنوعی با محاسبه زمان تست مقیاسشده ممکن است فقط برای اعلانهای تصویری بزرگ مانند «چطور کلیولند براونز میتواند در سال 2027 به یک مجموعه Super Bowl تبدیل شود؟» خوب باشد. حتی در آن زمان، شاید تنها زمانی ارزش هزینههای محاسباتی بالا را داشته باشد که مدیر کل کلیولند براونز باشید و از این ابزارها برای گرفتن تصمیمهای بزرگ استفاده کنید.
همانطور که پروفسور وارتون، ایتان مولیک، در مقاله ای اشاره می کند، موسساتی با جیب های عمیق ممکن است تنها مؤسساتی باشند که می توانند حداقل برای شروع O3 بپردازند. توییت
ما قبلاً شاهد بودیم که OpenAI یک لایه 200 دلاری برای استفاده از یک نسخه محاسباتی بالا از o1 منتشر کرد، اما این استارتاپ طبق گزارشات، ایجاد طرح های اشتراک با هزینه تا 2000 دلار وزن داشت. وقتی می بینید که o3 چقدر از محاسبه استفاده می کند، می توانید بفهمید که چرا OpenAI آن را در نظر می گیرد.
اما استفاده از o3 برای کارهای با تاثیر بالا دارای اشکالاتی است. همانطور که Chollet اشاره می کند، o3 AGI نیست، و هنوز هم در برخی از کارهای بسیار آسان که یک انسان به راحتی انجام می دهد شکست می خورد.
این لزوماً تعجبآور نیست، زیرا مدلهای زبان بزرگ هنوز یک مشکل توهم بزرگ دارند که به نظر نمیرسد o3 و محاسبه زمان آزمون آن را حل کرده باشند. به همین دلیل است که ChatGPT و Gemini در زیر هر پاسخی که ارائه میکنند، سلب مسئولیت میکنند و از کاربران میخواهند که به پاسخها در ارزش اسمی اعتماد نکنند. احتمالاً AGI، در صورت رسیدن به آن، نیازی به چنین سلب مسئولیتی نخواهد داشت.
یکی از راههای باز کردن سود بیشتر در مقیاسبندی زمان تست میتواند تراشههای استنتاج هوش مصنوعی بهتر باشد. استارتآپهایی مانند Groq یا Cerebras که فقط به این موضوع رسیدگی میکنند کمبودی ندارند، در حالی که استارتآپهای دیگر در حال طراحی تراشههای هوش مصنوعی مقرونبهصرفهتر هستند، مانند MatX. شریک عمومی Andreessen Horowitz، Anjney Midha، قبلاً به TechCrunch گفته بود که انتظار دارد این استارتآپها نقش بزرگتری در مقیاسبندی زمان آزمون در حرکت رو به جلو ایفا کنند.
در حالی که o3 یک بهبود قابل توجه در عملکرد مدل های هوش مصنوعی است، چندین سوال جدید در مورد استفاده و هزینه ها ایجاد می کند. با این حال، عملکرد o3 به این ادعا که محاسبات در زمان آزمایش بهترین راه بعدی صنعت فناوری برای مقیاسبندی مدلهای هوش مصنوعی است، اعتبار میافزاید.
TechCrunch یک خبرنامه متمرکز بر هوش مصنوعی دارد! اینجا ثبت نام کنید تا هر چهارشنبه آن را در صندوق پستی خود دریافت کنید.