نسخه ی نمایشی هوش مصنوعی Gemini گوگل برای واقعی بودن خیلی خوب است (به معنای واقعی کلمه)

این هفته، گوگل افت ویژگی دسامبر برای دستگاههای پیکسل با محتوای فراوانی همراه بود که آخرین نسخه چندوجهی این برند را به نمایش میگذاشت هوش مصنوعی، جوزا. در مجموعهای از ویدئوهایی که ویژگیهای کلیدی و منحصر به فرد این نرمافزار را برجسته میکنند، باهوشترین ذهنهای Google HQ با یک سری ادعاها و ارائههای جسورانه ما را شگفتزده کردند.
در حالی که ساندار پیچای و دمیس حسابیس، مدیران اجرایی گوگل در مورد درایوها و اشتیاق خود به پروژه Gemini صحبت می کنند، یک محو شدن آهسته از رنگ مشکی را وارد کنید که با “موسیقی-پیانو-پیانو-موسیقی-عمومی-آهسته-ساخت.mp3”. اسطوره آمریکایی فیلم استماع برای باهوش ترین گروه پسری که قابل تصور است.
طلوع یک دوره جوزا
چیزی که در ادامه دنبال شد، مجموعهای از لحظات صحبت کردن بود که برترینهای Googleplex آن لحظه را به صدا درآوردند، گویی آنها تازه فهمیدهاند که چگونه بازگشت مسیح را رمزگذاری کنند. بر خلاف بسیاری از مدلهای هوش مصنوعی، Gemini قادر است ترکیبی از متن، کد و رسانه را بهطور همزمان رمزگشایی کند تا زمینههای وسیعتری را که وظیفه دستیابی به آن را دارد، درک کند.
به عنوان مثال، در یکی از نمایشها، Gemini از قبل از طریق متن از او خواسته شد تا به عنوان دستیار آشپزخانه عمل کند، و سپس یک صدای ضبط شده به درخواست اضافه شد که در آن کاربر دستورالعملهایی را درباره نحوه شروع ساخت املت سبزیجات با استفاده از مواد موجود درخواست کرد. در نهایت، قبل از درخواست از Gemini برای ایجاد پاسخ، تصویری از مواد تشکیل دهنده اضافه شد.
در ویدیوی بالا، میتوانید ببینید که پاسخ Gemini نقش دستیار آشپزخانه را برگزیده، مواد موجود را مشاهده کرده و سپس اولین گام در تهیه املت سبزیجات را در قالب یک یادداشت صوتی ارائه کرده است. چیزهای چشمگیر، مطمئن باشید. به خصوص زمانی که کاربر توانست تصویری به روز شده از املت خود را در حال انجام به Gemini نشان دهد و از Gemini بپرسد که چطور پیش می رود، در حالی که هوش مصنوعی تشخیص می دهد که غذا از طرف دیگر آماده پختن است.
این همان هوش مصنوعی است عزیزم
البته، توانایی های Gemini بسیار فراتر از سرخ کردن ساده یک تخم مرغ است. برای نمایش کامل پتانسیل Gemini، گوگل یک نمایش عملی نزدیک به شش دقیقه ای با هوش مصنوعی آماده کرده بود.
در طی آن شش دقیقه، Gemini توانست یک دور از بازی پوسته را انجام دهد، تصویر نقطه به نقطه را حل کند، و در زمان واقعی (گاهی اوقات بدون درخواست) به یک نقاشی در هنگام ایجاد واکنش نشان دهد. همه اینها در حالی که درگیر مکالمه صوتی رفت و برگشتی هستید.
این نسخه ی نمایشی با ارائه مکالمه ای روان بین کاربر و هوش مصنوعی، برخی تکنیک های پیشرفته تشخیص تصویر و مقدار زیادی شخصیت، هوش مصنوعی رویاهای ما را به نمایش گذاشت – با توجه به اینکه تعاملات نمایش داده شده عمدتاً تخیلی بودند، یک بیانیه کاملاً مناسب.
جمینی دروغ می گوید
پس از انتشار ویدیوی “دستی”، پارمی اولسن، ستون نویس Bloomberg Opinion به سرعت به چاپ کوچک موجود در توضیحات ویدیو اشاره کرد، و چنین خواند: “برای اهداف این نسخه نمایشی، تاخیر کاهش یافته است و خروجی های Gemini برای اختصار کوتاه شده است.”
با این حال، طبق گفته بلومبرگ، هنگامی که از او برای اظهار نظر خواسته شد، گوگل این سلب مسئولیت را بیشتر گسترش داد – نشان داد که نسخه آزمایشی در زمان واقعی اتفاق نمیافتد، و همچنین شامل اعلانهای گفتاری نیز نمیشد.
در واقع، یکی از سخنگویان گوگل فاش کرد که این ویدیو با استفاده از «قابهای تصویر ثابت از فیلم و درخواست از طریق متن» ساخته شده است. در اصل، همان تعاملی که در مثال قبلی املت سبزیجات نشان داده شد.
در حالی که در نهایت هنوز چشمگیر است، ویدیوی ویرایش شده تا حدودی تجربه استفاده از Gemini را نادرست نشان می دهد – آن را به عنوان ابزاری بسیار تواناتر از آنچه در حال حاضر است، ترسیم می کند.
چشم انداز
مایه شرمساری است که گوگل تلاش کرد تا با این روش از تجربه Gemini دفاع کند، زیرا سایه بیهوده ای از شک بر مدل هوش مصنوعی جدید خود می اندازد. گوگل در سال گذشته در اثر انفجار هوش مصنوعی گرفتار شد و نفت نیمه شب را می سوزاند تا بتواند با رقبایی مانند OpenAI و مایکروسافت عقب بیفتد. گمراه کردن کاربران به این وضعیت کمکی نمی کند.
اما چقدر این ویدیو در واقعیت فاحش بود؟ من به گوگل بارداگر میخواهید از مدل Gemini برای آزمایش اولیه استفاده کنید، Google توصیه میکند از آن بازدید کنید تا برخی از نمونههایی که در ویدیوی «دستی» دیده میشود را برای خودم ارائه کنم. نتایج… خوب، امیدوارکننده نیست.
در حالی که کمی ناامید هستم از اینکه گوگل خود را به سطوح «گلولهزنی» فروشگاه یوبی سافت کاهش داد تا هوش مصنوعی چندوجهی جدیدش را جذابتر کند، من همچنان تحت تأثیر آنچه گوگل باید نشان میداد – حتی اگر بسیاری از چیزهایی که جمینی در تصویر نشان داده میشود همان چیزی باشد که بارد بود. در حال حاضر به عنوان توانایی در حال حاضر تبلیغ می شود (اگرچه، مسلماً، ناکام است).
گوگل هنوز تا رسیدن به این بسته راه زیادی در پیش دارد. و در حالی که من احساس می کنم که آنها به عنوان یک شرکت بیش از حد توانایی انجام این کار را دارند، فکر نمی کنم ویدیوهای گمراه کننده به هیچ وجه کمک کننده باشد.
بازگشت به لپ تاپ