نسخه ی نمایشی هوش مصنوعی Gemini گوگل برای واقعی بودن خیلی خوب است (به معنای واقعی کلمه)

دسامبر 8, 2023

0 خواندن این مطلب 4 دقیقه زمان میبرد

این هفته، گوگل افت ویژگی دسامبر برای دستگاه‌های پیکسل با محتوای فراوانی همراه بود که آخرین نسخه چندوجهی این برند را به نمایش می‌گذاشت هوش مصنوعی، جوزا. در مجموعه‌ای از ویدئوهایی که ویژگی‌های کلیدی و منحصر به فرد این نرم‌افزار را برجسته می‌کنند، باهوش‌ترین ذهن‌های Google HQ با یک سری ادعاها و ارائه‌های جسورانه ما را شگفت‌زده کردند.

در حالی که ساندار پیچای و دمیس حسابیس، مدیران اجرایی گوگل در مورد درایوها و اشتیاق خود به پروژه Gemini صحبت می کنند، یک محو شدن آهسته از رنگ مشکی را وارد کنید که با “موسیقی-پیانو-پیانو-موسیقی-عمومی-آهسته-ساخت.mp3”. اسطوره آمریکایی فیلم استماع برای باهوش ترین گروه پسری که قابل تصور است.

طلوع یک دوره جوزا

چیزی که در ادامه دنبال شد، مجموعه‌ای از لحظات صحبت کردن بود که برترین‌های Googleplex آن لحظه را به صدا درآوردند، گویی آنها تازه فهمیده‌اند که چگونه بازگشت مسیح را رمزگذاری کنند. بر خلاف بسیاری از مدل‌های هوش مصنوعی، Gemini قادر است ترکیبی از متن، کد و رسانه را به‌طور هم‌زمان رمزگشایی کند تا زمینه‌های وسیع‌تری را که وظیفه دستیابی به آن را دارد، درک کند.

به عنوان مثال، در یکی از نمایش‌ها، Gemini از قبل از طریق متن از او خواسته شد تا به عنوان دستیار آشپزخانه عمل کند، و سپس یک صدای ضبط شده به درخواست اضافه شد که در آن کاربر دستورالعمل‌هایی را درباره نحوه شروع ساخت املت سبزیجات با استفاده از مواد موجود درخواست کرد. در نهایت، قبل از درخواست از Gemini برای ایجاد پاسخ، تصویری از مواد تشکیل دهنده اضافه شد.

در ویدیوی بالا، می‌توانید ببینید که پاسخ Gemini نقش دستیار آشپزخانه را برگزیده، مواد موجود را مشاهده کرده و سپس اولین گام در تهیه املت سبزیجات را در قالب یک یادداشت صوتی ارائه کرده است. چیزهای چشمگیر، مطمئن باشید. به خصوص زمانی که کاربر توانست تصویری به روز شده از املت خود را در حال انجام به Gemini نشان دهد و از Gemini بپرسد که چطور پیش می رود، در حالی که هوش مصنوعی تشخیص می دهد که غذا از طرف دیگر آماده پختن است.

این همان هوش مصنوعی است عزیزم

البته، توانایی های Gemini بسیار فراتر از سرخ کردن ساده یک تخم مرغ است. برای نمایش کامل پتانسیل Gemini، گوگل یک نمایش عملی نزدیک به شش دقیقه ای با هوش مصنوعی آماده کرده بود.

در طی آن شش دقیقه، Gemini توانست یک دور از بازی پوسته را انجام دهد، تصویر نقطه به نقطه را حل کند، و در زمان واقعی (گاهی اوقات بدون درخواست) به یک نقاشی در هنگام ایجاد واکنش نشان دهد. همه اینها در حالی که درگیر مکالمه صوتی رفت و برگشتی هستید.

این نسخه ی نمایشی با ارائه مکالمه ای روان بین کاربر و هوش مصنوعی، برخی تکنیک های پیشرفته تشخیص تصویر و مقدار زیادی شخصیت، هوش مصنوعی رویاهای ما را به نمایش گذاشت – با توجه به اینکه تعاملات نمایش داده شده عمدتاً تخیلی بودند، یک بیانیه کاملاً مناسب.

جمینی دروغ می گوید

پس از انتشار ویدیوی “دستی”، پارمی اولسن، ستون نویس Bloomberg Opinion به سرعت به چاپ کوچک موجود در توضیحات ویدیو اشاره کرد، و چنین خواند: “برای اهداف این نسخه نمایشی، تاخیر کاهش یافته است و خروجی های Gemini برای اختصار کوتاه شده است.”

با این حال، طبق گفته بلومبرگ، هنگامی که از او برای اظهار نظر خواسته شد، گوگل این سلب مسئولیت را بیشتر گسترش داد – نشان داد که نسخه آزمایشی در زمان واقعی اتفاق نمی‌افتد، و همچنین شامل اعلان‌های گفتاری نیز نمی‌شد.

در واقع، یکی از سخنگویان گوگل فاش کرد که این ویدیو با استفاده از «قاب‌های تصویر ثابت از فیلم و درخواست از طریق متن» ساخته شده است. در اصل، همان تعاملی که در مثال قبلی املت سبزیجات نشان داده شد.

در حالی که در نهایت هنوز چشمگیر است، ویدیوی ویرایش شده تا حدودی تجربه استفاده از Gemini را نادرست نشان می دهد – آن را به عنوان ابزاری بسیار تواناتر از آنچه در حال حاضر است، ترسیم می کند.

چشم انداز

مایه شرمساری است که گوگل تلاش کرد تا با این روش از تجربه Gemini دفاع کند، زیرا سایه بیهوده ای از شک بر مدل هوش مصنوعی جدید خود می اندازد. گوگل در سال گذشته در اثر انفجار هوش مصنوعی گرفتار شد و نفت نیمه شب را می سوزاند تا بتواند با رقبایی مانند OpenAI و مایکروسافت عقب بیفتد. گمراه کردن کاربران به این وضعیت کمکی نمی کند.

اما چقدر این ویدیو در واقعیت فاحش بود؟ من به گوگل بارداگر می‌خواهید از مدل Gemini برای آزمایش اولیه استفاده کنید، Google توصیه می‌کند از آن بازدید کنید تا برخی از نمونه‌هایی که در ویدیوی «دستی» دیده می‌شود را برای خودم ارائه کنم. نتایج… خوب، امیدوارکننده نیست.

قابلیت‌های پیش‌فرض بارد که توسط جمینی بهبود یافته است، هنوز چیزهای زیادی را برای خود باقی می‌گذارد، به طوری که هوش مصنوعی قادر به تشخیص چپ و راست از بالا و پایین نیست و متوجه نمی‌شود که یک دوچرخه دارای چرخ‌های مربعی است و در عین حال تفاوت‌های دیگری را بین این دو ابداع می‌کند. (اعتبار تصویر: Laptop Mag / Rael Hornby)

در حالی که کمی ناامید هستم از اینکه گوگل خود را به سطوح «گلوله‌زنی» فروشگاه یوبی سافت کاهش داد تا هوش مصنوعی چندوجهی جدیدش را جذاب‌تر کند، من همچنان تحت تأثیر آنچه گوگل باید نشان می‌داد – حتی اگر بسیاری از چیزهایی که جمینی در تصویر نشان داده می‌شود همان چیزی باشد که بارد بود. در حال حاضر به عنوان توانایی در حال حاضر تبلیغ می شود (اگرچه، مسلماً، ناکام است).

گوگل هنوز تا رسیدن به این بسته راه زیادی در پیش دارد. و در حالی که من احساس می کنم که آنها به عنوان یک شرکت بیش از حد توانایی انجام این کار را دارند، فکر نمی کنم ویدیوهای گمراه کننده به هیچ وجه کمک کننده باشد.

بازگشت به لپ تاپ

معاملات بیشتر را بارگیری کنید

منبع

دسامبر 8, 2023

0 خواندن این مطلب 4 دقیقه زمان میبرد

طلوع یک دوره جوزا

شرکت ارز دیجیتال نیجریه Bitmama یک میلیون دلار برای استارتاپی که در ماه فوریه 3 میلیون دلار جمع آوری کرده بود پرداخت می کند.

در حالی که بیت کوین 44 هزار دلار بر روی داده های شغلی ایالات متحده می چرخد، بازارها کاهش نرخ فدرال رزرو را مجدداً بررسی می کنند

دیدگاهتان را بنویسید لغو پاسخ