دانش و فناوریموبایل و تبلت

با GPT-4o، ChatGPT می تواند هنری با متن قابل خواندن تولید کند


خوراکی های کلیدی

  • ChatGPT یک مدل جدید به نام GPT-4o دارد و می تواند متن، تصاویر و صدا را با هم ادغام کند.
  • مهمتر از آن، مدل جدید امکان قرار دادن متن صحیح روی تصاویر تولید شده را می دهد.
  • قابلیت های به روز شده GPT-4o می تواند به طراحی گرافیک کمک کند. همچنین نیازی به اشتراک پولی ندارد و یک برنامه دسکتاپ نیز وجود دارد.


ChatGPT می‌تواند متن را پخش کند و با ادغام DALL-E، تصاویر را ایجاد کند، اما از پلتفرم هوش مصنوعی بخواهد این دو را ترکیب کند و نتیجه معمولاً یک آشفتگی ناخوانا و درهم است. با این حال، با انتقال به GPT-4o یا Omni ChatGPT، این در حال تغییر است. در حالی که نمایش OpenAI در 13 می بر استفاده از قابلیت‌های متن، بینایی و صدا برای برقراری یک مکالمه بی‌درنگ متمرکز بود، این به‌روزرسانی می‌تواند قابلیت‌های کلیدی طراحی گرافیکی را به ChatGPT بیاورد. نمایش دموهای اولیه هوش مصنوعی نه تنها تصاویری تولید می کند که دارای متن خوانا و املای صحیح هستند، بلکه از تصویر موجود از یک فرد برای تکرار آن چهره در تصویر جدید استفاده می کند.

مربوط

8 روش ChatGPT Plus بهتر از Gemini Advanced و Copilot Pro

ChatGPT Plus با رقابت سخت Gemini Advanced و Copilot Pro روبرو است. اما من هر سه سرویس اشتراک هوش مصنوعی را امتحان کرده ام. در اینجا بهتر است.



رویکرد GPT-4o به متن، تصاویر و صدا

همه چیز در یک مدل واحد ادغام شده است

تغییر کلیدی که با راه اندازی GPT-4o ایجاد می شود، امکان ورودی و تولید هر ترکیبی از متن، صدا و تصویر است. دلیلش این است که OpenAI مدل جدیدی را به صورت سرتاسر آموزش داده است که در متن، دید و صدا کار می کند. پیش از این، GPT-4 از مدل های جداگانه برای صدا، متن و تصاویر استفاده می کرد. با ادغام همه چیز در یک مدل، OpenAI توضیح می‌دهد که ChatGPT اطلاعات بین مدل‌ها را از دست نمی‌دهد، که تعدادی از احتمالات جدید را باز می‌کند.

مربوط

من ChatGPT Plus را امتحان کردم. در اینجا همه چیز می تواند انجام دهد

ChatGPT Plus برای کسانی است که خواهان یک تجربه قابل اعتماد و کارآمد ChatGPT هستند. اما، برای 20 دلار در ماه، چه چیز دیگری را شامل می شود؟

در حالی که نسخه نمایشی زنده در 13 مه بر این تمرکز داشت که چگونه آن مدل سرتاسری به شما امکان استفاده از ویدئو را برای حل مشکلات تکالیف یا انجام یک مکالمه صوتی هم‌زمان می‌دهد، همچنین به تصحیح مواردی که مدل هوش مصنوعی در آن بسیار بد است، کمک می‌کند: قرار دادن متن روی یک تصویر GPT-4 می تواند سعی کند متنی را قرار دهد، اما معمولاً منجر به غلط املایی می شود، حتی زمانی که به چت بات می گویید دقیقا چگونه آن را املا کند.

ChatGPT می‌توانست تصاویری با متن خوانا و با املای صحیح که از اعلان گرفته شده بود تولید کند.


در چندین نمونه از قابلیت‌های GPT-4o آینده، هوش مصنوعی توانست نوشتن را روی تصویر ماشین تحریر قرار دهد، یک تصویر گرافیکی با یک شعر ایجاد کند و یک پوستر فیلم ایجاد کند. در تظاهرات، عبارت به هوش مصنوعی داده شد، با املای غلط در متن تولید شده که به صراحت بیان نشده بود. اما ChatGPT می‌توانست تصاویری را با متنی خوانا و با املای صحیح که از اعلان گرفته شده بود تولید کند.

chatgpt-gpt-4o-image-with-text-6
OpenAI

می توانید از چهره های واقعی در تصاویر تولید شده استفاده کنید

تصور کنید پوستر فیلمی با چهره بازیگران بسازید

در یک نمایش، ChatGPT یک پوستر فیلم با چهره بازیگران همراه با متن درست نوشت. این امر با آپلود عکس های بازیگران و املای متنی که باید درج شود امکان پذیر شد. در حالی که برخی از پلتفرم‌های هوش مصنوعی می‌توانند یک عکس جدید با چهره یک شخص واقعی ایجاد کنند، ChatGPT قبلاً نمی‌توانست عکسی ایجاد کند که شباهت زیادی به عکس اصلی داشته باشد.


ChatGPT یک پوستر فیلم با چهره بازیگران همراه با املای صحیح متن ایجاد کرد.

در آزمایشی دیگر، ربات چت توانست لوگوی OpenAI را روی یک تصویر قرار دهد. دیگری به ربات وظیفه ساخت شعری ملموس که در آن کلمه Omni به شکل لوگوی OpenAI ظاهر می‌شود، را بر عهده گرفت.

تصاویر تولید شده در نمایش های OpenAI بی نقص نیستند – وقتی از آن خواسته می شود که یک تصویر شعر با املای صحیح را به حالت تاریک ببرید، نرم افزار برخی از املای اشتباه ایجاد می کند. اما این نمایش نتیجه بسیار خوانا و معقول‌تری نسبت به روش غیرمعنای تولید متن روی تصاویر توسط GPT-4 نشان می‌دهد.

مربوط

آنچه باید در مورد ChatGPT Voice بدانید: چگونه کار می کند، چه کاری می تواند انجام دهد و موارد دیگر

داشتن یک تبدیل صوتی با ChatGPT یک تجربه کاملا متفاوت است – و واقعاً باید آن را امتحان کنید.

قابلیت‌های جدید این نرم‌افزار در مدیریت ترکیبی از متن-عکس-گفتار همچنین به آن اجازه می‌دهد به سؤالات مربوط به عکس پاسخ دهد و متن را از تصاویر استخراج کند.


تظاهرات نشان می دهد که ChatGPT می تواند با راه اندازی GPT-4o در چند هفته آینده قابلیت های بیشتری در طراحی گرافیک داشته باشد. با این حال، این قابلیت ها می تواند عواقبی داشته باشد. یکی از ساده‌ترین راه‌ها برای تشخیص اینکه آیا تصویری توسط هوش مصنوعی تولید شده است یا خیر، نگاه کردن به مواردی مانند تابلوهای خیابان یا صفحه‌نمایش لپ‌تاپ است که متن درهم به نظر می‌رسد. اگر هوش مصنوعی یاد بگیرد که روی تصاویر املا کند، این یک ویژگی کمتر برای نشان دادن صحت تصویری است که در سراسر وب شناور است.

یکپارچه‌سازی بینایی متن و صوت مدل پایان به انتها نیز با سرعت بیشتر، ویژگی‌های بیشتر بدون اشتراک پولی و یک برنامه دسکتاپ برای مک ارائه می‌شود. OpenAI می گوید که GPT-4o طی چند هفته آینده عرضه خواهد شد.

سوالات متداول

س: چه زمانی GPT-4o در دسترس خواهد بود و هزینه آن چقدر است؟

GPT-4o OpenAI در تاریخ 13 مه عرضه قابلیت‌های متن و تصویر خود را آغاز می‌کند. این GPT-4o برای همه کاربران رایگان است و کاربران پولی از حداکثر پنج برابر ظرفیت استفاده می‌کنند.



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا