با GPT-4o، ChatGPT می تواند هنری با متن قابل خواندن تولید کند

خوراکی های کلیدی
- ChatGPT یک مدل جدید به نام GPT-4o دارد و می تواند متن، تصاویر و صدا را با هم ادغام کند.
- مهمتر از آن، مدل جدید امکان قرار دادن متن صحیح روی تصاویر تولید شده را می دهد.
- قابلیت های به روز شده GPT-4o می تواند به طراحی گرافیک کمک کند. همچنین نیازی به اشتراک پولی ندارد و یک برنامه دسکتاپ نیز وجود دارد.
ChatGPT میتواند متن را پخش کند و با ادغام DALL-E، تصاویر را ایجاد کند، اما از پلتفرم هوش مصنوعی بخواهد این دو را ترکیب کند و نتیجه معمولاً یک آشفتگی ناخوانا و درهم است. با این حال، با انتقال به GPT-4o یا Omni ChatGPT، این در حال تغییر است. در حالی که نمایش OpenAI در 13 می بر استفاده از قابلیتهای متن، بینایی و صدا برای برقراری یک مکالمه بیدرنگ متمرکز بود، این بهروزرسانی میتواند قابلیتهای کلیدی طراحی گرافیکی را به ChatGPT بیاورد. نمایش دموهای اولیه هوش مصنوعی نه تنها تصاویری تولید می کند که دارای متن خوانا و املای صحیح هستند، بلکه از تصویر موجود از یک فرد برای تکرار آن چهره در تصویر جدید استفاده می کند.

8 روش ChatGPT Plus بهتر از Gemini Advanced و Copilot Pro
ChatGPT Plus با رقابت سخت Gemini Advanced و Copilot Pro روبرو است. اما من هر سه سرویس اشتراک هوش مصنوعی را امتحان کرده ام. در اینجا بهتر است.
رویکرد GPT-4o به متن، تصاویر و صدا
همه چیز در یک مدل واحد ادغام شده است
تغییر کلیدی که با راه اندازی GPT-4o ایجاد می شود، امکان ورودی و تولید هر ترکیبی از متن، صدا و تصویر است. دلیلش این است که OpenAI مدل جدیدی را به صورت سرتاسر آموزش داده است که در متن، دید و صدا کار می کند. پیش از این، GPT-4 از مدل های جداگانه برای صدا، متن و تصاویر استفاده می کرد. با ادغام همه چیز در یک مدل، OpenAI توضیح میدهد که ChatGPT اطلاعات بین مدلها را از دست نمیدهد، که تعدادی از احتمالات جدید را باز میکند.

من ChatGPT Plus را امتحان کردم. در اینجا همه چیز می تواند انجام دهد
ChatGPT Plus برای کسانی است که خواهان یک تجربه قابل اعتماد و کارآمد ChatGPT هستند. اما، برای 20 دلار در ماه، چه چیز دیگری را شامل می شود؟
در حالی که نسخه نمایشی زنده در 13 مه بر این تمرکز داشت که چگونه آن مدل سرتاسری به شما امکان استفاده از ویدئو را برای حل مشکلات تکالیف یا انجام یک مکالمه صوتی همزمان میدهد، همچنین به تصحیح مواردی که مدل هوش مصنوعی در آن بسیار بد است، کمک میکند: قرار دادن متن روی یک تصویر GPT-4 می تواند سعی کند متنی را قرار دهد، اما معمولاً منجر به غلط املایی می شود، حتی زمانی که به چت بات می گویید دقیقا چگونه آن را املا کند.
ChatGPT میتوانست تصاویری با متن خوانا و با املای صحیح که از اعلان گرفته شده بود تولید کند.
در چندین نمونه از قابلیتهای GPT-4o آینده، هوش مصنوعی توانست نوشتن را روی تصویر ماشین تحریر قرار دهد، یک تصویر گرافیکی با یک شعر ایجاد کند و یک پوستر فیلم ایجاد کند. در تظاهرات، عبارت به هوش مصنوعی داده شد، با املای غلط در متن تولید شده که به صراحت بیان نشده بود. اما ChatGPT میتوانست تصاویری را با متنی خوانا و با املای صحیح که از اعلان گرفته شده بود تولید کند.
می توانید از چهره های واقعی در تصاویر تولید شده استفاده کنید
تصور کنید پوستر فیلمی با چهره بازیگران بسازید
در یک نمایش، ChatGPT یک پوستر فیلم با چهره بازیگران همراه با متن درست نوشت. این امر با آپلود عکس های بازیگران و املای متنی که باید درج شود امکان پذیر شد. در حالی که برخی از پلتفرمهای هوش مصنوعی میتوانند یک عکس جدید با چهره یک شخص واقعی ایجاد کنند، ChatGPT قبلاً نمیتوانست عکسی ایجاد کند که شباهت زیادی به عکس اصلی داشته باشد.
ChatGPT یک پوستر فیلم با چهره بازیگران همراه با املای صحیح متن ایجاد کرد.
در آزمایشی دیگر، ربات چت توانست لوگوی OpenAI را روی یک تصویر قرار دهد. دیگری به ربات وظیفه ساخت شعری ملموس که در آن کلمه Omni به شکل لوگوی OpenAI ظاهر میشود، را بر عهده گرفت.
تصاویر تولید شده در نمایش های OpenAI بی نقص نیستند – وقتی از آن خواسته می شود که یک تصویر شعر با املای صحیح را به حالت تاریک ببرید، نرم افزار برخی از املای اشتباه ایجاد می کند. اما این نمایش نتیجه بسیار خوانا و معقولتری نسبت به روش غیرمعنای تولید متن روی تصاویر توسط GPT-4 نشان میدهد.

آنچه باید در مورد ChatGPT Voice بدانید: چگونه کار می کند، چه کاری می تواند انجام دهد و موارد دیگر
داشتن یک تبدیل صوتی با ChatGPT یک تجربه کاملا متفاوت است – و واقعاً باید آن را امتحان کنید.
قابلیتهای جدید این نرمافزار در مدیریت ترکیبی از متن-عکس-گفتار همچنین به آن اجازه میدهد به سؤالات مربوط به عکس پاسخ دهد و متن را از تصاویر استخراج کند.
تظاهرات نشان می دهد که ChatGPT می تواند با راه اندازی GPT-4o در چند هفته آینده قابلیت های بیشتری در طراحی گرافیک داشته باشد. با این حال، این قابلیت ها می تواند عواقبی داشته باشد. یکی از سادهترین راهها برای تشخیص اینکه آیا تصویری توسط هوش مصنوعی تولید شده است یا خیر، نگاه کردن به مواردی مانند تابلوهای خیابان یا صفحهنمایش لپتاپ است که متن درهم به نظر میرسد. اگر هوش مصنوعی یاد بگیرد که روی تصاویر املا کند، این یک ویژگی کمتر برای نشان دادن صحت تصویری است که در سراسر وب شناور است.
یکپارچهسازی بینایی متن و صوت مدل پایان به انتها نیز با سرعت بیشتر، ویژگیهای بیشتر بدون اشتراک پولی و یک برنامه دسکتاپ برای مک ارائه میشود. OpenAI می گوید که GPT-4o طی چند هفته آینده عرضه خواهد شد.
سوالات متداول
س: چه زمانی GPT-4o در دسترس خواهد بود و هزینه آن چقدر است؟
GPT-4o OpenAI در تاریخ 13 مه عرضه قابلیتهای متن و تصویر خود را آغاز میکند. این GPT-4o برای همه کاربران رایگان است و کاربران پولی از حداکثر پنج برابر ظرفیت استفاده میکنند.