مدل جدید هوش مصنوعی پایداری در تولید دست کمی بهتر است

Stability AI، استارتآپی که طیف وسیعی از آزمایشهای هوش مصنوعی مولد را تأمین مالی میکند، نسخه جدیدی از Stable Diffusion، سیستم هوش مصنوعی متن به تصویر را منتشر کرده است که جزو اولین سیستمهایی بود که رقیب OpenAI DALL-E 2 بود.
تماس گرفت Stable Diffusion XL یا SDXL، سیستم جدید – که در نسخه بتا از طریق DreamStudio، ابزار هنری مولد Stability AI در دسترس است – به روش های کلیدی نسبت به نسخه اصلی بهبود می یابد. تام میسون، مدیر ارشد فناوری هوش مصنوعی پایداری، میگوید که «غنای» را برای تولید تصویر به ارمغان میآورد که مدل قدیمی (Stable Diffusion 2.1) فاقد آن بود، با پیشرفتهایی که در برنامههایی مانند طراحی گرافیکی و معماری برجستهتر است.
او در بیانیهای اعلام کرد: «ما هیجانزدهایم که آخرین نسخه را در سری راهحلهای تصویری Stable Diffusion خود اعلام کنیم. “[It’s] دگرگون کننده در چندین صنعت … با نتایجی که در مقابل چشمان ما رخ می دهد.
با کنار گذاشتن هذل، SDXL واقعاً همتراز – و شاید حتی بهتر از – آخرین نسخه مدل Midjourney است، مدلی که مسئول “بالنسیاگا پاپ” (از جمله میم های دیگر).
در حالی که نسخه قبلی Stable Diffusion و بسیاری دیگر از سیستم های تبدیل متن به تصویر به شدت برای بازسازی آناتومی خاصی مانند دست ها تلاش می کنند، SDXL چنین مشکلی ندارد. دست ها همیشه… خوب، واقع بینانه نیستند. اما آنها فرسنگ ها جلوتر از سوخت کابوس آلود SDXL هستند.
SDXL دست ها را بهتر کنترل می کند، اما بدیهی است که کاملاً خوب نیست. اعتبار تصویر: هوش مصنوعی پایداری

Stable Diffusion 2.1 به وضوح بدتر از دست است. (خودم را بیرون خواهم دید.) اعتبار تصویر: هوش مصنوعی پایداری
ظاهراً SDXL در تولید متن نیز بهتر است، کاری که از لحاظ تاریخی مدلهای هنری AI مولد را برای یک حلقه پرتاب میکند. اما اگر آزمایش مختصر من نشانه ای باشد هنوز راه هایی در پیش دارد.

در بالا، نتایج از Stable Diffusion 2.1 است. در پایین، خروجی از SDXL. اعتبار تصویر: هوش مصنوعی پایداری
در یک بیانیه مطبوعاتی، هوش مصنوعی پایداری همچنین ادعا می کند که SDXL دارای “ترکیب تصویر پیشرفته و تولید چهره” است و بر خلاف نسخه قبلی خود نیازی به درخواست های طولانی و دقیق برای ایجاد “تصاویر توصیفی” ندارد. علاوه بر این، SDXL دارای عملکردی است که فراتر از درخواست متن به تصویر است، از جمله درخواست تصویر به تصویر (وارد کردن یک تصویر برای دریافت تغییرات آن تصویر)، inpainting (بازسازی بخش های از دست رفته یک تصویر) و نقاشی بیرونی (ساخت یکپارچه یکپارچه). پسوند یک تصویر موجود).
بهعنوان یک علامت عام، سعی کردم میم پاپ بالنسیاگا را با یک عبارت کوتاه تا حد امکان بازسازی کنم: «بالنسیاگا پاپ». باید بگویم که تفاوت در نتایج بیشتر از آن چیزی بود که انتظار داشتم، با مدلهای باند فرودگاهی SDXL که ممکن است برای طراحان در مقابل لباسهای مذهبی بهنظر سادهای که Stable Diffusion قدیمی ایجاد میکرد.
Stability AI میگوید هنگامی که از نسخه بتا خارج میشود، SDXL مانند نسخههای قبلی Stable Diffusion منبع باز خواهد بود. علاوه بر DreamStudio، SDXL در حال حاضر از طریق API Stability و همچنین در دسترسی اولیه در دسترس است.
در حالی که فناوری مولد هنر هوش مصنوعی رو به جلو حرکت می کند، ابزارهایی مانند SDXL شرکت ها را در راه ساخت و تجاری سازی آنها در آب داغ قرار داده است. هوش مصنوعی پایداری در خط تیره الف قرار دارد مورد قانونی که ادعا میکند این شرکت با توسعه ابزارهای خود با استفاده از تصاویر دارای حق چاپ تحت وب، حقوق میلیونها هنرمند را نقض کرده است. موجودی تامین کننده تصویر Getty Images نیز هوش مصنوعی Stability را به دادگاه کشانده است گزارش شده است با استفاده از تصاویر سایت خود بدون اجازه برای ایجاد Stable Diffusion اصلی.
انتشار منبع باز Stable Diffusion نیز به دلیل محدودیتهای استفاده نسبتاً سبک، موضوع بحث و مناقشه شده است. برخی جوامع در سرتاسر وب از آن برای تولید دیپفیکهای پورنوگرافیک افراد مشهور و تصاویر گرافیکی خشونت استفاده کردهاند. تا به امروز، حداقل یکی از قانونگذاران ایالات متحده خواستار تنظیم مقرراتی برای رسیدگی به عرضه مدل هایی مانند Stable Diffusion شده است که “محتوای کافی را تعدیل نمی کنند.”
در پاسخ به این شکایتها، Stability AI اخیراً متعهد شد که به درخواستهای هنرمندان برای حذف آثارشان از مجموعه دادههای آموزشی Stable Diffusion احترام بگذارد، اما این مورد برای SDXL صدق نمیکند – فقط مدلهای نسل بعدی Stable Diffusion، با نام رمز «Stable Diffusion 3.0» ” بنا به گفته Spawning، سازمانی که تلاش انصراف را بر عهده دارد، هنرمندان تا به امروز بیش از 78 میلیون اثر هنری را از مجموعه داده های آموزشی حذف کرده اند.
لعنت بر چالشهای قانونی، هوش مصنوعی پایداری برای کسب درآمد از تلاشهای هوش مصنوعی گسترده خود، که طیف وسیعی از هنر و انیمیشن تا صدای بیومد و تولیدی را در بر میگیرد، تحت فشار است. عماد مستق، مدیر عامل هوش مصنوعی پایداری، به برنامههایی برای عرضه اولیه سهام اشاره کرده است، اما اخیرا سمافور گزارش شده است هوش مصنوعی پایداری – که در اکتبر گذشته بیش از 100 میلیون دلار سرمایه مخاطرهآمیز را با ارزشی بیش از 1 میلیارد دلار جمعآوری کرد – «در حال استفاده از پول نقد است و درآمدزایی کند بوده است».