کار آفرینی و استارتاپ

QuickVid از هوش مصنوعی برای تولید ویدیوهای کوتاه، همراه با صداگذاری استفاده می‌کند • TechCrunch


هوش مصنوعی مولد در راه است برای ویدیوها یک وب سایت جدید، QuickVid، چندین سیستم هوش مصنوعی مولد را در یک ابزار واحد برای ایجاد خودکار ویدیوهای کوتاه YouTube، Instagram، TikTok و Snapchat ترکیب می کند.

با در نظر گرفتن تنها یک کلمه، QuickVid یک ویدیوی پس‌زمینه را از یک کتابخانه انتخاب می‌کند، یک اسکریپت و کلمات کلیدی می‌نویسد، تصاویر تولید شده توسط DALL-E 2 را پوشش می‌دهد و یک صدای مصنوعی و موسیقی پس‌زمینه را از کتابخانه موسیقی رایگان YouTube اضافه می‌کند. خالق QuickVid، دانیل حبیب، می گوید که او در حال ساخت این سرویس است تا به سازندگان کمک کند تا تقاضای “همیشه رو به رشد” طرفداران خود را برآورده کنند.

حبیب در مصاحبه ای با TechCrunch گفت: «QuickVid با ارائه ابزارهایی به سازندگان برای تولید سریع و آسان محتوای با کیفیت، به سازندگان کمک می کند تا خروجی محتوای خود را افزایش دهند و خطر فرسودگی شغلی را کاهش دهند. “هدف ما این است که با استفاده از پیشرفت‌های هوش مصنوعی، به سازنده مورد علاقه‌تان قدرت دهیم تا با خواسته‌های مخاطبان خود مطابقت داشته باشد.”

اما بسته به نحوه استفاده از آنها، ابزارهایی مانند QuickVid تهدید می کنند که کانال های شلوغ را با محتوای هرزنامه و تکراری پر می کنند. آن‌ها همچنین با واکنش شدید سازندگانی مواجه می‌شوند که ترجیح می‌دهند از این ابزارها استفاده نکنند، چه به دلیل هزینه (۱۰ دلار در ماه) یا اصولاً، اما ممکن است مجبور باشند با مجموعه‌ای از ویدیوهای جدید تولید شده توسط هوش مصنوعی رقابت کنند.

رفتن به دنبال ویدیو

QuickVid، که حبیب، یک توسعه‌دهنده خودآموخته که قبلاً در متا در زیرساخت‌های ویدئویی و زنده فیس‌بوک کار می‌کرد، در عرض چند هفته ساخته شد، در 27 دسامبر راه‌اندازی شد. در حال حاضر، استخوان‌های نسبتاً خالی از آن هستند – حبیب می‌گوید که گزینه‌های شخصی‌سازی بیشتری در دسترس خواهند بود. ژانویه — اما QuickVid می‌تواند اجزایی را که یک ویدیوی معمولی اطلاعاتی YouTube Short یا TikTok را تشکیل می‌دهند، از جمله زیرنویس‌ها و حتی آواتارها، با هم ترکیب کند.

استفاده از آن آسان است. ابتدا، کاربر درخواستی را وارد می‌کند که موضوع ویدیویی را که می‌خواهد ایجاد کند، توضیح می‌دهد. QuickVid از فرمان برای تولید یک اسکریپت استفاده می کند و از قدرت متن تولیدی GPT-3 استفاده می کند. از میان کلمات کلیدی استخراج شده از اسکریپت یا به صورت دستی، QuickVid یک ویدیوی پس‌زمینه را از کتابخانه رسانه‌ای بدون حق امتیاز Pexels انتخاب می‌کند و با استفاده از DALL-E 2 تصاویر همپوشانی ایجاد می‌کند. سپس از طریق API متن به گفتار Google Cloud یک صدا را تولید می‌کند. حبیب می گوید که کاربران به زودی می توانند صدای خود را شبیه سازی کنند – قبل از اینکه همه این عناصر را در یک ویدیو ترکیب کنند.

اعتبار تصویر: QuickVid

این ویدیو را ببینید که با اعلان “گربه ها” ساخته شده است:

یا این یکی:

QuickVid مطمئناً مرزهای آنچه را که با هوش مصنوعی مولد امکان پذیر است را تغییر نمی دهد. متا و گوگل هر دو سیستم‌های هوش مصنوعی را به نمایش گذاشته‌اند که می‌توانند کلیپ‌های کاملاً اصلی را با یک پیام متنی تولید کنند. اما QuickVid هوش مصنوعی موجود را ادغام می‌کند تا از قالب‌های تکراری و قالب‌بندی‌شده ویدیوهای کوتاه B-roll-heavy استفاده کند و مشکل تولید فیلم را برطرف کند.

حبیب گفت: «سازندگان موفق نوار بسیار باکیفیتی دارند و علاقه ای به انتشار محتوایی که احساس می کنند در صدای خودشان نیست، ندارند. “این مورد استفاده ای است که ما روی آن تمرکز کرده ایم.”

ظاهراً اینطور است، از نظر کیفیت، ویدیوهای QuickVid عموماً ترکیبی هستند. ویدیوهای پس‌زمینه کمی تصادفی هستند یا فقط به صورت مماس با موضوع مرتبط هستند، که با توجه به اینکه QuickVids در حال حاضر محدود به کاتالوگ Pexels است، تعجب آور نیست. در همین حال، تصاویر تولید شده توسط DALL-E 2، محدودیت‌های فناوری متن به تصویر امروزی را نشان می‌دهند، مانند متن درهم و تناسب.

حبیب در پاسخ به بازخورد من گفت که QuickVid “روزانه در حال آزمایش و سرهم بندی است.”

مسائل کپی رایت

به گفته حبیب، کاربران QuickVid حق استفاده تجاری از محتوایی که ایجاد می کنند را حفظ می کنند و اجازه کسب درآمد از آن در پلتفرم هایی مانند یوتیوب را دارند. اما وضعیت کپی رایت در مورد محتوای تولید شده توسط هوش مصنوعی … مبهم است، حداقل در حال حاضر. اخیراً اداره ثبت اختراع و علائم تجاری ایالات متحده (USPTO). نقل مکان کرد برای لغو حفاظت از حق چاپ برای یک کمیک تولید شده توسط هوش مصنوعی، به عنوان مثال، گفتن اینکه آثار دارای حق نسخه برداری نیاز به تألیف انسانی دارند.

وقتی از حبیب پرسیده شد که چگونه تصمیم USPTO ممکن است بر روی QuickVid تأثیر بگذارد، گفت که او معتقد است که این تصمیم فقط به «قابلیت ثبت اختراع» محصولات تولید شده توسط هوش مصنوعی مربوط می شود و نه حقوق سازندگان برای استفاده و کسب درآمد از محتوای آنها. او اشاره کرد که سازندگان اغلب حق ثبت اختراع برای ویدیوها را ارسال نمی کنند و معمولاً به اقتصاد سازندگان متمایل می شوند و به سازندگان دیگر اجازه می دهند کلیپ های خود را تغییر دهند تا دسترسی خود را افزایش دهند.

حبیب گفت: «سازندگان به ارائه محتوای با کیفیت بالا در صدای خود اهمیت می دهند که به رشد کانال آنها کمک می کند.

یک چالش قانونی دیگر در افق ممکن است ادغام QuickVid’s DALL-E 2 را تحت تأثیر قرار دهد – و در نتیجه، توانایی سایت برای تولید همپوشانی تصویر را تحت تأثیر قرار دهد. مایکروسافت، GitHub و OpenAI هستند شکایت کرد در یک دعوای دسته جمعی که آنها را متهم به نقض قانون کپی رایت با اجازه دادن به Copilot، یک سیستم تولید کننده کد، برای بازگرداندن بخش هایی از کد مجوز بدون ارائه اعتبار می کند. (Copilot توسط OpenAI و GitHub که مایکروسافت مالک آن است توسعه داده شده است.) این مورد پیامدهایی برای هوش مصنوعی هنری مولد مانند DALL-E 2 دارد که به طور مشابه از مجموعه داده هایی که آنها آموزش دیده اند کپی و جایگذاری می کند (به عنوان مثال، تصاویر).

حبیب نگران نیست و استدلال می کند که جن مولد هوش مصنوعی از بطری خارج شده است. او با اشاره به سیستم متن‌باز DALL-E 2-like Stable Diffusion گفت: «اگر شکایت دیگری ظاهر شد و OpenAI فردا ناپدید شد، چندین جایگزین وجود دارد که می‌تواند QuickVid را تقویت کند. QuickVid در حال آزمایش Stable Diffusion برای تولید تصاویر آواتار است.

تعدیل و هرزنامه

جدای از معضلات قانونی، QuickVid ممکن است به زودی با مشکل تعدیل مواجه شود. در حالی که OpenAI فیلترها و تکنیک هایی را برای جلوگیری از آنها پیاده سازی کرده است، هوش مصنوعی مولد دارای مسمومیت شناخته شده و مشکلات صحت واقعی است. خروجی GPT-3 اطلاعات غلط، به ویژه در مورد رویدادهای اخیر، که فراتر از مرزهای پایگاه دانش آن است. و ChatGPT، یک فرزند تنظیم شده از GPT-3، بوده است نشان داده شده استفاده از زبان جنسی و نژادپرستانه

این نگران کننده است، به ویژه برای افرادی که از QuickVid برای ایجاد ویدیوهای اطلاعاتی استفاده می کنند. در یک آزمایش سریع، از شریکم – که بسیار خلاق‌تر از من است، به خصوص در این زمینه – خواستم چند دستور توهین آمیز وارد کند تا ببیند QuickVid چه چیزی ایجاد می کند. به اعتبار QuickVid، اعلان‌های آشکارا مشکل‌ساز مانند «نظم جهانی جدید یهودی» و «تئوری توطئه 11 سپتامبر» متن‌های سمی به همراه نداشت. اما برای «تئوری نژاد انتقادی که دانش‌آموزان را تلقین می‌کند»، QuickVid ویدیویی تولید کرد که نشان می‌دهد می‌توان از نظریه نژاد انتقادی برای شستشوی مغزی دانش‌آموزان استفاده کرد.

دیدن:

QuickVid

حبیب می‌گوید که برای انجام بیشتر کارهای نظارتی بر فیلترهای OpenAI تکیه می‌کند و تاکید می‌کند که این وظیفه کاربران است که به صورت دستی هر ویدیوی ایجاد شده توسط QuickVid را بررسی کنند تا اطمینان حاصل کنند که «همه چیز در محدوده قانون است».

حبیب گفت: «به عنوان یک قاعده کلی، من معتقدم که مردم باید بتوانند خود را ابراز کنند و هر محتوایی را که می خواهند ایجاد کنند.

ظاهراً شامل محتوای هرزنامه می شود. حبیب می گوید که الگوریتم های پلتفرم های ویدئویی، نه QuickVid، بهترین موقعیت را برای تعیین کیفیت یک ویدیو دارند، و افرادی که محتوای با کیفیت پایین تولید می کنند «فقط به اعتبار خود آسیب می زنند». او می‌گوید که آسیب‌های شهرت به طور طبیعی مردم را از ایجاد کمپین‌های اسپم انبوه با QuickVid منصرف می‌کند.

او افزود: «اگر مردم نمی‌خواهند ویدیوی شما را تماشا کنند، در پلتفرم‌هایی مانند یوتیوب توزیع نخواهید شد. “تولید محتوای بی کیفیت همچنین باعث می شود مردم به کانال شما با دید منفی نگاه کنند.”

اما نگاه به آژانس‌های تبلیغاتی مانند Fractl که در سال 2019 از یک سیستم هوش مصنوعی به نام Grover برای تولید یک سایت کامل از مواد بازاریابی استفاده کردند، آموزنده است. در یک مصاحبه کریستین تینسکی، شریک فراکتل، با The Verge گفت که او هوش مصنوعی مولد را پیش‌بینی کرده است که «سونامی عظیمی از محتوای تولید شده توسط رایانه را در هر بخش قابل تصوری ممکن می‌سازد».

در هر صورت، پلتفرم‌های اشتراک‌گذاری ویدیو مانند TikTok و YouTube مجبور به مقابله با تعدیل محتوای تولید شده توسط هوش مصنوعی در مقیاس گسترده نبوده‌اند. Deepfakes – ویدیوهای مصنوعی که جایگزین یک شخص موجود با شخص دیگری می شود – چندین سال پیش با استفاده از ابزارهایی که تولید فیلم های عمیق جعلی را آسان تر می کردند، شروع به پر شدن پلتفرم هایی مانند YouTube کردند. اما بر خلاف قانع‌کننده‌ترین دیپ‌فیک‌های امروزی، انواع ویدیوهایی که QuickVid ایجاد می‌کند، آشکارا به هیچ وجه توسط هوش مصنوعی تولید نمی‌شوند.

خط‌مشی جستجوی Google در مورد نوشتار تولید شده با هوش مصنوعی ممکن است پیش‌نمایشی از آنچه در دامنه ویدیو قرار دارد باشد. گوگل در مورد رتبه بندی جستجو با متن مصنوعی متفاوت از متن نوشته شده توسط انسان رفتار نمی کند، اما اقداماتی انجام می دهد در مورد محتوایی که “به قصد دستکاری رتبه بندی جستجو و عدم کمک به کاربران” است. این شامل محتوایی است که با هم یا ترکیب شده از صفحات مختلف وب که «[doesn’t] ارزش کافی اضافه کنید» و همچنین محتوای تولید شده از طریق فرآیندهای کاملاً خودکار، که هر دو ممکن است برای QuickVid اعمال شوند.

به عبارت دیگر، ویدئوهای تولید شده توسط هوش مصنوعی ممکن است به طور کامل از پلتفرم‌ها منع نشوند، در صورتی که به صورت عمده پخش شوند، بلکه صرفاً به هزینه انجام تجارت تبدیل می‌شوند. این احتمالاً ترس کارشناسانی را که معتقدند پلتفرم هایی مانند TikTok در حال تبدیل شدن به خانه جدیدی برای گمراه کننده ویدئوها، اما – همانطور که حبیب در طول مصاحبه گفت – “هیچ مانعی برای انقلاب مولد هوش مصنوعی وجود ندارد.”



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا