کار آفرینی و استارتاپ

واترمارک “نامفهوم” می تواند صداهای تولید شده توسط هوش مصنوعی را شناسایی کند • TechCrunch


سهولت فزاینده ای که با آن هر کسی می تواند صدای قانع کننده ای را با صدای دیگران ایجاد کند، افراد زیادی را در معرض خطر قرار می دهد، و به درستی هم همینطور است. شبیه هوش مصنوعی پیشنهاد برای علامت گذاری گفتار تولید شده ممکن است یکباره آن را برطرف نکند، اما گامی در مسیر درست است.

گفتار تولید شده توسط هوش مصنوعی برای انواع اهداف قانونی استفاده می شود، از صفحه خوان گرفته تا جایگزینی صداپیشگان (البته با اجازه آنها). اما مانند تقریباً هر فناوری دیگری، تولید گفتار نیز می تواند به اهداف مخرب تبدیل شود و نقل قول های جعلی توسط سیاستمداران یا افراد مشهور تولید شود. بسیار مطلوب است که راهی برای تشخیص واقعی از جعلی بیابید که متکی به تبلیغاتی یا گوش دادن دقیق نباشد.

واترمارکینگ تکنیکی است که به وسیله آن یک تصویر یا صدا با یک الگوی قابل شناسایی حک می شود که منشأ آن را نشان می دهد. همه ما واترمارک های واضحی مانند لوگو را روی یک تصویر دیده ایم، اما همه آنها چندان قابل توجه نیستند.

در تصاویر، یک واترمارک مخفی ممکن است الگو را در سطح پیکسل به پیکسل پنهان کند و تصویر را برای چشم انسان بدون تغییر به نظر برساند اما برای رایانه قابل شناسایی باشد. در مورد صدا نیز همینطور: یک صدای آرام گهگاهی که اطلاعات را رمزگذاری می کند ممکن است چیزی نباشد که شنونده معمولی آن را بشنود.

مشکل این واترمارک های ظریف این است که حتی با تغییرات جزئی در رسانه از بین می روند. تغییر اندازه تصویر؟ کد پیکسل کامل شما وجود دارد. صدا را برای پخش رمزگذاری کنید؟ صداهای مخفی دقیقاً از وجود فشرده می شوند.

Resemble AI در میان گروه جدیدی از استارت‌آپ‌های مولد هوش مصنوعی است که با هدف استفاده از مدل‌های گفتاری دقیق تنظیم‌شده برای تولید دوبله، کتاب‌های صوتی و سایر رسانه‌هایی است که معمولاً با صدای عادی انسان تولید می‌شوند. اما اگر چنین مدل‌هایی که احتمالاً بر اساس ساعت‌ها صدای ارائه‌شده توسط بازیگران آموزش دیده‌اند، به دست مخرب بیفتند، این شرکت‌ها ممکن است خود را در مرکز یک فاجعه روابط عمومی و شاید مسئولیت جدی ببینند. بنابراین بسیار به نفع آنهاست که راهی بیابند تا ضبط های خود را تا حد امکان واقعی کنند و به راحتی قابل تأیید باشند که توسط هوش مصنوعی تولید می شوند.

PerTh فرآیند واترمارک پیشنهادی Resemble برای این منظور است، ترکیبی ناخوشایند از “ادراکی” و “آستانه”.

این شرکت در یک پست وبلاگی در توضیح این فناوری می‌نویسد: «ما یک لایه امنیتی اضافی ایجاد کرده‌ایم که از مدل‌های یادگیری ماشینی استفاده می‌کند تا هم بسته‌های داده را در محتوای گفتاری که تولید می‌کنیم جاسازی کند و هم داده‌های گفته شده را در مرحله بعد بازیابی کند. “از آنجایی که داده ها نامحسوس هستند، در حالی که به طور محکم با اطلاعات گفتاری مرتبط هستند، حذف آنها دشوار است و راهی برای بررسی اینکه آیا یک کلیپ معین توسط Resemble تولید شده است یا خیر. نکته مهم این است که این تکنیک «واترمارکینگ» در برابر دستکاری های صوتی مختلف مانند افزایش سرعت، کاهش سرعت، تبدیل به فرمت های فشرده مانند MP3 و غیره نیز قابل تحمل است.

این متکی به ویژگی‌هایی است که چگونه انسان‌ها صدا را پردازش می‌کنند، که به وسیله آن زنگ‌های با قابلیت شنیدن بالا اساساً صداهای نزدیک با دامنه کمتر را «ماسک» می‌کنند. بنابراین اگر کسی بخندد و اوج‌هایی را در فرکانس‌های 5000 هرتز، 8000 هرتز و 9200 هرتز تولید کند، می‌توانید صداهای ساختاریافته‌ای را که به طور همزمان در چند هرتز ایجاد می‌شوند لغزش دهید و برای شنوندگان کم و بیش نامحسوس خواهند بود. اما اگر این کار را به درستی انجام دهید، در برابر حذف نیز مقاوم خواهند بود زیرا به بخش مهمی از صدا بسیار نزدیک هستند.

در اینجا نمودار می آید:

نمودار نشان می دهد که چگونه صداهای کمتر توسط قله های نزدیک “نقاب” می شوند. اعتبار تصویر: شبیه هوش مصنوعی

این شهودی است، اما چالش بدون شک ایجاد یک مدل یادگیری ماشینی بود که می‌تواند بخش‌های شکل موج نامزد را پیدا کند و به طور خودکار آهنگ‌های صوتی مناسب و در عین حال غیرقابل شنیدن را تولید کند که اطلاعات شناسایی را حمل می‌کند. سپس باید آن فرآیند را معکوس کند و در عین حال برای دستکاری های رایج صدا مانند موارد ذکر شده در بالا قوی باقی بماند.

در اینجا دو نمونه از آنها ارائه شده است. ببینید آیا می توانید بفهمید که کدام یک واترمارک شده است. ماوس را اینجا نگه دارید تا پاسخ را در نوار وضعیت خود ببینید.


من نمی توانم تفاوت را تشخیص دهم، و حتی با بررسی دقیق شکل موج ها نتوانستم هیچ ناهنجاری آشکاری پیدا کنم. من این روزها به اندازه کافی دستی به یک آنالایزر طیف ندارم که بتوانم واقعاً وارد آن شوم، اما گمان می‌کنم اینجا جایی است که ممکن است چیزی را ببینید. به هر حال، اگر ادعای آنها مبنی بر اینکه داده های تولید شده توسط Resemble کم و بیش غیرقابل برگشت در یکی از این کلیپ ها رمزگذاری شده است، من می گویم که این یک موفقیت است.

PerTh به زودی برای همه مشتریان Resemble عرضه خواهد شد و برای روشن بودن در حال حاضر فقط می تواند گفتار تولید شده خود شرکت را علامت گذاری و تشخیص دهد. اما اگر آنها این کار را انجام دهند، احتمالاً دیگران نیز این کار را خواهند کرد – و به احتمال زیاد این موتورها به زودی به طور جدایی ناپذیری با خود مدل های تولید گفتار پیوند خواهند داشت. بازیگران بدخواه همیشه راهی برای دور زدن چنین چیزهایی پیدا می کنند، اما ایجاد موانع باید به مهار برخی از این رفتارها کمک کند.

با این حال، صدا از این نظر خاص است و ترفندهای مشابه برای متن یا تصاویر کار نمی کنند. بنابراین انتظار داشته باشید که برای مدتی در آن حوزه ها در دره عجیب و غریب باقی بمانید.



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا