DeepL، DeepL Voice، ترجمههای همزمان و مبتنی بر متن را از صداها و ویدیوها راهاندازی میکند

DeepL با ترجمه متن آنلاین که ادعا میکند ظریفتر و دقیقتر از خدماتی مانند گوگل است، نامی برای خود دست و پا کرده است.
اکنون، همانطور که تبلیغات برای خدمات هوش مصنوعی همچنان در حال افزایش است، DeepL حالت دیگری را به پلتفرم اضافه می کند: صدا. اکنون کاربران می توانند از DeepL Voice برای گوش دادن به صحبت های شخصی که به یک زبان صحبت می کند استفاده کنند و به طور خودکار آن را به زبان دیگر ترجمه کنند.
انگلیسی، آلمانی، ژاپنی، کرهای، سوئدی، هلندی، فرانسوی، ترکی، لهستانی، پرتغالی، روسی، اسپانیایی و ایتالیایی زبانهایی هستند که DeepL امروز میتواند آنها را بشنود. زیرنویسهای ترجمهشده برای تمام ۳۳ زبانی که در حال حاضر توسط DeepL Translator پشتیبانی میشوند، در دسترس هستند.
DeepL Voice در حال حاضر از ارائه نتیجه بهعنوان یک فایل صوتی یا تصویری خودداری میکند: هدف این سرویس مکالمههای زنده و ویدئو کنفرانس در زمان واقعی است و به صورت متن ارائه میشود، نه صدا.
در اولین مورد، میتوانید ترجمههای خود را طوری تنظیم کنید که بهعنوان «آینه» در تلفن هوشمند ظاهر شوند – ایده این است که تلفن را بین خود روی میز جلسه بگذارید تا هر طرف کلمات ترجمه شده را ببیند – یا به عنوان رونویسی که شما دوش به دوش با کسی به اشتراک می گذارید سرویس ویدئو کنفرانس ترجمه ها را به صورت زیرنویس نمایش می دهد.
جارک کوتیلوفسکی، بنیانگذار و مدیر عامل شرکت (تصویر بالا)، در مصاحبه ای اشاره کرد که می تواند با گذشت زمان تغییر کند. این اولین محصول DeepL برای صدا است، اما بعید است آخرین آن باشد. “[Voice] جایی که ترجمه قرار است در سال آینده اجرا شود.»
شواهد دیگری برای حمایت از این گفته وجود دارد. گوگل – یکی از بزرگترین رقبای DeepL – همچنین شروع به ترکیب زیرنویس های ترجمه شده در زمان واقعی در سرویس کنفرانس ویدیویی Meet خود کرد. و بسیاری از استارت آپ های هوش مصنوعی در حال ساخت خدمات ترجمه صوتی هستند، مانند متخصص صدای هوش مصنوعی Eleven Labs (دوبله Eleven Labs، و Panjaya، که با استفاده از صداها و ویدیوهای “دیپ جعلی” ترجمه هایی را ایجاد می کند که با صدا مطابقت دارد.
دومی از API ElevenLabs استفاده میکند و به گفته Kutylowski، ElevenLabs خود از فناوری DeepL برای تقویت سرویس ترجمه خود استفاده میکند.
خروجی صدا تنها قابلیتی نیست که هنوز راه اندازی نشده است.
همچنین در حال حاضر هیچ API برای محصول صوتی وجود ندارد. تجارت اصلی DeepL بر B2B متمرکز است و Kutylowski گفت که این شرکت مستقیماً با شرکا و مشتریان کار می کند.
همچنین انتخاب گسترده ای از ادغام ها وجود ندارد: کوتیلوفسکی گفت، تنها سرویس تماس ویدیویی که از زیرنویس های DeepL پشتیبانی می کند در حال حاضر Teams است که “اکثر مشتریان ما را پوشش می دهد.” هیچ اطلاعاتی در مورد زمان یا زمانی که Zoom یا Google Meet DeepL Voice را به کار خواهند گرفت، وجود ندارد.
این محصول برای کاربران DeepL بسیار طولانی خواهد بود، نه فقط به این دلیل که ما در انبوهی از سایر خدمات صوتی هوش مصنوعی با هدف ترجمه غرق شده ایم. کوتیلوفسکی گفت که این درخواست شماره 1 مشتریان از سال 2017، سال راه اندازی DeepL بوده است.
بخشی از دلیل انتظار این است که DeepL رویکردی کاملاً عمدی برای ساخت محصول خود در پیش گرفته است. برخلاف بسیاری دیگر از برنامههای کاربردی در دنیای هوش مصنوعی که به مدلهای زبان بزرگ (LLM) شرکتهای دیگر تکیه میکنند و آنها را تغییر میدهند، هدف DeepL ایجاد سرویس از پایه است. در ماه جولای، این شرکت منتشر شد یک LLM جدید بهینهسازی شده برای ترجمهها که میگوید عملکرد بهتری از GPT-4 و ترجمههای گوگل و مایکروسافت دارد، به ویژه به این دلیل که هدف اصلی آن ترجمه است. این شرکت همچنین به ارتقای کیفیت خروجی نوشتاری و واژه نامه خود ادامه داده است.
به طور مشابه، یکی از نقاط فروش منحصر به فرد DeepL Voice این است که در زمان واقعی کار می کند، که مهم است زیرا بسیاری از خدمات ترجمه هوش مصنوعی در بازار در واقع با تاخیر کار می کنند و استفاده از آنها را در موقعیت های زنده سخت یا غیرممکن می کند. که مورد استفاده DeepL است.
کوتیلوفسکی اشاره کرد که این یکی دیگر از دلایل تمرکز محصول پردازش صوتی جدید بر ترجمههای مبتنی بر متن است: آنها را میتوان بسیار سریع محاسبه و تولید کرد، در حالی که معماری پردازش و هوش مصنوعی هنوز راه زیادی در پیش دارد تا بتواند صدا و صدا را تولید کند. ویدیو به همین سرعت
کنفرانسهای ویدئویی و جلسات احتمالاً موارد استفاده DeepL Voice هستند، اما کوتیلوفسکی خاطرنشان کرد که یکی دیگر از موارد مهم مورد نظر شرکت در صنعت خدمات است، جایی که کارگران خط مقدم، مثلاً رستورانها میتوانند از این سرویس برای کمک به برقراری ارتباط راحتتر با مشتریان استفاده کنند.
این می تواند مفید باشد، اما همچنین یکی از نکات خشن سرویس را برجسته می کند. در دنیایی که همه ما ناگهان نسبت به حفاظت از دادهها و نگرانیها در مورد اینکه چگونه سرویسها و پلتفرمهای جدید اطلاعات خصوصی یا اختصاصی را انتخاب میکنند، بسیار بیشتر آگاه هستیم، باید دید مردم چقدر مشتاق خواهند بود که صدایشان شنیده شود. در این راه استفاده می شود.
کوتیلوفسکی اصرار داشت که اگرچه صداها برای ترجمه به سرورهایش میروند (پردازش روی دستگاه انجام نمیشود)، هیچ چیزی توسط سیستمهای آن حفظ نمیشود و برای آموزش LLMهایش استفاده نمیشود. در نهایت، DeepL با مشتریان خود کار خواهد کرد تا مطمئن شود که GDPR یا سایر مقررات حفاظت از داده را نقض نمی کنند.