کار آفرینی و استارتاپ

DeepL، DeepL Voice، ترجمه‌های هم‌زمان و مبتنی بر متن را از صداها و ویدیوها راه‌اندازی می‌کند


DeepL با ترجمه متن آنلاین که ادعا می‌کند ظریف‌تر و دقیق‌تر از خدماتی مانند گوگل است، نامی برای خود دست و پا کرده است.

اکنون، همانطور که تبلیغات برای خدمات هوش مصنوعی همچنان در حال افزایش است، DeepL حالت دیگری را به پلتفرم اضافه می کند: صدا. اکنون کاربران می توانند از DeepL Voice برای گوش دادن به صحبت های شخصی که به یک زبان صحبت می کند استفاده کنند و به طور خودکار آن را به زبان دیگر ترجمه کنند.

انگلیسی، آلمانی، ژاپنی، کره‌ای، سوئدی، هلندی، فرانسوی، ترکی، لهستانی، پرتغالی، روسی، اسپانیایی و ایتالیایی زبان‌هایی هستند که DeepL امروز می‌تواند آن‌ها را بشنود. زیرنویس‌های ترجمه‌شده برای تمام ۳۳ زبانی که در حال حاضر توسط DeepL Translator پشتیبانی می‌شوند، در دسترس هستند.

اعتبار تصویر:DeepL (در یک پنجره جدید باز می شود) تحت الف (در یک پنجره جدید باز می شود) مجوز

DeepL Voice در حال حاضر از ارائه نتیجه به‌عنوان یک فایل صوتی یا تصویری خودداری می‌کند: هدف این سرویس مکالمه‌های زنده و ویدئو کنفرانس در زمان واقعی است و به صورت متن ارائه می‌شود، نه صدا.

در اولین مورد، می‌توانید ترجمه‌های خود را طوری تنظیم کنید که به‌عنوان «آینه» در تلفن هوشمند ظاهر شوند – ایده این است که تلفن را بین خود روی میز جلسه بگذارید تا هر طرف کلمات ترجمه شده را ببیند – یا به عنوان رونویسی که شما دوش به دوش با کسی به اشتراک می گذارید سرویس ویدئو کنفرانس ترجمه ها را به صورت زیرنویس نمایش می دهد.

جارک کوتیلوفسکی، بنیانگذار و مدیر عامل شرکت (تصویر بالا)، در مصاحبه ای اشاره کرد که می تواند با گذشت زمان تغییر کند. این اولین محصول DeepL برای صدا است، اما بعید است آخرین آن باشد. “[Voice] جایی که ترجمه قرار است در سال آینده اجرا شود.»

شواهد دیگری برای حمایت از این گفته وجود دارد. گوگل – یکی از بزرگترین رقبای DeepL – همچنین شروع به ترکیب زیرنویس های ترجمه شده در زمان واقعی در سرویس کنفرانس ویدیویی Meet خود کرد. و بسیاری از استارت آپ های هوش مصنوعی در حال ساخت خدمات ترجمه صوتی هستند، مانند متخصص صدای هوش مصنوعی Eleven Labs (دوبله Eleven Labs، و Panjaya، که با استفاده از صداها و ویدیوهای “دیپ جعلی” ترجمه هایی را ایجاد می کند که با صدا مطابقت دارد.

دومی از API ElevenLabs استفاده می‌کند و به گفته Kutylowski، ElevenLabs خود از فناوری DeepL برای تقویت سرویس ترجمه خود استفاده می‌کند.

خروجی صدا تنها قابلیتی نیست که هنوز راه اندازی نشده است.

همچنین در حال حاضر هیچ API برای محصول صوتی وجود ندارد. تجارت اصلی DeepL بر B2B متمرکز است و Kutylowski گفت که این شرکت مستقیماً با شرکا و مشتریان کار می کند.

همچنین انتخاب گسترده ای از ادغام ها وجود ندارد: کوتیلوفسکی گفت، تنها سرویس تماس ویدیویی که از زیرنویس های DeepL پشتیبانی می کند در حال حاضر Teams است که “اکثر مشتریان ما را پوشش می دهد.” هیچ اطلاعاتی در مورد زمان یا زمانی که Zoom یا Google Meet DeepL Voice را به کار خواهند گرفت، وجود ندارد.

این محصول برای کاربران DeepL بسیار طولانی خواهد بود، نه فقط به این دلیل که ما در انبوهی از سایر خدمات صوتی هوش مصنوعی با هدف ترجمه غرق شده ایم. کوتیلوفسکی گفت که این درخواست شماره 1 مشتریان از سال 2017، سال راه اندازی DeepL بوده است.

بخشی از دلیل انتظار این است که DeepL رویکردی کاملاً عمدی برای ساخت محصول خود در پیش گرفته است. برخلاف بسیاری دیگر از برنامه‌های کاربردی در دنیای هوش مصنوعی که به مدل‌های زبان بزرگ (LLM) شرکت‌های دیگر تکیه می‌کنند و آن‌ها را تغییر می‌دهند، هدف DeepL ایجاد سرویس از پایه است. در ماه جولای، این شرکت منتشر شد یک LLM جدید بهینه‌سازی شده برای ترجمه‌ها که می‌گوید عملکرد بهتری از GPT-4 و ترجمه‌های گوگل و مایکروسافت دارد، به ویژه به این دلیل که هدف اصلی آن ترجمه است. این شرکت همچنین به ارتقای کیفیت خروجی نوشتاری و واژه نامه خود ادامه داده است.

به طور مشابه، یکی از نقاط فروش منحصر به فرد DeepL Voice این است که در زمان واقعی کار می کند، که مهم است زیرا بسیاری از خدمات ترجمه هوش مصنوعی در بازار در واقع با تاخیر کار می کنند و استفاده از آنها را در موقعیت های زنده سخت یا غیرممکن می کند. که مورد استفاده DeepL است.

کوتیلوفسکی اشاره کرد که این یکی دیگر از دلایل تمرکز محصول پردازش صوتی جدید بر ترجمه‌های مبتنی بر متن است: آنها را می‌توان بسیار سریع محاسبه و تولید کرد، در حالی که معماری پردازش و هوش مصنوعی هنوز راه زیادی در پیش دارد تا بتواند صدا و صدا را تولید کند. ویدیو به همین سرعت

کنفرانس‌های ویدئویی و جلسات احتمالاً موارد استفاده DeepL Voice هستند، اما کوتیلوفسکی خاطرنشان کرد که یکی دیگر از موارد مهم مورد نظر شرکت در صنعت خدمات است، جایی که کارگران خط مقدم، مثلاً رستوران‌ها می‌توانند از این سرویس برای کمک به برقراری ارتباط راحت‌تر با مشتریان استفاده کنند.

این می تواند مفید باشد، اما همچنین یکی از نکات خشن سرویس را برجسته می کند. در دنیایی که همه ما ناگهان نسبت به حفاظت از داده‌ها و نگرانی‌ها در مورد اینکه چگونه سرویس‌ها و پلتفرم‌های جدید اطلاعات خصوصی یا اختصاصی را انتخاب می‌کنند، بسیار بیشتر آگاه هستیم، باید دید مردم چقدر مشتاق خواهند بود که صدایشان شنیده شود. در این راه استفاده می شود.

کوتیلوفسکی اصرار داشت که اگرچه صداها برای ترجمه به سرورهایش می‌روند (پردازش روی دستگاه انجام نمی‌شود)، هیچ چیزی توسط سیستم‌های آن حفظ نمی‌شود و برای آموزش LLM‌هایش استفاده نمی‌شود. در نهایت، DeepL با مشتریان خود کار خواهد کرد تا مطمئن شود که GDPR یا سایر مقررات حفاظت از داده را نقض نمی کنند.



منبع

دیدگاهتان را بنویسید

دکمه بازگشت به بالا