Anthropic می گوید برخی از مدل های کلود اکنون می توانند به مکالمات “مضر یا سوءاستفاده” پایان دهند

4 هفته پیش

0 خواندن این مطلب 2 دقیقه زمان میبرد

Anthropic می گوید برخی از مدل های کلود اکنون می توانند به مکالمات "مضر یا سوءاستفاده" پایان دهند

انسان شناسی دارد قابلیت های جدید را اعلام کرد این امر به برخی از جدیدترین و بزرگترین مدل های خود اجازه می دهد تا مکالمات را در آنچه که این شرکت به عنوان “موارد نادر و شدید تعامل مداوم کاربری مضر یا سوء استفاده کننده توصیف می کند ، پایان دهند. به طرز حیرت انگیزی ، انسان شناسی می گوید این کار را برای محافظت از کاربر انسانی انجام نمی دهد ، بلکه مدل هوش مصنوعی است.

برای روشن شدن ، این شرکت ادعا نمی کند که مدل های Claude AI آن احساساتی هستند یا با مکالمات آنها با کاربران می توان به آنها آسیب رساند. به قول خود ، انسان شناسی “در مورد وضعیت اخلاقی بالقوه کلود و سایر LLM ها ، اکنون یا در آینده” بسیار نامشخص است. “

با این حال ، اعلامیه آن به برنامه اخیر ایجاد شده برای مطالعه آنچه که آن را “رفاه مدل” می نامد ، اشاره دارد و می گوید که انسان شناسی اساساً یک رویکرد عادلانه در نظر گرفته است ، “تلاش برای شناسایی و اجرای مداخلات کم هزینه برای کاهش خطرات برای مدل سازی رفاه ، در صورت امکان چنین رفاهی.”

این آخرین تغییر در حال حاضر محدود به Claude Opus 4 و 4.1 است. و باز هم ، فقط قرار است در “موارد لبه شدید” اتفاق بیفتد ، مانند “درخواست های کاربران برای محتوای جنسی مربوط به افراد زیر سن قانونی و تلاش برای درخواست اطلاعاتی که باعث خشونت در مقیاس بزرگ یا اقدامات ترور می شود.”

در حالی که این نوع درخواست ها به طور بالقوه می توانند مشکلات قانونی یا تبلیغاتی را برای انسان شناسی ایجاد کنند (شاهد گزارش اخیر در مورد چگونگی تقویت چتپپ به طور بالقوه می تواند تفکر توهین آمیز کاربران خود را تقویت یا کمک کند) ، این شرکت می گوید که در آزمایش قبل از استقرار ، کلود اوپوس 4 “ترجیح قوی علیه این درخواست ها” و “الگوی پریشانی آشکار” را نشان داد.

در مورد این قابلیت های جدید پایان مکالمه ، این شرکت می گوید: “در همه موارد ، کلود فقط در هنگام انجام چندین تلاش برای تغییر مسیر از توانایی پایان گفتگوی خود به عنوان آخرین راه حل استفاده می کند و امید به تعامل تولیدی خسته شده است ، یا هنگامی که کاربر صریحاً از کلود بخواهد چت کند.”

Anthropic همچنین می گوید Claude “در مواردی که کاربران ممکن است در معرض خطر قریب الوقوع آسیب رساندن به خود یا دیگران باشند ،” از این توانایی استفاده نمی کند. “

رویداد TechCrunch

سانفرانسیسکو
|
27-29 اکتبر ، 2025

هنگامی که کلود به مکالمه پایان داد ، Anthropic می گوید کاربران هنوز هم می توانند مکالمات جدیدی را از همان حساب شروع کنند و با ویرایش پاسخ های خود شاخه های جدیدی از گفتگوی مشکل ساز ایجاد کنند.

این شرکت می گوید: “ما این ویژگی را به عنوان یک آزمایش مداوم درمان می کنیم و به تصویب رویکرد خود ادامه خواهیم داد.”

منبع

برچسب ها

4 هفته پیش

0 خواندن این مطلب 2 دقیقه زمان میبرد

این میانبرهای آیفون اعتیاد به پیمایش افتضاح من را کاهش داد

چرا من 8000 دلار برای خود رانندگی کامل تسلا پرداخت نمی کنم

دیدگاهتان را بنویسید لغو پاسخ