Claude AI ще прекратява вредни разговори

Чатботът Claude AI на Anthropic вече може да прекратява разговори, които се считат за "постоянно вредни или обидни", както беше забелязано по-рано от TechCrunch. Тази възможност е налична в моделите Opus 4 и 4.1 и ще позволи на чатбота да прекратява разговори като "последен изход", след като потребителите многократно го молят да генерира вредно съдържание въпреки многократните откази и опити за пренасочване. Целта е да се подпомогне "потенциалното благосъстояние" на AI моделите, казват от Anthropic, като се прекратяват видове взаимодействия, при които Claude е показал "явно безпокойство".

Ако Claude избере да прекрати разговор, потребителите няма да могат да изпращат нови съобщения в този разговор. Те все пак могат да създават нови чатове, както и да редактират и опитват отново предишни съобщения, ако искат да продължат определена нишка.

По време на тестването на Claude Opus 4, Anthropic казва, че е установила, че Claude има "стабилно и последователно отвращение към вреда", включително когато е помолен да генерира сексуално съдържание, включващо малолетни, или да предостави информация, която може да допринесе за насилствени действия и тероризъм. В тези случаи Anthropic казва, че Claude е показал "модел на явно безпокойство" и "тенденция да прекратява вредни разговори, когато има възможност".

Anthropic отбелязва, че разговорите, които предизвикват този вид реакция, са "екстремни случаи", добавяйки, че повечето потребители няма да срещнат тази пречка дори когато говорят за противоречиви теми. AI стартъпът също така е инструктирал Claude да не прекратява разговори, ако потребителят показва признаци, че може да иска да навреди на себе си или да причини "непосредствена вреда" на други. Anthropic си партнира с Throughline, онлайн доставчик на кризисна подкрепа, за да помогне за разработването на отговори на подканвания, свързани със самонараняване и психично здраве.

Миналата седмица Anthropic също актуализира политиката за използване на Claude, тъй като бързо развиващите се AI модели повдигат повече въпроси за безопасността. Сега компанията забранява на хората да използват Claude за разработване на биологични, ядрени, химически или радиологични оръжия, както и за разработване на злонамерен код или експлоатиране на уязвимости в мрежата.