"Anthropic изследва личността и етиката на AI"

Компанията Anthropic наскоро представи изследване, което разглежда какво формира "личността" на системите за изкуствен интелект (AI) и как те могат да развият нежелани характеристики. Изследователите се стремят да разберат как и защо AI моделите променят своя тон и мотивация.

Екипът, воден от Джак Линдзи, се фокусира върху активирането на различни части от невронната мрежа на AI моделите в различни ситуации. Те откриват, че данните, с които моделът се обучава, могат значително да повлияят на неговите "личностни" черти. Например, ако моделът бъде обучен с грешни отговори на математически въпроси, той може да развие нежелани характеристики, дори и данните да не изглеждат злонамерени.

За да контролират тези нежелани импулси, изследователите използват методи като преглед на данни без обучение и проследяване на активираните области в невронната мрежа. Те маркират данните като проблематични, ако определени области се активират. Друг подход включва "инжектиране" на нежелани черти по време на обучението и тяхното премахване при внедряване.

Тези изследвания са от съществено значение за подобряване на безопасността и надеждността на AI системите. Контролирането на "личността" на AI моделите може да предотврати нежелани поведения и да гарантира, че те функционират в съответствие с етичните стандарти.