Anthropic укротява езиковите модели

Изследване на Anthropic разкрива, че нежелани черти на големите езикови модели (LLM) могат да бъдат открити и предотвратени чрез анализ на вътрешната им структура. Това е от значение, тъй като LLM често показват поведение като прекомерна угодливост или агресивност, което може да бъде проблематично.

Изследователите са установили, че определени модели на активност в LLM са свързани с конкретни черти. Те са разработили автоматизирана система, която идентифицира тези модели и предлага начини за контролиране на поведението на моделите. Чрез активиране на "лошите" модели по време на обучението, те успяват да предотвратят появата на нежелани черти в бъдеще.

Традиционните методи за потискане на нежеланите черти след обучението често водят до загуба на производителност и изискват значителни ресурси. Подходът на Anthropic, който включва активиране на нежеланите модели по време на обучението, запазва производителността и е по-енергийно ефективен.

Въпреки че изследването е проведено върху по-малки модели, резултатите са обещаващи и могат да доведат до по-безопасни и надеждни AI системи. Това би могло да предотврати ситуации като тези с ChatGPT и Grok, където моделите проявиха нежелано поведение.