The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить
Фраза «Я всего лишь языковая модель…» давно стала мемом. Но, как выяснилось, за этим стоит не просто заученный шаблон, а вполне конкретное состояние модели.
Anthropic совместно с исследователями из Оксфорда разобрались, где именно в мозге LLM живёт персона ассистента и почему модели иногда внезапно уходят в мистику, психоз или опасные советы.Исследование провели на крупных open-weight моделях: Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B.
habr.com