The Assistant Axis. Почему LLM съезжают с катушек и как Anthropic предлагает это чинить

habr.com

habr.com:

Фраза «Я всего лишь языковая модель…» давно стала мемом. Но, как выяснилось, за этим стоит не просто заученный шаблон, а вполне конкретное состояние модели.

Anthropic совместно с исследователями из Оксфорда разобрались, где именно в мозге LLM живёт персона ассистента и почему модели иногда внезапно уходят в мистику, психоз или опасные советы.Исследование провели на крупных open-weight моделях: Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B.

Читать на habr.com Все новости от habr.com

Anthropic описала 8 угроз от Claude — включая саботаж науки и кражу собственных весов

Спотовая цена DRAM выросла на 600%, и это ломает правила: почему на рынке памяти говорят о «суперцикле»

Claude Opus 4.6 возглавил рейтинг ИИ-дизайна. Всего модели Anthropic держат 3 места в топ-5

Anthropic выпустила Claude Opus 4.6: контекст в 1М токенов и рекорды в бенчмарках

Anthropic описала 8 угроз от Claude — включая саботаж науки и кражу собственных весов

Спотовая цена DRAM выросла на 600%, и это ломает правила: почему на рынке памяти говорят о «суперцикле»

Claude Opus 4.6 возглавил рейтинг ИИ-дизайна. Всего модели Anthropic держат 3 места в топ-5

Anthropic выпустила Claude Opus 4.6: контекст в 1М токенов и рекорды в бенчмарках

$555 тыс. за безопасность AGI: OpenAI нанял эксперта из Anthropic

«Авторитарная компания не создаст AGI»: Альтман раскритиковал Anthropic за рекламу на Super Bowl

Андрей Карпати рассказал, как придумал вайб-кодинг — и почему пора его переименовать

Anthropic отказалась от рекламы в Claude: «Это конфликт интересов»

Баг в GitHub Copilot дает бесплатный доступ к Claude Opus 4.5 — Microsoft отказалась чинить

Чем дольше ИИ думает — тем больше несет чушь: исследование Anthropic

«npm — это вирус?»: как продажа установки Clawbot принесла $17K за три дня

ИИ помогает писать код, но мешает учиться — эксперимент Anthropic

Почему мы говорим во сне и чем это может быть опасно

«Впереди испытание для всего человечества»: о 5 рисках ИИ в эссе сооснователя Anthropic

«50% джуниоров потеряют работу за 5 лет»: прогноз CEO Anthropic

В Anthropic показали, что «характер» в LLM — это отдельное направление в нейросети

Почему ионные квантовые компьютеры не масштабируются? MIT убрал одно из препятствий

ИИ забирает квалифицированную работу, оставляя людям рутину: парадокс исследования Anthropic

OpenAI, Anthropic и Google будут вместе бороться с галлюцинациями ИИ

Anthropic создала Cowork за 10 дней — весь код написал Claude Code

Эта LLM не знает, кто такой Илон Маск. И это не баг, а фича

Anthropic представила Cowork — ИИ-агента на базе Claude Code для широких задач

Разработчики Grok писали код на Claude. Anthropic их забанил

Anthropic привлекает $10 млрд. Оценка компании удвоилась за 4 месяца

The Guardian пишет о главной проблеме ИИ — компании рискуют никогда не выйти на прибыль

Anthropic развернет почти миллион ИИ-ускорителей TPU на собственных площадках

Intel готовит процессоры Core G3 на Panther Lake для портативных консолей: до 14 ядер CPU и 12 ядер GPU Xe3

Nvidia, ускоряйся: китайская Moore Threads представила ноутбук с собственным 12-ядерным ARM-процессором

Роутер Innrou с функцией ароматизации

Лучшие продукты на завтрак для тех, кто хочет жить долго

OpenAI и Paradigm представили инструмент для оценки навыков ИИ в защите смарт-контрактов

В Беларуси ввели ограничения на безлимитный интернет

Как состав слюны замедляет или ускоряет развитие кариеса

Официально: бюджетный трекер Xiaomi Tag будет представлен уже 28 февраля

Искусственный интеллект нашел затерянную на Луне межпланетную станцию СССР. Или нет?

Продуктивность в IT: интервью о том, что делать с «невидимыми» сотрудниками

Uber планирует вложить $100 млн в инфраструктуру зарядки электромобилей для поддержки своих парков роботакси в США

Десять странных фобий, о существовании которых вы даже не догадывались

Личные боги претория: росписи II века обнаружили в Германии

Творог или белый сыр — диетолог раскрывает, что полезнее

Casio вывела на рынок США три обновленные модели G-Shock: основные изменения и характеристики

Linux 7.0 устраняет проблемы с драйвером AMDGPU на старых видеокартах Radeon

Лица средневековья: ремонт дома превратился в важное открытие

Casio выпустила серию неубиваемых часов Mudmaster

SeatGeek предложит пользователям Spotify возможность покупки билетов на концерты

Garmin вернула функцию ручного включения Sleep Focus в серии Fenix 8

Galaxy S26 получит поддержку Perplexity в рамках обновленной системы Galaxy AI

Стали известны онлайн-эксклюзивные цветовые варианты Samsung Galaxy S26 Ultra

Чому я втомився від сервісних ігор і повернувся до синглплеєрів

Инсайдер рассказал о возвращении OnePlus 15s с обновленной камерой

Морская или речная: эксперт объяснил, какая рыба полезнее

Как минимум пять новинок за три дня: Apple готовит масштабный анонс в начале марта

Красный становится фаворитом: Apple тестирует новый дизайн для iPhone Pro

Худшее место для сна назвали эксперты - проснетесь очень уставшим

Первое видео YouTube выставили в Лондонском музее

Банкир-миллионер ездил поездом без билета: чем это закончилось

Gemini 3.1 Pro создала интерфейс Windows 11 с одного промпта

Больше новостей

О нас

Ria24.today - агрегатор самых свежих новостей ведущих новостных сайтов со всего мира. 300+ информационных ресурсов на одном сайте, экономьте своё время.
Самые свежие новости на главной странице, чтобы вы всегда были в курсе, и владели информацией, полученной из разных источников, порой, с диаметральными политическими взглядами.
Актуальные новости 24 часа в сутки, 7 дней в неделю!

ria24.today

Рубрики

Инфо

Рекламодателям

Вопросы по рекламе ?

Опубликовать статью

©2026. Все права защищены.

DMCA