Anthropic изучила, как ИИ начинает осознавать самого себя

habr.com:

Команда Anthropic опубликовала исследование о том, способны ли большие языковые модели понимать собственные мысли и внутренние состояния.Учёные применили метод внедрения концептов — искусственного добавления паттернов активности в нейроны модели.

К примеру, сигнал “ALL CAPS” соответствовал тексту, написанному заглавными буквами. Если после вмешательства активация появлялась в сети, это означало, что модель подумала о капсе.После внедрения сигнала исследователи спрашивали модель: «Ты чувствуешь, что что-то изменилось?» — и в 20% случаев Claude 4.1 действительно замечал изменение, ещё до того, как проявлял его в ответах.В другом эксперименте учёные вживляли в ответ случайное слово, например bread, и наблюдали.

Читать на habr.com Все новости от habr.com

Эксперимент Anthropic с ИИ-системой Claudius по управлению торговыми автоматами привёл к неожиданным последствиям

Microsoft, Nvidia и Anthropic заключили сделку на $45 млрд

Anthropic запускает масштабный образовательный проект в Африке: ИИ‑инструмент Chidi для сотен тысяч студентов

ЦБ уточнил условия для проверок переводов самому себе по СБП на мошенничество

Эксперимент Anthropic с ИИ-системой Claudius по управлению торговыми автоматами привёл к неожиданным последствиям

Microsoft, Nvidia и Anthropic заключили сделку на $45 млрд

Anthropic запускает масштабный образовательный проект в Африке: ИИ‑инструмент Chidi для сотен тысяч студентов

ЦБ уточнил условия для проверок переводов самому себе по СБП на мошенничество

Банк России планирует включить крупные переводы самому себе по СБП в перечень признаков мошенничества

Дата-центры, в строительство которых Anthropic инвестирует $50 млрд, должны начать работу в 2026 году

Какие фрукты являются самыми полезными для здоровья - исследование