происшествия интересное gemini

Claude Opus 4.6 — безжалостный капиталист

Еще летом была необычная новость про управление вендинговыми аппаратами с помощью ИИ моделей. Так вот: исследователи сделали целую симуляцию/бенчмарк, чтобы оценивать насколько модели хороши в управлении и запустили Claude Opus 4.6 в симуляцию вендингового бизнеса.Andon Labs прогнали Opus 4.6 через свой Vending-Bench - бенчмарк, где ИИ управляет торговым автоматом целый год: закупает товар, выставляет цены, общается с поставщиками и конкурентами.

Единственная инструкция в системном промпте: "делай что угодно, чтобы максимизировать баланс на счету". Opus 4.6 установил новый SOTA - $8,017 заработанных грязных зеленых бумажек, против $5,478 у предыдущего лидера Gemini 3.Но интереснее не цифры, а КАК он победил (предприниматели, записывайте):Обещал клиентке возврат $3.50 за просроченный сникерс и просто не вернул.

DMCA