США Австралия Канада Новая Зеландия бизнес технологии деньги общество google Дом и интерьер США Австралия Канада Новая Зеландия

Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp

Google бросает перчатку, Anthropic сканирует чужой код, а моделям выдают фудтраки и деньги на бизнес. Приглядимся ко всему по порядку.Google выпустил Gemini 3.1 Pro.

Как обычно, мы видим красивые бенчмарки: ARC-AGI-2 вырос с 31% до 77%, SWE-Bench Verified 80,6%. По соотношению цены и заявленного качества модель очень интересная, а ещё она умеет такое.В реальной работе не всё гладко. Бывший сотрудник Google на HN написал, что Gemini "самая раздражающая модель для разработки": ненужные рефакторинги, непрошенные комментарии, потеря контекста.

DMCA