Не LLM, а видеомодель: ИИ научили работать в Blender и водить машину без единого слова
Стартап Standard Intelligence представил FDM-1 — модель, которая управляет компьютером не через текст и скриншоты, как это делают агенты на базе языковых моделей, а напрямую через видео со скоростью 30 кадров в секунду.
Модель обучена на 11 млн часов экранных записей и обходится без chain-of-thought, без tool use и без единого текстового токена на выходе — только нажатия клавиш и движения мыши.До сих пор использование компьютеров ИИ строили по следующей схеме: берем языковую модель со зрением, дообучаем на размеченных скриншотах, строим среду для каждой задачи отдельно.
habr.com