Исследователи представили бенчмарк, в котором языковые модели проходят классические игры
Исследователи Принстонского университета представили Video Game Bench — бенчмарк, в котором языковые модели проходят классические игры для MS-DOS и Game Boy.
Код бенчмарка открыт и опубликован на GitHub.Авторы проекта решили выяснить, какая из языковых моделей может пройти как можно больше классических игр.
habr.com