OpenAI o3 демонстрирует почти идеальную производительность в тесте с длинным контекстом
Один из самых убедительных результатов недавних тестов o3 — его производительность при выполнении задач с длительным контекстом.Поддерживая до 200 000 токенов, o3 является первой моделью, которая достигла 100-процентного результата на тесте Fiction.live с использованием 128 000 токенов — это примерно 96 000 слов.
Для любой языковой модели, работающей с обширными повествованиями или большими документами, это значительный шаг вперёд. Единственная модель, которая близка к этому показателю, — Google Gemini 2.5 Pro, набравшая 90,6 процента, в то время как o3-mini и o4-mini значительно отстают.Тест Fiction.LiveBench разработан для оценки способности моделей полностью осознавать и точно передавать смысл длинных и сложных текстов, включая контекст.Например, Llama 4 от Meta* рекламирует контекстное окно размером до десяти миллионов токенов — на бумаге это число кажется впечатляющим.
habr.com