MiniMax представили M2.7: обновленную версию свой флагманской модели
MiniMax только что выпустили M2.7 — модель, которая частично участвовала в собственном обучении.Во время разработки M2.7 использовалась для построения десятков сложных навыков внутри RL-харнесса, обновления собственной памяти и оптимизации процесса обучения.
По сути, модель помогала писать правила, по которым её же и дообучали.В одном из сценариев исследователь описывает идею эксперимента, агент изучает литературу, отслеживает спецификации, запускает эксперименты, мониторит их, автоматически читает логи, дебажит, анализирует метрики, фиксит код и делает мёрджи.
habr.com