Huginn: языковая модель, которая может углублять свои мыслительные процессы
Исследовательская группа из Института ELLIS в Тюбингене, Университета Мэриленда и Ливерморской национальной лаборатории имени Лоуренса разработала языковую модель под названием «Huginn», которая может углублять свои мыслительные процессы с помощью рекурсивной архитектуры.В отличие от обычных моделей логического мышления, таких как o3-mini от OpenAI, которые генерируют цепочки рассуждений с помощью логических токенов, Huginn не требует специального обучения и рассуждает в скрытом пространстве своей нейронной сети, прежде чем выдать результат.Модель была обучена на суперкомпьютере Frontier с использованием 4096 графических процессоров AMD MI250X — это один из крупнейших обучающих прогонов, когда-либо проводившихся на кластере AMD.
Концепция обучения была новой, но в основе своей простой: в отличие от типичных языковых моделей, Huginn обучался с переменным количеством вычислительных итераций.Для каждого прохода система случайным образом определяла, сколько раз нужно повторить центральный вычислительный блок — от одного до 64 раз.
habr.com