Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением
Исследовательская группа из Сингапура и Китая представила LongWriter-Zero — модель искусственного интеллекта, которая использует обучение с подкреплением для написания текстов объёмом более 10 000 слов без использования синтетических обучающих данных.Существующие языковые модели часто испытывают трудности при создании очень длинных текстов: по мере увеличения объёма текста снижается связность, увеличивается количество повторений и структурных проблем.
Большинство современных подходов решают эти проблемы с помощью контролируемой тонкой настройки (SFT) на искусственно созданных длинных текстах.
habr.com