Прорыв от Google: активное обучение с экономией данных на 10 000× при дообучении LLM
Google разработала масштабируемый процесс active learning, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.Метод работает следующим образом: сначала стартовая модель (LLM-0) принимает промпт и автоматически размечает огромный массив данных, создавая базовую разметку.
Затем кластеризация анализирует эту разметку и выявляет примеры, где модель ошибается или проявляет неуверенность. Эти примеры считаются наиболее спорными и ценными для обучения.
Google LangExtract: новая библиотека для извлечения структурированных данных из текста с помощью LLM
habr.com