Hugging Face выпустила SmolTalk — синтетический датасет для обучения языковых моделей
Разработчики платформы Hugging Face представили SmolTalk — синтетический англоязычный датасет для обучения больших языковых моделей.
Он включает в себя существующие и новые наборы данных. С его помощью Hugging Face обучала нейросеть SmolLM2.Датасет состоит почти из 2,2 млн строк данных, а его размер составляет более 4 ГБ.
habr.com