daniilshat Microsoft Apache daniilshat Microsoft

Hugging Face выпустила SmolTalk — синтетический датасет для обучения языковых моделей

Разработчики платформы Hugging Face представили SmolTalk — синтетический англоязычный датасет для обучения больших языковых моделей.

Он включает в себя существующие и новые наборы данных. С его помощью Hugging Face обучала нейросеть SmolLM2.Датасет состоит почти из 2,2 млн строк данных, а его размер составляет более 4 ГБ.

DMCA