Hugging Face выпускает небольшую языковую модель, которая в большинстве случаев превосходит Qwen и Llama

habr.com:

Исследовательская группа Hugging Face представила SmolLM2, свою новейшую языковую модель. Несмотря на то, что она не открывает новых горизонтов, она является ценным дополнением к портфолио AI-технологий компании.Эффективность модели обусловлена тщательным объединением различных источников для набора данных из 11 триллионов токенов и методичным подходом к обучению.

Команда начала со сбалансированного сочетания веб-контента и примеров программирования, а затем добавила специализированные наборы данных для математических задач и программирования.Исследователи оценивали эффективность модели после каждого этапа обучения, чтобы выявить недостатки, а затем соответствующим образом корректировали обучающие данные.

Читать на habr.com Все новости от habr.com

Deepseek: как превратить языковые модели в прибыльный бизнес, несмотря на снижение цен на рынке

Возможное ограничение использования новой языковой модели OpenAI GPT-4.5 через API

Что думают эксперты и пользователи о выпуске модели GPT-4.5?

ElevenLabs представил автономную модель преобразования речи в текст Scribe

Deepseek: как превратить языковые модели в прибыльный бизнес, несмотря на снижение цен на рынке

Возможное ограничение использования новой языковой модели OpenAI GPT-4.5 через API

Что думают эксперты и пользователи о выпуске модели GPT-4.5?

ElevenLabs представил автономную модель преобразования речи в текст Scribe

Новая модель ИИ Anthropic позволяет пользователям решать, насколько она обоснованна

Anthropic протестировала модель Claude 3.7 Sonnet на игре Pokémon Red

Как эффективно обучать крупные модели ИИ: руководство Hugging Face с открытым исходным кодом