Исследователи создают массивные наборы данных для обучения ИИ, используя только открытые источники
Common Pile — это первый крупномасштабный текстовый набор данных, полностью созданный на основе открытых источников и предлагающий альтернативу веб-данным, ограниченным авторским правом.Общая база данных Common Pile v0.1 объемом 8 ТБ была собрана исследователями из Университета Торонто, Hugging Face, EleutherAI, Института искусственного интеллекта Аллена (Ai2) и других.
Она объединяет контент из 30 различных источников.Набор данных объединяет научные статьи и тезисы из Arxiv, медицинские тексты из PubMed Central и миллионы других исследовательских статей.
habr.com