Журналисты обнаружили датасеты с 22 млн охраняемых музыкальных записей, которыми обучали Suno, Udio и ИИ‑модели Google
Редакция The Atlantic в рамках проекта AI Watchdog обнаружила четыре крупных базы данных с музыкальными треками, которые, по данным издания, использовались для обучения музыкальных генераторов на основе ИИ.
Два крупнейших датасета содержат 12 и 9 млн треков соответственно, ещё два набора — около 100 тысяч каждый. Все базы доступны для публичного поиска.Компании нередко утверждают, что используют для обучения только свободно доступные материалы, но обнаруженные журналистами датасеты показывают, какой объём музыки разработчики могут скачать, несмотря на отсутствие музыки в общем доступе.
habr.com