atlântico O repórter Alex Reisner descobriu recentemente quatro conjuntos de dados de música usados para treinar modelos de IA e os tornou totalmente pesquisáveis para o público. Dois dos conjuntos são absolutamente enormes, com 12 milhões e 9 milhões de faixas. Os outros dois são muito menores, mas ainda representam uma quantidade significativa de dados de treinamento com mais de 100.000 músicas cada.
De acordo com Reisner, os conjuntos foram baixados milhares de vezes e, embora seja impossível saber exatamente quem os usou, o Google e o Stability confirmaram isso em artigos de pesquisa. Algumas das fontes, como o conjunto de dados Free Music Archive, são gratuitas para transmissão para uso pessoal, mas exigem licenciamento para aplicações comerciais.
Embora, em teoria, os conjuntos de dados estejam disponíveis gratuitamente na Internet, usá-los como dados de treinamento não é tão simples quanto baixar um arquivo ZIP e alimentá-lo em um modelo de IA. Como explica Reisner:
Três dos conjuntos de dados que encontrei são distribuídos como uma lista de links para músicas no YouTube ou Spotify. Os desenvolvedores de IA baixam o áudio real usando ferramentas que automatizam o trabalho, algumas das quais permitem que os desenvolvedores ignorem logins, anúncios e mecanismos que podem gerar dinheiro ou assinantes para os criadores. Tais ferramentas violam os termos de serviço destas plataformas.
Fonte: theverge

