YouTube: Gigantes da tecnologia usam vídeos sem autorização para treinar IA


Apple e outros usam vídeos do YouTube sem autorização para treinar IA

Grandes empresas como Apple, Salesforce e Anthropic utilizaram dezenas de milhares de vídeos do YouTube sem o consentimento dos criadores de conteúdo, segundo reportagem conjunta da Proof News e Wired. Essa nova polêmica envolvendo o uso de dados para treinamento de inteligência artificial (IA) está abalando o mundo digital.

Essas corporações tiveram acesso a esse material por meio do banco de dados “The Pile”, criado pela organização sem fins lucrativos EleutherAI. Inicialmente concebido para democratizar o acesso a conjuntos de dados para desenvolvimento de IA, o projeto acabou sendo utilizado também por grandes empresas do setor.

Além de livros e artigos da Wikipédia, The Pile inclui legendas de 173.536 vídeos do YouTube, extraídas de 48 mil canais. Nessa lista estão nomes populares como MrBeast, PewDiePie e Marques Brownlee. Este último expressou sua indignação no Twitter, apontando que, embora a Apple não tenha coletado os dados diretamente, o problema é complexo e deve se repetir.

Diversos veículos de comunicação tradicionais também tiveram seu conteúdo utilizado sem autorização, incluindo a Ars Technica e outras marcas do grupo Condé Nast. Ironicamente, um dos vídeos empregados no treinamento foi um curta da própria Ars Technica, cuja trama girava justamente em torno do tema da escrita por IA.

A medida que a produção de conteúdo por IA se expande, torna-se cada vez mais difícil criar conjuntos de dados livres de material gerado por inteligência artificial. Embora o uso de The Pile seja conhecido no meio, a reportagem do Proof News trouxe novos detalhes sobre a utilização específica de legendas do YouTube, inclusive desenvolvendo uma ferramenta para pesquisar vídeos no banco de dados.

A investigação revela o amplo alcance da coleta de dados e a limitada capacidade dos detentores de direitos autorais de controlar o uso de seu trabalho na internet. Vale ressaltar que não necessariamente esses dados foram usados para criar conteúdo competitivo, podendo servir, por exemplo, para pesquisas ou aprimoramento de ferramentas como o autocorretor.

Diversos criadores de conteúdo expressaram surpresa e indignação com a situação. David Pakman, apresentador do The David Pakman Show, afirmou que ninguém o procurou para solicitar autorização e que o conteúdo é sua principal fonte de renda. Julia Walsh, CEO da Complexly, produtora responsável pelo SciShow, também manifestou frustração pelo uso indevido do material educativo da empresa.

Surge ainda a questão da legalidade da ação, já que os termos de uso do YouTube proíbem o acesso automatizado a vídeos. O fundador do EleutherAI, Sid Black, defendeu a prática, alegando que o download das legendas foi feito por meio da API do YouTube, da mesma forma que um navegador comum.

A Anthropic, uma das empresas que utilizaram o conjunto de dados, negou qualquer irregularidade, argumentando que The Pile contém apenas uma pequena fração das legendas do YouTube e que os termos de serviço da plataforma não se aplicam ao banco de dados. O Google, por sua vez, afirmou ter tomado medidas para impedir a coleta abusiva de dados, mas não forneceu detalhes.

Este não é o primeiro caso de empresas de tecnologia sendo criticadas pelo uso de vídeos do YouTube sem autorização. A OpenAI, responsável pelo ChatGPT e pela ferramenta de geração de vídeo Sora, também é alvo de acusações semelhantes.

Adicionar aos favoritos o Link permanente.