El análisis de Proof News afirma que algunas de las empresas de tecnología más grandes del mundo, incluidas Apple y Nvidia, están entrenando sistemas de inteligencia artificial con transcripciones de videos de YouTube sin el permiso de los creadores.
El informe, un incluyendo un motor de búsqueda Para determinar si un canal de YouTube está en el conjunto de datos, dice: “Los pesos pesados de Silicon Valley, entre los que se incluyen Anthropic, Nvidia, Apple y Salesforce, utilizaron subtítulos de 173.536 vídeos de YouTube, extraídos de más de 48.000 canales. “Algunos de los canales de YouTube incluidos en el conjunto de datos son programas nocturnos como The Late Show with Stephen Colbert y Jimmy Kimmel Live, así como contenido de personalidades populares de YouTube, entre ellas Mrbeastinspector técnico Marqués Brownlee y PewDiePie.
Proof News dijo que los datos eran parte de una colección llamada The Pile que provenía de una organización sin fines de lucro. EleutherAI. en un Trabajo de investigación 2020la organización sin fines de lucro reportó al Archivo como 22 datos individuales.
Apple, Anthropic y EleutherAI no respondieron de inmediato a las solicitudes de comentarios. Nvidia se negó a hacer comentarios.
En un correo electrónico a CNET, un portavoz de Google dijo que la compañía mantiene sus declaraciones anteriores sobre el tema, vinculando a Artículo de Bloomberg de abril. En el artículo, el director ejecutivo de Google, Neal Mohan, dijo que no sabe si OpenAI realmente usó videos de YouTube para entrenar su generador de texto a video, pero si lo hizo, eso es una violación de los términos de servicio de la plataforma. No abordó si el propio Google utilizó los vídeos de esta manera.
Si bien la IA sigue siendo una tecnología clave seguida por titanes tecnológicos como Apple, Google, Microsoft, Meta e IBM, para la evolución de la tecnología es necesario alimentar a los modelos de IA con una gran cantidad de datos. Los líderes en el espacio, incluido OpenAI, han reconocido que se está volviendo Cada vez es más difícil encontrar conjuntos de datos para entrenar sistemas de IA.. Eso ha llevado a OpenAI, el creador de ChatGPT, a negociar acuerdos con empresas de contenido, incluidas Corporación de noticias. y Reddit, para conseguir contenidos que alimenten los sistemas de IA.
La información del informe, sin embargo, sugiere que empresas de tecnología como Apple y Nvidia pueden estar creando datos que contienen información que no corresponde, al menos en espíritu, a lo que los creadores esperarían de una plataforma como YouTube. que obviamente prohíbe minería de datos de videos o transcripciones de videos.
Un portavoz de Anthropic, una startup de IA de beneficio público, dijo a Proof News que está utilizando Pile para entrenar a su asistente de IA Claude y dijo: “The Pile incluye un conjunto muy pequeño de títulos de YouTube. ”
La portavoz Jennifer Martinez dijo: “Los términos de YouTube cubren el uso directo de su plataforma, que es independiente del uso de la base de datos de The Pile. En cuanto a posibles violaciones de los términos de servicio de YouTube, lo remitimos a los autores de The Pile”.
Como dice el informe, el propio Google ponerse a trabajar para la minería de contenidos de YouTube. La compañía le dijo al New York Times que su acuerdo con los creadores de contenido permite utilizar el contenido de YouTube para el entrenamiento de IA.