Home Tecnología Según se informa, Apple, Anthropic y otras empresas de inteligencia artificial han...

Tecnología

Según se informa, Apple, Anthropic y otras empresas de inteligencia artificial han entrenado modelos de inteligencia artificial en videos de YouTube.

August 17, 2024

Según se informa, Apple, Anthropic y otras importantes empresas de inteligencia artificial (IA) han entrenado modelos de IA con datos de cientos de miles de videos de YouTube. Un nuevo informe dice que muchas empresas de inteligencia artificial han utilizado un conjunto de datos disponible públicamente llamado Pile que contiene subtítulos de texto sin formato sin imágenes de video. Los datos se recopilan de creadores populares de YouTube como MrBeast, Marques Brownlee y PewDiePie, así como de creadores indios de YouTube como CarryMinati, BB ki Vines y Ashish Chanchlani.

Según los informes, muchos modelos de IA se han entrenado en vídeos de YouTube.

La evidencia importa sí investigación para descubrir que los datos de subtítulos de muchos de los 1,73,536 videos de YouTube fueron tomados de más de 48,000 canales. Según el informe, EleutherAI, un laboratorio de investigación de IA sin fines de lucro, observó estos datos. Posteriormente, fue utilizado por empresas como Apple, Anthropic, Nvidia, Salesforce y otras. En particular, el laboratorio de IA publicó una investigación. papel para resaltar los detalles del conjunto de datos.

EleutherAI ha creado un repositorio de datos de 800 GB llamado Pile y lo ha puesto a disposición del público para aquellos que quieran entrenar modelos de IA pero no puedan permitirse grandes conjuntos de datos. La mayor parte del conjunto de datos se toma de fuentes disponibles públicamente, como Wikipedia en inglés, libros electrónicos y otros. Sin embargo, también contenía los subtítulos de todos los vídeos organizados en un conjunto de datos llamado Subtítulos de YouTube.

El informe decía que Pile se utilizó para entrenar el modelo OpenELM AI de Apple, según una descripción del trabajo de investigación. Según se informa, los artículos de investigación de IA de Salesforce, Nvidia y Anthropic también analizan el uso del conjunto de datos.

La portavoz de Anthropic, Jennifer Martinez, dijo al artículo en un comunicado: “The Pile incluye un subconjunto muy pequeño de los subtítulos de YouTube. Los términos de YouTube cubren el uso directo de su plataforma, que es diferente del uso del conjunto de datos de Pile. En lo que respecta a un posible violación de los términos de servicio de YouTube, tendremos que remitirlo a los autores de Pile”.

Específicamente, los términos de servicio de YouTube. prevenir cualquiera de los vídeos de la plataforma utilizando métodos automatizados como robots, botnets o scrapers. Los artículos de YouTube se incluirán en la categoría de scraping. Un portavoz de Google dijo a Proof News en una respuesta por correo electrónico que el gigante tecnológico ha tomado “medidas a lo largo de los años para prevenir abusos, Sin embargo, no se ha hecho ningún comentario sobre el uso de datos de IA por parte de las empresas.

En una publicación en X (antes conocido como Twitter), Marques Brownlee criticó a Apple por recibir información de las empresas que incluyen el contenido de sus videos, pero también enfatizó que no fue culpa del fabricante del iPhone ya que no recopilaron la información. datos.

Apple ha recibido datos sobre su IA de varias empresas

Uno de ellos eliminó toneladas de datos/texto de videos de YouTube, incluido el mío.

Apple técnicamente está evitando la “culpa” aquí porque no son ellos los que hacen trampa.

Pero esto será un problema a largo plazo. https://t.co/U93riaeSlY

-Marqués Brownlee (@MKBHD) 16 de julio de 2024

Aunque estos datos se recopilaron y distribuyeron públicamente, pueden darse algunos casos de eliminación de datos en una plataforma como YouTube. A medida que las empresas de IA se esfuerzan por encontrar más datos para entrenar sus principales modelos lingüísticos (LLM), el precio de las acciones puede continuar moviéndose hacia áreas similares y legalmente grises.

Fuente