Los kits de formación de IA de Apple y Salesforce combinan vídeos de MrBeast, Marques Brownlee

Un nuevo estudio afirma que las empresas de tecnología han utilizado subtítulos de más de 48.000 canales de YouTube, incluidos los de creadores destacados como MrBeast y Marques Brownlee, e instituciones de educación superior como el MIT y Harvard para entrenar sus modelos de inteligencia artificial, aunque YouTube prohíbe la recopilación de la plataforma. contenido sin él. permiso

Investigaciónrealizado por Proof News y publicado en asociación con cableadodescubrió que empresas como Anthropic, Nvidia, Apple y Salesforce utilizaron un conjunto de datos de 173.536 vídeos de YouTube, incluidos vídeos de Khan Academy, MIT, Harvard, The Wall Street Journal, NPR, BBC y The Late Night Show. El último show con Stephen Colbert, La semana pasada esta noche con John Olivery Jimmy Kimmel en vivo.

VER TAMBIÉN:

ChatGPT ahora guarda el historial de chat incluso si opta por no compartir datos de entrenamiento

Marques Brownlee publicó en Instagram Reel que, en su opinión, “la verdadera historia es que Apple y muchas otras empresas de tecnología están entrenando sus modelos de inteligencia artificial utilizando datos que compran a empresas de datos de terceros, algunos de los cuales los reciben de forma ligeramente ilegal. . Apple técnicamente puede decir que no es culpable de ello”.

cableado dice que los representantes del laboratorio de investigación de IA sin fines de lucro que pirateó y distribuyó el conjunto de datos de YouTube EleutherAI no respondieron a las solicitudes de comentarios de la publicación. El conjunto de datos es parte de The Pile, una colección de convocatorias de organizaciones sin fines de lucro que también incluye material del Parlamento Europeo, Wikipedia en inglés y cartas de empleados de Enron Corporation publicadas durante una investigación federal de la empresa a principios de la década de 2000.


Ofertas de Prime Day que puedes comprar ahora

Los productos disponibles para comprar aquí a través de enlaces de afiliados son seleccionados por nuestro equipo de ventas. Mashable puede ganar una comisión de afiliado si compra algo a través de enlaces en nuestro sitio.


La velocidad de la luz triturable

cableado informa que la mayoría de las colecciones que componen The Pile están disponibles para “cualquier persona en Internet con suficiente espacio y potencia informática para acceder a ellas”. Éstas incluyen manzana, NVIDIA, Fuerza de ventas, Bloomberg y Referenciastodos los cuales han reconocido públicamente el uso de The Pile para entrenar modelos de IA.

Jennifer Martinez, portavoz de la startup de inteligencia artificial Anthropic, dijo en un comunicado que si bien la compañía utilizó The Pile para entrenar a su asistente impulsado por inteligencia artificial, “los términos de YouTube cubren el uso directo de su plataforma, que es independiente del uso de los conjuntos de datos de Pile”. . Una posible violación de los términos de servicio de YouTube, debemos remitirlo a los autores de Pile”.

En su Reel Instagram, Brownlee agregó: “El doble golpe es que en realidad pago por transcripciones manuales más precisas en cada video que publicamos… lo que significa que las transcripciones robadas, especialmente el contenido pago, se roban más de una vez”.

Sus preocupaciones se hacen eco de las de los creadores de todo el mundo que temen que su trabajo sea consumido o explotado por la IA sin compensación ni permiso. Muchos ahora están demandando a empresas de tecnología por utilizar su trabajo sin saberlo.

cableado informa que The Pile todavía está disponible en servicios para compartir archivos, pero ha sido eliminado de su sitio de descarga oficial. Creado por Prueba de noticias herramienta para buscar creadores en la colección de capacitación sobre IA de YouTube.

Asignaturas
Inteligencia artificial



Fuente