OpenAI, Google, Meta y Anthropic todos Depender en gran medida del contenido de los principales editores. para entrenar los grandes modelos de lenguaje, o LLM, en el centro de sus esfuerzos de IA, incluso cuando estas empresas han utilizado consistentemente contenido con derechos de autor bajos, según nueva investigación publicado esta semana por el gigante editorial en línea Ziff Davis.
Ziff Davis es propietario de CNET, así como de una una gran cantidad de otras marcasincluidos IGN, PCMag, Mashable y Daily Health.
Un artículo que detalla la investigación y escrito por George Wukoson de Ziff Davis, el abogado principal de IA, y el director de tecnología Joey Fortuna, informa que las empresas de IA han subcontratado contenido deliberadamente de baja calidad en favor de contenido de alta calidad creado por humanos para capacitación. sus modelos. Dado que las empresas de IA quieren que sus modelos funcionen bien, tiene sentido que prefieran contenido de calidad en sus datos de entrenamiento. Las empresas de inteligencia artificial utilizaron la autoridad de dominio de los sitios web, o básicamente su clasificación en la búsqueda de Google, para hacer estas distinciones. En general, las fuentes que filtran más alto en Google tienden a ser de mayor calidad y confiabilidad.
Las empresas detrás de los populares chatbots de IA, como ChatGPT y Gemini, han mantenido en secreto de dónde obtienen la información que impulsa las respuestas que le brindan los bots. Eso no ayuda a los usuarios, que no obtienen visibilidad de las fuentes, de cuán confiables son y de si los datos de capacitación podrían estar sesgados o perpetuar estereotipos dañinos.
Pero también es un punto de discordia con los editores, que dicen que las empresas de inteligencia artificial esencialmente están robando su trabajo protegido por derechos de autor, sin permiso ni compensación. Aunque OpenAI ha otorgado licencias de contenido a algunos editores a medida que pasa de ser una empresa sin fines de lucro a una con fines de lucro, otras compañías de medios están demandando al creador de ChatGPT por infracción de derechos de autor.
“Los principales desarrolladores de LLM ya no publican sus datos de formación como antes. Ahora son más comerciales y menos transparentes”, escribieron Wukoson y Fortuna.
OpenAI, Google, Meta y Anthropic no respondieron de inmediato a las solicitudes de comentarios.
Editores incluidos Los New York Times ha demandado a Microsoft y OpenAI por infracción de derechos de autor, mientras que el Wall Street Journal y el editor del New York Post Dow Jones está demandando Preocupación, otra generación de startups de IA, por motivos similares.
Las grandes tecnologías han experimentado una valoración tremenda en medio de la revolución de la IA. Google vale actualmente alrededor de 2,2 billones de dólaresy Meta está valorada en alrededor de 1,5 billones de dólaresen parte debido a su trabajo con la IA generacional. Actualmente, los inversores están valorando las startups OpenAI y Anthropic en $157 mil millones y $40 mil millonesrespectivamente. Al mismo tiempo, los editores de noticias están pasando apuros y han sido incluidos olas de despidos en los últimos años. Los editores de noticias están luchando en un entorno de medios en línea altamente competitivo, tratando de sortear el ruido de las búsquedas en línea. “Baja” generada por la IA y las redes sociales para encontrar una audiencia.
El director ejecutivo de Meta, Mark Zuckerberg, dijo en un documento que los creadores y editores “sobreestiman el valor de su contenido único”. una entrevista por The Verge a principios de este año.
Mientras tanto, algunas empresas de inteligencia artificial han celebrado acuerdos de licencia con editores para alimentar a sus estudiantes de maestría con los últimos artículos de noticias. OpenAI firmó un acuerdo con Financial Times, DotDash Meredith, Vox y otros a principios de este año. Meta y microsoft También cerró acuerdos con editoriales. Ziff Davis no ha firmado un acuerdo similar.
Basándose en un análisis de publicaciones realizadas por empresas de inteligencia artificial para sus modelos más antiguos, Wukoson y Fortuna descubrieron que las URL de editores de alto nivel como Axel Springer (Business Insider, Politico), Future PLC (TechRadar, Tom’s Guide), Hearst (San Francisco ). Chronicle, Men’s Health), News Corp (The Wall Street Journal), The New York Times Company, The Washington Post y otros, representaron el 12,04% de los datos de entrenamiento, al menos para la base de datos OpenWebText2. OpenWebText2 se utilizó para entrenar GPT-3, que es la tecnología subyacente de ChatGPT, aunque la última versión de ChatGPT no está construida directamente sobre GPT-3 y es independiente.
OpenAI, Google, Anthropic o Meta no han publicado los datos de entrenamiento utilizados para entrenar sus últimos modelos.
Cada una de las varias tendencias analizadas en el artículo de investigación “refleja las decisiones tomadas por las empresas de LLM de priorizar las bases de datos de texto web de alta calidad en la formación de los LLM, continuando con los desarrollos tecnológicos revolucionarios que generan un gran valor para estas empresas”, escribieron Wukoson y Fortuna.