Las grandes tecnológicas de IA enfrentan su mayor reto legal: el uso de obras con copyright ya tiene límites judiciales y coste económico

Durante años, las grandes tecnológicas especializadas en inteligencia artificial trataron internet como una despensa inagotable. Canciones, libros, películas, ilustraciones, artículos periodísticos, bases de datos y todo tipo de contenido con valor cultural y económico eran recopilados sin permiso para alimentar y entrenar modelos generativos. Esta práctica, aceptada tácitamente durante los primeros años de la carrera por la IA, ha entrado ahora en un punto de inflexión.

Lo que antes era una apropiación masiva encubierta de contenidos se ha transformado en una ola de litigios, con sentencias clave en tribunales de Estados Unidos, y una tendencia clara hacia un modelo de licencias, acuerdos y alianzas formales. Las reglas del juego han cambiado y las tecnológicas lo saben: la innovación ya no puede ir por delante de la ley.

Meta y Anthropic logran una victoria parcial en tribunales

El pasado 25 de junio de 2025, Meta logró un importante triunfo legal al conseguir que el juez federal Vince Chhabria desestimara gran parte de la demanda presentada por 13 autores, incluida la actriz y humorista Sarah Silverman. Los demandantes acusaban a Meta de usar sus libros protegidos por copyright para entrenar el modelo LLaMA sin autorización. Sin embargo, el magistrado consideró que el uso de dichas obras podía encuadrarse dentro del “uso legítimo” (fair use) según la legislación estadounidense, al no haber quedado demostrado que la actividad de Meta perjudicara económicamente al mercado de los autores.

Pese al fallo favorable, el juez fue claro: su decisión no representa un cheque en blanco para la industria de la inteligencia artificial. Señaló que el desarrollo de productos que generarán miles de millones de dólares en ingresos no exime a estas empresas de la obligación moral y jurídica de compensar a los autores si sus obras han sido empleadas.

En una decisión casi paralela, la empresa Anthropic —responsable del chatbot Claude— también obtuvo un respaldo parcial del juez William Alsup. En este caso, la corte consideró que el uso que hacía Anthropic de obras literarias tenía un carácter transformador: los modelos no replicaban literalmente los textos, sino que los leían y aprendían de ellos para generar nuevos contenidos. “Como cualquier lector que aspira a ser escritor”, escribió el juez, “el sistema no buscaba replicar, sino aprender”.

No obstante, el tribunal encontró elementos preocupantes. Anthropic había accedido a más de siete millones de libros a través de sitios pirata —las llamadas “bibliotecas fantasma”—, y esa conducta no quedó protegida por el uso legítimo. El juez fue directo: comprar libros posteriormente no borra la infracción inicial. El caso sigue abierto.

Se agotan los datos de calidad y el modelo legal se transforma

Estas decisiones judiciales coinciden con otro factor clave que ha puesto nerviosa a toda la industria: el agotamiento de datos de alta calidad en internet. Según el think tank tecnológico Epoch AI, para el año 2026 se habrá consumido casi la totalidad del contenido útil, veraz y estructurado que existe en la red. En otras palabras: la materia prima para entrenar modelos se está terminando.

Sam Altman, CEO de OpenAI, reconocía recientemente que “las empresas de IA consumirán todos los datos disponibles muy pronto”. En este contexto, los límites legales no son el único freno: la escasez de datos fiables también obliga a cambiar de estrategia.

Durante años, las empresas consumieron Wikipedia, Reddit, portales de noticias, blogs, libros escaneados y hasta foros especializados como si no hubiera un mañana. Pero esa época ha quedado atrás. Hoy, los datos nuevos deben obtenerse mediante acuerdos, compras o creación propia. El modelo de entrenamiento ha pasado de ser extractivo a depender de licencias formales y derechos de uso.

Acuerdos millonarios, licencias y un nuevo ecosistema empresarial

Las grandes tecnológicas han asumido que el acceso legal a los datos tiene un coste. OpenAI ha cerrado más de 20 acuerdos con medios como The Atlantic, Vox Media, Associated Press o Shutterstock. Google ha pactado pagar más de 60 millones de dólares al año a Reddit para utilizar datos de sus foros como fuente de entrenamiento para su modelo Gemini. Incluso Disney, tradicionalmente celosa con sus contenidos, ha permitido el uso de la voz de Darth Vader en un chatbot para Fortnite, en un gesto que evidencia la voluntad de colaborar bajo condiciones pactadas.

Este giro ha impulsado el nacimiento de un nuevo ecosistema empresarial centrado en la concesión de licencias y derechos de uso. Startups como Vermillio, Pip Labs, Created by Humans o ProRata están desarrollando plataformas que permiten a autores, músicos, cineastas y editoriales negociar de forma automatizada el uso de sus contenidos por parte de modelos de IA. Desde 2022, estas nuevas empresas han captado más de 215 millones de dólares en rondas de financiación.

Dan Neely, cofundador de Vermillio, resume la situación con claridad: “El gran negocio del futuro será licenciar contenidos que no existen en la internet abierta”.

Hollywood y los medios de comunicación también toman posiciones

No solo los autores literarios han tomado cartas en el asunto. Estudios como Disney, NBCUniversal y Paramount han iniciado ofensivas legales contra startups de generación de imágenes como Midjourney, acusándolas de usar sin licencia escenas, personajes y secuencias icónicas. Disney ha presentado quejas formales por el uso no autorizado de personajes como Deadpool o Darth Vader, y está promoviendo un frente común entre productoras para frenar estos usos.

Los grandes periódicos también están alzando la voz. The New York Times ha demandado a OpenAI por utilizar sus artículos sin autorización. La causa, aún pendiente de resolución, podría marcar un antes y un después en la relación entre IA y periodismo.

Costes, presión regulatoria y el futuro de la IA

El impacto económico de estas demandas es ya tangible. Las empresas tecnológicas están destinando decenas de millones de dólares a cubrir gastos legales, acuerdos de licencia y estrategias de mitigación de riesgos. Aunque los modelos actuales generen beneficios enormes, las inversiones para operar dentro del marco legal crecen de forma proporcional.

Además, las autoridades regulatorias en Europa, Estados Unidos y Asia están comenzando a esbozar normativas específicas sobre el uso de datos en modelos de IA. En este nuevo entorno, el cumplimiento legal, la trazabilidad del origen de los datos y la compensación a los creadores se convierten en elementos esenciales para la sostenibilidad del sector.

Las empresas que lideren la transición hacia un modelo basado en derechos, licencias y alianzas serán también las que generen más confianza en usuarios, creadores y reguladores. La época del “todo vale” ha muerto.

Las rimas de la IA

La IA ya no se nutre sin medida,
la ley marca ahora su nueva partida.
Quien datos robe, pagará el coste,
y el futuro será del que actúe con poste.