Durante años, las grandes tecnológicas estadounidenses entrenaron sus modelos de inteligencia artificial como si el mundo fuera su despensa personal. Extrajeron datos de internet sin permiso, sin coste y sin rendir cuentas. Libros, artículos, películas, foros, música, imágenes: todo sirvió de materia prima para construir sistemas que hoy valen miles de millones. Pero justo ahora, cuando sus modelos ya están entrenados, empieza el discurso del “uso responsable”, las licencias y la regulación. El negocio está hecho. La puerta, cerrada.
Lo que muchos llaman “maduración del sector” es, en realidad, un giro estratégico perfectamente sincronizado: primero alimentarse sin límites, después regular para impedir que otros hagan lo mismo.
La fiesta de los datos ha terminado, pero los primeros ya comieron
Entre 2016 y 2023, empresas como OpenAI, Google, Meta, Anthropic o Stability AI accedieron a billones de palabras, millones de imágenes y todo tipo de contenido publicado en la red. Los grandes modelos de lenguaje como GPT, Gemini o Claude no se habrían construido sin ese saqueo masivo y sistemático de información. Wikipedia, Reddit, Stack Overflow, blogs científicos, artículos académicos, libros enteros, noticias… todo fue “leído” por máquinas sin pagar a sus autores ni pedir permiso.
Ahora que esos modelos ya han alcanzado un punto de madurez, la industria gira el volante: se habla de ética, de derechos de autor, de licencias millonarias. El mismo contenido que se usó gratuitamente ahora requiere una suscripción, un acuerdo legal o una compensación económica. Pero solo para los que vienen detrás.
Meta y Anthropic ganan en tribunales, pero establecen el nuevo marco
En junio de 2025, Meta ganó una importante batalla legal. El juez federal Vince Chhabria concluyó que su uso de libros protegidos por copyright para entrenar su modelo LLaMA podía considerarse “uso legítimo”, ya que los demandantes no demostraron daño económico. Anthropic recibió un respaldo similar con Claude, al justificar que sus modelos hacían un uso “transformador” del contenido.
Pero en ambos casos, el mensaje judicial fue claro: este tipo de uso masivo y sin autorización no es un cheque en blanco. En el futuro, las empresas que deseen hacer lo mismo tendrán que negociar, licenciar, y pagar.
El problema es que los grandes ya lo hicieron todo antes. Entrenaron sus modelos base con el grueso de los datos disponibles, y ahora regulan el acceso al conocimiento como si fueran sus propietarios.
Se acaba la materia prima: no quedan datos “frescos” y gratuitos
Un informe del instituto Epoch AI advierte que para 2026 se agotarán los datos de alta calidad disponibles en internet. Sam Altman, CEO de OpenAI, lo expresó sin rodeos: “Consumiremos todos los datos pronto”. Esto no es solo un problema técnico, sino una cuestión geopolítica y empresarial.
Las nuevas empresas —startups, universidades, pymes, gobiernos— no podrán replicar lo que las grandes ya hicieron. Se enfrentan a muros legales, costes millonarios en licencias y un ecosistema cerrado. Si antes el conocimiento era común, hoy es propiedad privada en manos de los gigantes tecnológicos.
Estados Unidos marca el camino. Europa y el Sur global quedan atrás
Las grandes corporaciones de IA —en su mayoría estadounidenses— han consolidado su dominio gracias a este desequilibrio. No solo tienen los modelos entrenados: también controlan los chips (NVIDIA), las nubes (AWS, Azure, Google Cloud), los buscadores y las plataformas de acceso a contenido.
Europa intenta regular, pero llega tarde. El Sur global, que vio cómo su conocimiento y sus idiomas fueron absorbidos por modelos globales, ahora debe pagar por acceder a versiones “inteligentes” de su propia cultura.
¿El resultado? Un sistema de castas tecnológicas, donde los primeros en llegar no solo tienen la ventaja… también escriben las normas.
La nueva industria de las licencias: cerrar el paso y abrir el mercado
OpenAI ha firmado más de 20 acuerdos con medios como The Atlantic, Associated Press o Shutterstock. Google paga 60 millones de dólares al año a Reddit. Disney, NBCUniversal y grandes estudios han empezado a demandar a startups como Midjourney por usar sin licencia imágenes y personajes.
Se ha creado una nueva industria: empresas especializadas en licenciar contenido creativo a las IA. Desde 2022 han captado más de 215 millones de dólares. Su función: convertir en “legal” lo que antes se hacía sin control.
Pero la pregunta clave no es si ahora las cosas se hacen bien. Es: ¿por qué se permitió hacerlo mal hasta que los grandes ya lo habían conseguido todo?
Conclusión: ética a posteriori, hegemonía asegurada
Lo que está ocurriendo no es casual. Es una estrategia típica de consolidación tecnológica:
- Captura sin límites en fase temprana.
- Escalada masiva gracias al acceso libre.
- Cierre legal del acceso una vez alcanzado el liderazgo.
- Licencias para rentabilizar lo que ya se tiene.
- Restricciones para evitar nuevos competidores.
La supuesta regulación es, en muchos casos, la guinda legal de un imperio ya construido. Hoy, crear un nuevo modelo de IA al nivel de GPT o Gemini requiere cientos de millones, acceso legal a datos y una arquitectura técnica colosal. El campo está cerrado. La hegemonía, blindada.
Las rimas de la IA
Robaron datos sin dar explicación,
entrenaron modelos con descomunal ambición.
Y ahora que el pastel ya fue servido,
cierran la puerta con gesto decidido.
El futuro es suyo… y bien protegido.