EL PAÍS

Polémica en la IA española: Se revela que se entrenó con obras sin autorización de sus creadores

El modelo fundacional de inteligencia artificial (IA) Alia, creado por el Gobierno, ha generado controversia debido a su método de entrenamiento, que utilizó obras digitales sin pagar derechos de autor. De acuerdo con la descripción de esta innovadora familia de modelos, entre las fuentes consultadas se encuentra Common Crawl, una vasta base de datos que archiva contenido de internet y es empleada también por grandes tecnológicas.

¿Es legal el uso de este contenido?

El Ministerio de Transformación Digital y de la Función Pública asegura que su actuación se encuentra dentro de la normativa vigente. La Directiva de Mercado Único Digital y el Reglamento Europeo de IA permiten ciertas excepciones para la minería de datos, que Alia ha seguido con cuidado. Según esta normativa, los trabajos pueden ser utilizados siempre que no exista una reserva explícita de derechos por parte de los autores.

Los creadores que deseen proteger su material deben seguir un complicado proceso para asegurarse de que es identificado como contenido protegido en cada plataforma online. Esto incluye configuraciones que permiten a los robots de búsqueda, como los de Common Crawl, evitar su uso no autorizado. Desde el ministerio afirman que solo se han utilizado contenidos de acceso público o aquellos que no requerían suscripción para su uso legítimo.

Desafíos para los autores

La dificultad de señalar que una obra está protegida puede resultar casi imposible para los autores. Eva Moraga, abogada especializada en el sector cultural, ha expresado que este requisito resulta materialmente inviable. Resalta que la normativa no fue diseñada específicamente para la IA, apuntando que su origen estaba en la investigación académica.

Enfoque lingüístico y acceso a datos

El presidente del Gobierno, Pedro Sánchez, explicó en enero que Alia busca equilibrar la representación de documentos en distintos idiomas, incluyendo el castellano y varias lenguas cooficiales, que conforman un 20% de su entrenamiento. Esto le otorga una ventaja sobre otras herramientas populares, como ChatGPT, en cuanto a la comprensión del contexto local.

Al ser un proyecto de código abierto, Alia está accesible para que cualquier persona o empresa lo adapte. El modelo se ha desarrollado utilizando una variedad de documentos oficiales, desde boletines hasta intervenciones parlamentarias, además de archivos de Common Crawl, que busca facilitar el acceso a información en la web.

La batalla legal de la IA

Los llamados grandes modelos de lenguaje (LLMs) emplean complejos algoritmos para analizar vastas cantidades de texto, permitiéndoles crear contenido a partir de las indicaciones de los usuarios. El volumen de datos requerido es colossal y, en muchas ocasiones, se ha obtenido sin permiso. Esto ha desencadenado múltiples demandas en EE. UU. contra empresas de IA por el uso indebido de obras con derechos de autor.

Un caso destacado es el acuerdo reciente entre Anthropic, creadora del chatbot Claude, y un grupo de escritores. Este pacto historial implica un pago de al menos 1.500 millones de dólares para resolver una demanda por el uso no autorizado de libros en el entrenamiento de modelos de IA, marcando un hito en la lucha por los derechos de autor en este ámbito.

Ambigüedad regulatoria

La legislación europea sobre la relación entre la IA y los derechos de autor es, en muchos aspectos, confusa. La excepción en la Directiva de Mercado Único Digital fue diseñada con fines de investigación y Alia, al publicar su modelo para usos comerciales, podría estar contradiciendo el espíritu de la norma, según opina Borja Adsuara, experto en derecho digital.

El Reglamento Europeo de IA, en vigor desde julio de 2022, establece que es necesaria la autorización del titular de los derechos para el entrenamiento de modelos de lenguaje, aunque no especifica cómo debe realizarse. A pesar de las recomendaciones emitidas por la UE, persisten dudas sobre la correcta aplicación de la normativa.

Futuro incierto

Los tribunales europeos se encargarán de aclarar cómo se interpretan estas normativas. Actualmente, varias litigaciones en países como Francia, Alemania y Hungría están programadas para determinar si las excepciones pueden ser utilizadas por empresas de IA. Mientras tanto, la discusión sobre los derechos de autor y el uso de Inteligencia Artificial continúa evolucionando, dejando en el aire muchas cuestiones esenciales para el futuro de la creatividad y la tecnología.