Ramón López de Mántaras (Sant Vicenç de Castellet, Barcelona, 71 años) es director del Instituto de Investigación de Inteligencia Artificial del Centro Superior de Investigaciones Científicas (CSIC) y uno de los pioneros de la materia en España, ámbito al que se dedica desde hace más de 40 años. La irrupción de ChatGPT y los grandes modelos de lenguaje (LLM, en sus siglas en inglés) no es la primera revolución que ha vivido López de Mántaras: “Empecé en 1975 y ya he visto al menos dos épocas de grandes expectativas y temores, que al final desembocaron en inviernos, travesías del desierto”, dice. Aunque hoy la novedad es sorprendente y un hito increíble, su perspectiva y conocimiento dan más contexto a los titulares de los últimos meses: “Estos modelos de lenguaje son posibles gracias a que tenemos tantos datos en internet, miles de procesadores que trabajan simultáneamente y las mejoras algorítmicas”. Pero queda aún mucho camino para que la inteligencia artificial (IA) se convierta en realmente inteligente.
Pregunta. ¿Por qué nos ha sorprendido tanto ChatGPT?
Respuesta. Nadie preveía que estos modelos de lenguaje, como ChatGPT, fueran tan hábiles al generar un lenguaje cercano y convincente. Esto nos ha sorprendido a todos. Nadie, y he hablado con muchos colegas, se esperaba que en este poco tiempo hubiera esta mejora.
P. ¿Se ha exagerado en algo?
R. ChatGPT en realidad solo hace ver que entiende el lenguaje. Nos resulta muy fácil, también a los propios expertos en IA, caer en la tentación del antropomorfismo. Estoy cansado de ver artículos que dicen, no que “procesa” el lenguaje, sino que lo “entiende”. No es así. Esa es la diferencia con un humano.
P. No es inteligente.
R. Hay un problema de palabras. Las IA son inteligencias muy distintas a las humanas. Es otro motivo de confusión. Los titulares no deberían decir “La IA hace esto” o “decide aquello”. Debería dejarse claro que siempre hay un montón de gente detrás que lo ha hecho posible. La IA es un instrumento formidable, muy sofisticado, pero no tiene iniciativa, no tiene objetivos, no entiende, no tiene un modelo del mundo, no tiene sentido común.
P. ¿Qué le falta?
R. Hay millones de pequeños conocimientos de sentido común que las máquinas no tienen. Nosotros los aprendemos desde pequeños. No tenemos por ejemplo que saber nada de la ley de la gravedad. Un niño pequeño sabe que si suelta algo caerá, sea lo que sea. No lo debes entrenar con millones de objetos distintos cayendo como le ocurre a una IA. Con un puñado de veces ya lo ha aprendido.
“Las calculadoras también hacen cosas que nosotros no sabemos. Pero no decimos que las calculadoras son inteligentes”
P. Pero la IA logra hacer cosas que nosotros no.
R. Las calculadoras también hacen cosas que nosotros no sabemos. Pero no decimos que las calculadoras son inteligentes.
P. ¿La generación de lenguaje lo hace parecer distinto?
P. Parece que entiende nuestras peticiones.
R. Ese es el problema. Da esa sensación. Aquí está la gran confusión. No entiende nada, solo calcula la probabilidad de qué palabras seguirán, nada más. No pone siempre la palabra más probable porque si no siempre pondría la misma respuesta a la misma petición. Evalúa miles de palabras que podrían continuar. A veces coge la primera, la segunda o la tercera. Como hay tantas con una probabilidad no nula de continuar, en general acierta y parece coherente y es distinto. Nosotros hemos interactuado con el mundo y los objetos o conceptos que la máquina menciona mediante el significante [las palabras] para nosotros tienen una correspondencia que es el significado. ChatGPT es un modelo de lenguaje, no del mundo. Esto es lo que le separa de la idea de entender el lenguaje.
P. Uno de los logros que más bombo ha recibido es su capacidad de aprobar exámenes.
R. Lo más probable es que esas preguntas y respuestas ya existieran en el conjunto del entrenamiento. Hay como una pequeña trampa. No resuelve un problema razonando, porque su capacidad de razonamiento es nula.
P. Estamos lejos de que se convierta en la llamada IA general, con sentido común, como el célebre Terminator.
R. Ha sido una mejora importante, pero estamos lejos, lejísimos de una IA general. Ni con cien mil millones de parámetros más lo lograrán, no podrá entender nunca el lenguaje. Intrínsecamente, no se puede reparar, nunca podrá entender por cómo está hecho el propio algoritmo. [El premio Turing y jefe de IA en Meta] Yann LeCun dice, y yo estoy de acuerdo, como muchos otros colegas, que primero se ha de modularizar. ChatGPT es un revoltijo, está todo allí. Con el conocimiento factual se equivoca. A mí un colega me escribió un email preguntándome si estaba bien porque ChatGPT le había dicho que yo había muerto. Yo le pregunté por mis diez trabajos principales y eran todos inventados. Debe de haber módulos separados: uno de conocimiento, otro de razonamiento, de planificación, de sentido común. Esto se llama modularizar la arquitectura.
P. ¿La información falsa que genera puede a su vez alimentar futuros modelos?
R. Sí, lo que generan son inputs para otros modelos de lenguaje que a su vez aprenderán. Eso hará bola de nieve. Se multiplicarán las falsedades que generan. De aquí a dos o tres años, ya no habrá una mayoría de cosas veraces en internet. Como ya estaremos contaminados por los resultados de los modelos que tenemos ahora, llegará un momento en que casi todo lo que haya en internet será falso, se comerá la parte humana que hemos hecho hasta ahora.
P. ¿Los modelos no se entrenan con parte del contenido de la versión anterior?
R. No. ChatGPT-5 lo entrenarán desde cero. No cogerán el ChatGPT-4 y lo entrenarán. No es incremental. No pueden retocar fácilmente lo que hay. Ya GPT-4 fue entrenado al margen de los anteriores, 100 millones de dólares les costó. GPT-5 no creo que ni lo entrenen, no creo que veamos un ChatGPT-5. Pero si llegara, esos 100 millones de dólares igual serían 1.000 millones, solo de entrenamiento, aparte del consumo energético que sería brutal. Aunque OpenAI u otra empresa lo haga, el material de entrenamiento no será fiable porque mucho ya habrá sido generado por versiones previas. Todo colapsará.
P. ¿Entonces estos modelos tampoco extinguirán de momento la humanidad?
R. La IA no extinguirá la humanidad. Es hoy una cortina de humo para ocultar problemas que ya hay. El primer problema es que hay cinco o seis empresas que lo controlan todo. Son las más interesadas de que se hable de la posible extinción en lugar de los problemas que han generado de sesgos, de privacidad, del material con el que se han entrenado. Aunque también es cierto que hablar de ellos es buen marketing.
“Las empresas que controlan la IA quieren que se hable de la extinción en lugar de los problemas que genera”
P. Pero sí hay un camino adelante al margen de estos modelos.
R. Estamos en un momento en que iremos mucho más allá de ChatGPT y estos modelos de lenguaje. Superaremos sus limitaciones para razonar y con el sentido común. Nos acercaremos a sistemas que empezarán a entender el lenguaje un poco ya de verdad. Ahora, cero, no entenderán nada.
P. Ya no se llamarán “grandes modelos de lenguaje”.
R. Vamos hacia ahí, pero ya no sé si lo veré yo. Hay otro camino. No serán solo un modelo de lenguaje. No debería llamarse GPT-5. Tendrán un modelo del mundo. Podrá ser entrenado con vídeos donde se vean las relaciones causa-efecto. Igual mira millones de vídeos sobre cómo mover objetos. Son millones de pequeños conocimientos.
P. ¿Los vídeos que hay en YouTube?
R. En YouTube hay mucho, pero no está todo el conocimiento de sentido común ahí grabado. Deberá ser capaz de aprender escuchando, leyendo, observando.
P. ¿Cómo verá? ¿Tendrá ojos?
R. El último paso, la última frontera de un sistema de IA con sentido común, una IA general sofisticada y similar a nuestra inteligencia, deberá tener un cuerpo y sensores: ojos, tacto y orejas. Un futuro robot humanoide que aprenderá del mundo interactuando con él. No mediará una persona ni incluso vídeos.
P. ¿Cómo de posible será algo así?
R. Se está trabajando. Esperemos que sea posible. Antes del robot veremos otros avances. Quizá haya aspectos de cosas que podrá aprender mediante vídeos, quizá en entorno virtual, simulado, se le podrá mostrar cómo caen un objeto o cómo se mueve un objeto con una cuerda. Deberá entrarle información de manera visual.
P. El nivel de complejidad es mucho mayor de lo que conocemos. Para sistemas como ChatGPT hemos necesitado una red neuronal nueva llamada Transformer, una mayor capacidad computacional y muchos datos. ¿Qué más será necesario para estos sistemas?
R. Nuevos algoritmos, completamente distintos. AlphaFold, la IA que predice proteínas, está compuesto de 36 algoritmos. Son piezas de software que colaboran: método de Montecarlo, reinforcement learning, varios tipos de redes neuronales, todo son algoritmos distintos. En ChatGPT no sabemos lo que hay, pero seguro que tiene encoder, decoder, un algoritmo de prestar atención, hay embeddings. Hay un puñado seguro. Un robot como el que digo necesitaría muchos más, capacidad de interpretar lo que ve, lo que siente, todo son algoritmos distintos.
P. Sam Altman, cofundador de OpenAI, o Eric Schmidt, ex jefe ejecutivo de Google, ven a la IA como salvadora en retos científicos hoy imposibles como el cambio climático, el cáncer o la generación de combustible.
R. Tampoco será la IA la que resuelva todo esto. Serán los humanos. La IA sola no resolverá nada, absolutamente nada. No se nos puede dejar solos a nosotros con la IA. La máxima de Mark Zuckerberg de “muévete rápido y rompe cosas” no funciona aquí. Sam Altman también lo ha hecho, en lugar de esperar un par de años o más antes de desplegar ChatGPT.
Santander (España), 1985. Después de obtener su licenciatura en Periodismo en la Universidad Complutense de Madrid, decidió enfocarse en el cine y se matriculó en un programa de posgrado en crítica cinematográfica.
Sin, embargo, su pasión por las criptomonedas le llevó a dedicarse al mundo de las finanzas. Le encanta ver películas en su tiempo libre y es un gran admirador del cine clásico. En cuanto a sus gustos personales, es un gran fanático del fútbol y es seguidor del Real Madrid. Además, ha sido voluntario en varias organizaciones benéficas que trabajan con niños.