José Hernández-Orallo, experto en IA: “No se pueden usar los baremos de los seres humanos para evaluar la inteligencia artificial”

José Hernández-Orallo (Kennington, Londres, 51 años) consiguió su primer ordenador, con 10 años, en una rifa. “Era un Spectrum, mi hermano se hacía una colección de una enciclopedia de informática por fascículos y, si la acababas, entrabas en la rifa”, recuerda. La ganaron. “Jugábamos, como cualquier niño de ahora, pero también programábamos, teníamos un control completo del ordenador. No son como los de ahora”. Hoy es doctor y profesor de la Universidad Politécnica de Valencia, experto mundial en evaluación de inteligencia artificial y ha liderado la carta que, junto a otros 15 investigadores, ha publicado la revista Science en la que reclaman la necesidad de “repensar” la evaluación de las herramientas de IA para avanzar hacia unos modelos más transparentes y saber cuál es su eficacia real, qué es lo que pueden y no pueden hacer.

Pregunta. ¿Qué le parece la decisión de Geoffrey Hinton de dejar su trabajo en Google para poder advertir con mayor libertad de los peligros que plantea la inteligencia artificial?

Respuesta. Lo que dice Hinton es bastante razonable, pero me sorprende un poco que lo diga ahora, cuando eso mismo lo venimos diciendo desde hace tiempo en centros como el Centre for the Study of Existential Risk o el Leverhulme Centre for the Future of Intelligence [ambos de la Universidad de Cambridge y a los que está afiliado]. Y yo creo que él ha dicho cosas parecidas antes, quizás no tan claras ni tan alto. Me sorprende que Hinton se dé cuenta ahora que los sistemas artificiales y naturales son muy diferentes, y lo que vale para unos (capacidades, evaluación, control, ética, etc.) no tiene por qué funcionar para los otros, aparte del hecho obvio de la escala y la multiplicidad (se pueden replicar, comunicar y actualizar mucho más rápido que los humanos). Pero es bienvenido que un científico tan relevante diga esto así y ahora. Hay una coincidencia muy alta en los riesgos, aunque podamos diferir en las prioridades. Por ejemplo, yo no creo que la generación de material falso (texto, imágenes o vídeo) sea tan problemático, ya que subir nuestro escepticismo y obligarnos a contrastar las fuentes es sano. Me preocupan más algunas soluciones al “problema del alineamiento” que están permitiendo que ciertos países, grupos políticos o religiosos alineen la IA a sus intereses e ideología, o que se censuren los sistemas de IA en una dirección particular. La palabra “alineamiento”, entendida como “alineamiento único”, me recuerda épocas muy oscuras de la humanidad.

P. ¿Cómo llegó a la inteligencia artificial?

R. Había otra enciclopedia en casa, de la evolución humana. Me fascinaba la inteligencia, cómo había evolucionado y quería entenderla. También leía libros de filosofía. Y, con todas las piezas juntas, estudié Informática porque era lo que estudiaba mi hermano aunque, entonces, la inteligencia artificial era la mitad de una asignatura. Después hice la tesis en el departamento de Lógica y Filosofía de la Ciencia en la Universidad de Valencia, que tenía un programa más orientado a la filosofía de la inteligencia artificial. Me cautivó y tampoco tenía más opciones porque no teníamos recursos. Fue un año en el que conseguí además trabajar en lo que me gustaba, escribir un libro y hacer la prestación social sustitutoria. A veces no eliges, va una cosa detrás de la otra pero al final me dedico a lo que siempre me ha gustado que es entender la inteligencia, tanto la natural como la artificial.

P. ¿Qué es la evaluación de los sistemas de inteligencia artificial?

R. Sabemos para qué sirven las bicis o los robots de cocina, y las tareas que pueden hacer, y se evalúan desde el punto de vista de calidad. Hasta hace poco, los sistemas de inteligencia artificial iban por ese camino. Si tenían que clasificar perros y gatos, lo que interesaba es que clasificaran lo mejor posible perros y gatos. Eran sistemas orientados a una tarea. Si sabes cómo evaluarla, sabes si sirve para la tarea que quieres y cuántos fallos comete. Pero eso difiere mucho de sistemas como GPT4, que tienen capacidad cognitiva.

P. ¿Cómo son ahora esos sistemas?

R. Un sistema es bueno si te vale, si cumple tus expectativas, si no te sorprende negativamente. La IA son sistemas de propósito general. Hay que determinar qué son capaces de hacer en base a la manera que tú les das las instrucciones. Son bastante buenos pero no son seres humanos, se piensa que van a reaccionar igual que una persona y ahí empiezan los problemas. Contestan con cierta seguridad y crees que es correcto. Eso no quiere decir que los humanos contesten siempre correctamente pero estamos acostumbrados a calibrar a la gente, saber si son fiables o no y estos sistemas no funcionan con las intuiciones que usamos con los seres humamos.

P. ¿Y cómo se puede mejorar las evaluaciones en estas herramientas de propósito general, capaces de hacer tantas cosas?

R. Pues es algo que se ha intentado. Se llama evaluación basada en capacidades, no en tareas. Hay una enorme tradición y una ciencia para ese tipo de evaluaciones pero muchos se han lanzado a usar los mismos test que se utilizan para los humanos e intentar aplicarlos en IA y no están pensados para máquinas. Es como usar un termómetro de pared para tomar la temperatura corporal, no va a funcionar.

P. ¿Pero existe la forma de evaluar la inteligencia artificial por capacidades?

P. Entonces ¿no hay manera de evaluarlos?

R. No podemos medir cómo funcionan por tareas porque no acabaríamos nunca. Para la evaluación de un sistema como estos hay que extraer indicadores, en este caso capacidades, que permitan extrapolar cómo va a funcionar el sistema en el futuro. No es dar un número. Debemos poder comparar humanos y sistemas de inteligencia artificial pero se está haciendo mal. Es un sistema muy complejo, pero no pierdo la esperanza. Estamos como estaba la física en siglo XV o XVI. Ahora es todo muy confuso. Hay que romper esquemas y el objetivo final es, en décadas o siglos, llegar a una serie indicadores universales que se puedan aplicar no solo a humanos y a inteligencia artificial sino a otros animales.

P. ¿Entiende que dé miedo?

R. Nosotros somos una especie en el contexto de la evolución y solo somos un tipo de inteligencia de las que puede haber. A veces nos creemos que somos sublimes pero hemos llegado ahí por un montón de azares de la evolución. Lo más parecido son los bonobos y hay un salto importante porque hemos adquirido lenguaje y creemos que somos una cúspide en la escala natural y no es así. Con la inteligencia artificial, nos preguntamos cuál es nuestro lugar. La diferencia es que nuestra evolución se nos ha dado y existe el suficiente consenso de que no juguemos ni nadie empiece a hacer especies nuevas pero, con la inteligencia artificial estamos jugando y cuando juegas te puedes quemar. Estamos llegando a unos niveles de sofisticación que los juegos no son bromas y hay que tomárselos en serio. Es fascinante, es como crear un nuevo mundo.

P. Los autores de la carta proponen una hoja de ruta para los modelos de IA, en la que sus resultados se presenten de forma más matizada y los resultados de la evaluación caso por caso se pongan a disposición del público.

R. Sí. El nivel de escrutinio ha de ser mayor. En otros casos, con los datos de entrenamiento, algoritmo y código, lo puedo ejecutar pero con estos sistemas es imposible por el coste computacional y energético.

P. Pero ¿pueden ser más transparentes?

R. Se puede ser transparente en el proceso. Lo que pedimos es que se sea más detallado en los resultados. Que se dé acceso a los detalles en cada uno de los ejemplos. Si hay un millón de ejemplos quiero los resultados para cada uno del millón de ejemplos porque yo no tengo capacidad de reproducir eso y no solo porque no tengo acceso al cómputo y eso limita lo que es básico en ciencia que es el escrutinio por pares. No tenemos acceso a las partes en las que falla.

P. ¿La regulación es una solución?

R. Es necesaria pero se tiene que hacer bien. Si no se regula, habrá rebotes seguro. Si no regulas la aviación, se producen accidentes, la gente pierde confianza y la industria no despega. Si pasa algo gordo, la reacción de la sociedad puede ser ponerse en contra de estos sistemas y a medio y largo plazo tendrán menos difusión y uso del que pueden tener para unas herramientas que, en general, son positivas para la sociedad. Hay que regular pero no frenar demasiado. La gente tiene miedo a volar pero sabemos que la regulación de la aviación es de las más estrictas, que los aviones son uno de los medios de transporte más seguros y las compañías saben que, a largo plazo, es beneficioso para ellas.

P. ¿Puede haber una regulación para todos, mundial?

R. Existe una Agencia de Energía Atómica y acuerdos de ADN recombinante. Ha fallado en los alimentos modificacdos genéticamente, los países no se ponen de acuerdo y en Europa estamos consumiendo estos alimentos pero no podemos hacerlos, y eso es lo que nos puede pasar. La regulación de la UE puede tener errores pero hay que lanzarse y ponerla en marcha.

P. ¿Cree que esta regulación debe ser estricta o laxa?

R. Creo que se ha de particularizar al volumen. Ha de ser estricta con los grandes y más laxa con los pequeños. No le puedes exigir lo mismo a Google que a una startup de cuatro chavales en la universidad porque si no matas la innovación.

P. ¿Ha existido de nuevo un desfase entre la regulación y la ciencia?

R. Es que la inteligencia artificial va muy rápida y hay cosas que no se pueden anticipar. Es difícil regular algo que es tan transversal, tan cognitivo. Vamos lentos pero también llegamos tarde con las redes sociales y tardamos siglos con el tabaco.

P. ¿Arrojaría algo de luz saber cómo funcionan las cajas negras?

R. Las cajas negras no explican qué es lo que hace el sistema. Para realmente saber qué es, cuándo falla y qué expectativas tiene, se necesita mucha evaluación. Para evaluar a los alumnos no les hacemos un escáner, les hacemos un test. Si queremos saber cómo funciona un coche, queremos saber si han probado si se sale o no en una curva y no me va a ayudar saber cuántas bujías tiene sino saber cuántas pruebas han hecho. Por eso es fundamental el tema de la evaluación. Lo que queremos es probar esos sistemas hasta delimitar en qué área lo puedes usar de una manera segura. Así se evalúan coches y aviones.

P. ¿Por qué la inteligencia artificial crea esa ansiedad?

R. Se están haciendo esfuerzos de divulgación pero su objetivo no es entender cómo funciona. La crítica a OpenAI, es que ha dado acceso al sistema más potente de inteligencia artificial a cientos de millones de personas, incluidos niños y personas con problemas mentales, con una cláusula con la que no se hacen responsables y esa es la cultura que tenemos hoy en día. Nos bajamos aplicaciones y nadie se hace responsable. Creo que han pensado que si no hacen que la gente lo use, cómo van a saber los riesgos. Pero se pueden hacer pruebas piloto. Ellos dicen que existe un acceso gradual pero es una política de carrera. Es un reto a Google en su negocio buscadores para ser líderes. Y la gente tiene miedo porque unos cuantos actores lo dominan todo y es un oligopolio.

Adrian Cano

Santander (España), 1985. Después de obtener su licenciatura en Periodismo en la Universidad Complutense de Madrid, decidió enfocarse en el cine y se matriculó en un programa de posgrado en crítica cinematográfica.
Sin, embargo, su pasión por las criptomonedas le llevó a dedicarse al mundo de las finanzas. Le encanta ver películas en su tiempo libre y es un gran admirador del cine clásico. En cuanto a sus gustos personales, es un gran fanático del fútbol y es seguidor del Real Madrid. Además, ha sido voluntario en varias organizaciones benéficas que trabajan con niños.