En el verano de dos mil veintidos, los que buceaban en las aguas más profundas de la inteligencia artificial —investigadores, empleados del campo, directivos de IA en empresas— sabían bien que OpenAI preparaba el lanzamiento de su siguiente GPT (su modelo de lenguaje o LLM). Pero no se conocían detalles. Ni en qué momento sería, ni quién tendría acceso, ni qué capacidades nuevas probaría con respecto a la versión precedente, GPT-tres, de uso limitado. Así estaban José Hernández-Orallo y Cèsar Ferri cuando en el mes de septiembre, Lama Ahmad, estudiosa de políticas en OpenAI, les planteó ser parte del equipo externo que valoraría GPT-cuatro.

Hernández-Orallo y Ferri, los dos catedráticos del departamento de Sistemas Informáticos y Computación de la Universitat Politècnica de València (UPV), pertenecen al mismo conjunto de investigación y tienen una dilatada experiencia en evaluación de sistemas de inteligencia artificial. Quizá por eso se cuentan entre las poco más de cuarenta personas que OpenAI escogió en el mundo entero para probar su nuevo modelo de lenguaje. El objetivo era localizar fallas en el sistema a lo largo de los 6 meses precedentes al lanzamiento, en el mes de marzo de dos mil veintitres.

“Ya desde GPT-3 nos han dado acceso siempre a sus sistemas de manera gratuita, a veces antes del lanzamiento, para hacer investigación”, señala Hernández-Orallo, que coopera con OpenAI desde hace 4 años y resalta la buena comunicación entre la compañía y los estudiosos que desean examinar sus sistemas. El año pasado, ese verano en que se rumoreaba la llegada del próximo GPT, el acercamiento se estrechó. Los estudiosos de la UPV organizaron un taller en la Conferencia conjunta internacional sobre inteligencia artificial, uno de los acontecimientos de inteligencia artificial más reputados del año, y allá conocieron a más gente de OpenAI. Recibieron su llamada en el mes de septiembre.

“Nos dieron bastante libertad”, comenta Ferri. “Solo teníamos pautas a grandes rasgos de lo que debíamos buscar, como detectar contestaciones que incluyera texto peligroso, sexista o racista. El fin era evitar que la herramienta generara texto que pudiera causar algún problema. Fuimos jugando y probando diferentes prompts (instrucciones) que pudieran provocar ese tipo de respuestas”. Los estudiosos formaron un equipo, compuesto por ellos mismos y 3 estudiantes: Yael Moros, Lexin Zhou, Wout Schellaert.

José Hernández-Orallo, especialista en inteligencia artificial en la Universidad Politécnica de Valencia.Mònica Torres

“Ellos se veían que lo iban a lanzar e iban a tener millones de usuarios, así que cuantas más cosas raras probaras más puedes cubrir el espacio de las locuras que pueda hacer la gente”, explica Hernández-Orallo. Se trataba de ponerle la zancadilla a GPT-cuatro para poder ver si tropezaba. Desde los ordenadores de su laboratorio, en la UPV, introducían textos en los que de alguna manera invitaban al sistema a tener una contestación con un corte peligroso.

En busca de fallos

Ferri confiesa que le resultaba apasionante tener acceso en primicia a la herramienta. GPT-tres (lanzado de forma limitada en dos mil veinte) ya funcionaba realmente bien, así que los estudiosos sabían que tenían entre manos lo más avanzado en inteligencia artificial generativa.

Había mucho que probar y cada uno de ellos experimentaba en el campo que más le interesaba. Hernández-Orallo exploró la fiabilidad: “El sistema falla donde tú menos te lo esperas. Y esto es bastante habitual con los modelos de lenguaje. Te resuelve una ecuación diferencial, pero luego no te suma bien una suma de cinco dígitos. Una persona de la calle se confía cuando hace bien una ecuación diferencial de primero de carrera. Pero en el último paso del problema tiene que hacer una suma de dos vectores y falla”. El catedrático de la UPV describe esta problemática como un desajuste entre las esperanzas del usuario y la capacidad de la IA.

No todos y cada uno de los especialistas elegidos por OpenAI para valorar GPT-cuatro tenían un bagaje computacional. Algunos tenían capacitación en leyes, en medicina, en derechos humanos o en defensa contra armas químicas. El objetivo era pulimentar el sistema. Uno de los evaluadores, conforme recoge el informe técnico que publicó OpenAI sobre GPT-4, conseguía a través de una instrucción que el sistema redactara paso por paso de qué forma sintetizar un compuesto químico peligroso de forma casera. Este género de contestaciones se inutilizaban para eludir que persistieran en la versión abierta al público.

Y en la mitad de este proceso de revisión en la sombra se desató la tormenta. El treinta de noviembre de dos mil veintidos, OpenAI lanzó ChatGPT. “Para nosotros fue una sorpresa. Nadie nos había dicho que había un proyecto en paralelo”, cuenta Hernández-Orallo. “De la noche a la mañana aparece ChatGPT, que ni siquiera teníamos claro si era la versión que nosotros estábamos evaluando o no”. Al cabo de unos días se aclaró que el sistema lanzado en abierto se fundamentaba en un GPT-tres.5, una versión anterior a la que valoraban.

Los estudiosos prosiguieron con su trabajo. Quedaban aún unos meses para el lanzamiento de GPT-cuatro y proseguían enrocados en su sorprendo. “Veíamos que era capaz de resolver una sopa de letras, donde tienes que buscar patrones de palabras que aparecen en vertical o diagonal. Era algo inesperado. Nadie esperaba que funcionara así”, comenta Ferri.

César Ferri
César Ferri, catedrático en el departamento de Sistemas Informáticos y Computación de la Universidad Politécnica de Valencia.
Mònica Torres

Ahora ChatGPT deja introducir gráficos en una consulta, mas en aquel instante los estudiosos no podían hacerlo. Para probar sus capacidades, le pasaban coordenadas espaciales que unidas entre sí formaban una figura. “Le decíamos ‘te voy a pasar las coordenadas de unos trazos’. Le explicabas que el primer trazo iba de (0,0) a (5,5) y así”, señala Ferri. “Esto si tú se lo das a un humano, le cuesta, lo tenemos que pintar. Y GPT-4 era capaz de adivinar las figuras, como cuadrados, rectángulos y dibujos más elaborados, como un coche o un avión”. Era una capacidad de abstracción que no se había visto ya antes en inteligencia artificial. El estudioso lo resume así: “Habíamos pasado la barrera del texto”.

“Con GPT-4 sí se pueden romper cosas”

ChatGPT, al comienzo con el modelo GPT-tres.5 y ahora asimismo con GPT-cuatro, fue el primer sistema de generación de texto avanzado en llegar a las masas. Y los estudiosos eran siendo conscientes de que esto significaba un salto cualitativo salpicado de incertidumbres. “Es una irresponsabilidad desde el punto de vista cognitivo”, asevera Hernández-Orallo sobre el lanzamiento al público masivo de la herramienta. “No tanto porque el sistema se vaya a ir de madre o vaya a soltar improperios”, agrega. Lo que le preocupa es que “estos sistemas puedan llevar a atrofias cognitivas o a gente que use este sistema como su terapeuta o su compañero de vida. Este tipo de cosas están pasando a un nivel mucho menor de lo que podía haber pasado, pero están pasando”.

Los estudiosos hallan sentido a este debate: “Hasta ahora no habíamos llegado a un nivel tan avanzado en IA, así que tampoco se podían romper muchas cosas. Con GPT-4 sí que vemos que se pueden romper cosas, con lo cual igual necesitamos tomárnoslo con calma”, apunta Ferri, en referencia al deseo expresado por la parte de la comunidad estudiosa de frenar la carrera por la IA con el fin de ganar margen para valorar su impacto social.

_