Un nuevo algoritmo llamado Student of Games (en inglés, Estudiante de juegos) es capaz de ganar a distintos juegos de mesa, como el ajedrez, el Go, el póquer Texas Hold’em y Scotland Yard, un juego de estrategia. El programa de inteligencia artificial combina la busca guiada, el aprendizaje automático y el argumento teorético del juego, conforme explican los estudiosos que lo han desarrollado en la investigación que se publica este miércoles en la gaceta Science Advances. Hasta ahora, el algoritmo AlphaZero solo podía solucionar juegos con información perfecta, como el ajedrez y el Go, en los que todos y cada uno de los jugadores tienen acceso a exactamente la misma información. Sin embargo, no era capaz de ganar al póker al ser un juego con información imperfecta donde no se conocen las cartas de los contendientes.
La investigación se hizo mientras que los especialistas trabajaban en Google DeepMind, la división de investigación de inteligencia artificial de Google. Sin embargo, múltiples miembros del equipo dejaron Google en el primer mes del año de dos mil veintidos y la compañía despidió después a la mayor parte del equipo sobrante en el primer mes del año de dos mil veintitres.
La herramienta es capaz de ganar en juegos perfectos e imperfectos con un conocimiento mínimo. “Nuestro algoritmo es capaz de razonar basándose en las reglas de los juegos. Por ejemplo, aprende a jugar a todos ellos (ajedrez, póquer, Go o Scotland Yard) solo con las normas, sin que se le dé más información”, explica Finbarr Timbers, estudioso de Midjourney y autor del estudio. “Con ellas determina qué acciones puede realizar y si ha ganado o perdido”, prosigue.
Para saber las jugadas que debe efectuar en todos y cada instante, el algoritmo se fundamenta en lo que lleva por nombre “minimización del arrepentimiento contrafactual”. Esto se centra en el análisis de todas y cada una de las jugadas posibles. El “arrepentimiento”, conforme Timbers, significa “lo bien que te podría haber ido si hubieras jugado de forma óptima, menos lo bien que has jugado en realidad”. Un ejemplo: si en el póker has ganado doscientos fichas siguiendo unas jugadas, mas podrías haber ganado mil con otras, el arrepentimiento es de ochocientos fichas. Por lo tanto, la meta del Estudiante de juegos es reducir lo posible las ochocientos fichas. Tiene en cuenta todos y cada uno de los escenarios posibles con las cartas que estén boca arriba, esto es, la información pública, y hace una media de todos .
Todos los escenarios posibles confluyen en el equilibrio de Nash, teorema del matemático estadounidense John Nash. Los jugadores de una partida juegan sus estrategias para aumentar al máximo las ganancias y van adaptándola a lo largo del juego conforme las jugadas del resto. Timbers y sus colegas se han basado en él a fin de que el algoritmo busque una estrategia inmejorable en la mayor parte de situaciones.
Cada juego transporta al partícipe a diferentes escenarios. En el ajedrez, cuando estás en una situación determinada del tablero, puedes buscar entre las posibles jugadas para localizar la mejor. Sin embargo, en el póker no marcha así. Timbers explica que hay que estimar el impacto de las jugadas en otras situaciones: “Si empiezas a apostar alto cada vez que tienes una mano fuerte, al apostar agresivamente revelarás a tu oponente que tienes una buena mano. Del mismo modo, si dejas de apostar cuando tienes una mano débil, revelarás a tu oponente cuál es tu mano”.
La empresa británica DeepMind, propiedad de Google desde dos mil catorce, desarrolló un algoritmo llamado R-NaD capaz de jugar como un humano especialista a Stratego, un popular juego de cuarenta fichas donde los jugadores deben apresar la bandera del contendiente o dejarle sin fichas. R-NaD usa trucos algorítmicos para conseguir un buen desempeño mas sin emplear el procedimiento de busca. Por este motivo no es tan fuerte como algoritmo del Estudiante: “La bibliografía ha demostrado históricamente que los algoritmos que buscan entre las posibles acciones suelen ser mejores en los juegos que los algoritmos que no utilizan la búsqueda, pero son más lentos y más caros de entrenar”, revela Timbers.
La inteligencia artificial competitiva se usa para medir la eficiencia de los programas informáticos y para conseguir una mejor experiencia del juego, mas asimismo puede tener implicaciones negativas: “Es muy posible que ocurran trampas en páginas web de apuestas de póker y en juegos similares. Muchos videojuegos competitivos tratarán de ser inflexibles con el software permitido en los ordenadores de cada jugador para asegurarse de que no juega una inteligencia artificial, algo que ya hace Riot Games con Valorant (2020)”, señala Diego Rodríguez-Ponga Albalá, creador y directivo de Póntica. Para ello, apunta que es previsible “que se desarrolle una inteligencia artificial muy sofisticada para detectar automáticamente si el jugador es humano o no”.
Gema Ruiz, jefe de innovación en Softtek EMEA, asimismo apunta otras restricciones del algoritmo, como el uso de abstracciones de apuestas en el póker y los “gastos computacionales”. El uso de abstracciones consiste en la agrupación de jugadas afines que se tratan de exactamente la misma manera para reducir la dificultad del juego. Cuando el estudiante adiestra al póker, usa abstracciones de apuestas azarosas para reducir el número de acciones de veinte a cuatro o cinco. En el futuro, el estudio sugiere que se podría sustituir su utilización por “una política más amplia que pueda manejar una variedad de acciones en situaciones de juego con un gran número de posibles decisiones”, afirma Ruiz. Además, la enumeración de todas y cada una de las jugadas posibles del algoritmo supone un alto costo y para esto plantean un “modelo generativo”, conforme el estudio. Este produce muestras de estados [estrategias] del planeta y opera sobre el subconjunto de las muestras escogidas, en vez de contar todas y cada una de las combinaciones de manos posibles.
Pese a ello, la herramienta, para Ruiz, es “un contendiente prometedor en el ámbito de los algoritmos de juego impulsados por la inteligencia artificial”. Destaca “su capacidad para mejorar el rendimiento con recursos computacionales aumentados, junto con sólidos fundamentos teóricos”.
Santander (España), 1985. Después de obtener su licenciatura en Periodismo en la Universidad Complutense de Madrid, decidió enfocarse en el cine y se matriculó en un programa de posgrado en crítica cinematográfica.
Sin, embargo, su pasión por las criptomonedas le llevó a dedicarse al mundo de las finanzas. Le encanta ver películas en su tiempo libre y es un gran admirador del cine clásico. En cuanto a sus gustos personales, es un gran fanático del fútbol y es seguidor del Real Madrid. Además, ha sido voluntario en varias organizaciones benéficas que trabajan con niños.