La carrera por la inteligencia artificial (IA) se ha transformado en una prueba de velocidad. A los avances en ChatGPT, que ya va por su cuarta versión, y los sucesivos anuncios de las grandes multinacionales de sus sistemas, Google ha contestado este miércoles con el lanzamiento de Gemini, una plataforma de inteligencia artificial multimodal que puede procesar y producir texto, código, imágenes, audio y vídeo desde diferentes fuentes de datos. La versión Ultra, “disponible a comienzos del próximo año”, conforme ha anunciado Eli Collins, vicepresidente de productos en Google DeepMind, supera a los humanos en entendimiento masiva del lenguaje multitarea (MMLU, por sus iniciales en inglés), una referencia de evaluación creada desde cincuenta y siete materias de ciencias, tecnología, ingeniería, matemáticas (STEM), humanidades y ciencias sociales.

“Gemini es nuestro mayor y más capaz modelo de IA”, asegura Collins, quien explica que está “inspirado en la forma en que las personas entienden el mundo e interactúan con él”. “Se percibe más como un colaborador útil y menos como una pieza inteligente de programación”, asevera.

Durante la presentación, Gemini ha sido capaz de identificar una forma geométrica, examinar la formulación para encontrar su área y descubrir un fallo en exactamente la misma para plantear y explicar un resultado atinado al inconveniente. De esta forma, es capaz de lanzar resultados desde datos de imagen, texto alfanumérico y voz. También ha identificado diferentes formas y dibujos, ciertos a partir solo de puntos desperdigados, y plantear usos de las figuras o de los objetos presentados o realizar un relato desde propuestas opciones alternativas o desarrollar gráficos actualizados con la información buscada por la propia plataforma.

Según el vicepresidente de DeepMind, ha logrado más de un noventa% de puntuación en MMLU, el sistema de evaluación para entendimiento del lenguaje multitarea. “Es el primer modelo de IA que supera a los expertos humanos en este punto de referencia estándar de la industria”, asevera. Gemini asimismo ha aprobado (cincuenta y nueve con cuatro%) el examen de “comprensión de tareas multimodales que incluyen demandas que requieren un razonamiento deliberado”.

Gemini no es una aplicación sino más bien la plataforma para llevar este último modelo de inteligencia artificial a los servicios existentes, desde Bard, el chat de Google contendiente de ChatGPT, hasta el buscador o los gestores de servicios o los móviles con Android o los centros de datos a gran escala.

Para esto, van a estar libres 3 “tamaños” de Gemini: el Nano, que ya se puede emplear por la parte de los desarrolladores de Android; el Pro, que va a estar libre desde el trece de diciembre y el Ultra, que se va a poder incorporar desde principios de año en una data aún por determinar. Los desarrolladores y clientes del servicio empresariales van a poder acceder a Pro mediante la API Gemini en Google AI Studio o Vertex AI. Por medio de AICore, los desarrolladores de Android asimismo van a poder crear aplicaciones con Nano.

Bard

Sissie Hsiao, responsable de asistentes y Bard ha anunciado que Gemini se incorpora ya a este último chat en inglés para ciento ochenta países y se extenderá al resto de idiomas progresivamente, si bien ha aceptado que deberán confirmar que su desarrollo es compatible con la inminente normativa europea sobre inteligencia artificial, que incluye estas plataformas de diálogo entre sus desarrollos regulables. Y con su inclusión en Bard, se extenderá a todas y cada una de las aplicaciones compatibles.

El proceso va a ser en dos fases: la primera empleará una versión de Pro, que dotará al chat de “razonamiento más avanzado, planificación, comprensión y otras capacidades”, conforme Hsiao; y la segunda, a inicios del próximo año, con mejoras que acabarán con la adopción de la versión Ultra.

Gemini ha nacido como multimodal, esto es, no se ha entrenado con diferentes modalidades de datos y se han unificado entonces las capacidades distinguidas, sino su programación ya una parte de la diversidad de fuentes. Según explica Collins, “esto ayuda a Gemini a comprender sin problemas todo tipo de entradas mucho mejor que los modelos existentes y sus capacidades son de última generación”.

También es capaz de programar incluyendo desarrollos complejos. En este sentido, Amin Vahdat, vicepresidente en Google Cloud, asegura: “En el futuro, veremos a los programadores haciendo uso de modelos de IA de alta capacidad como herramientas colaborativas que ayudan con todo el proceso de desarrollo de software, desde el razonamiento sobre los problemas hasta la asistencia con la implementación, el rendimiento y las capacidades”.

Sobre la seguridad, Google asevera que Gemini supera “las evaluaciones más completas de todos los modelos hasta la fecha”. La compañía asegura que ha sometido a la plataforma a todos y cada uno de los riesgos existentes y potenciales y que sostiene un examen progresivo que incluye “pruebas de estrés”. También se han aplicado los principios de IA de la propia compañía, que establecen las reglas morales de sus desarrollos.

Pese a los avances, Gemini no es infalible, conforme reconocen sus responsables. Admiten que lanzará fallos y alucinaciones (contestaciones de apariencia segura no justificada por datos). “Hemos progresado mucho y Gemini es nuestro mejor modelo en ese sentido, pero todavía es, diría yo, un problema de investigación sin resolver”, acepta Collins.

Adrian Cano

Santander (España), 1985. Después de obtener su licenciatura en Periodismo en la Universidad Complutense de Madrid, decidió enfocarse en el cine y se matriculó en un programa de posgrado en crítica cinematográfica. Sin, embargo, su pasión por las criptomonedas le llevó a dedicarse al mundo de las finanzas. Le encanta ver películas en su tiempo libre y es un gran admirador del cine clásico. En cuanto a sus gustos personales,  es un gran fanático del fútbol y es seguidor del Real Madrid. Además, ha sido voluntario en varias organizaciones benéficas que trabajan con niños.