En desarrollos recientes, Google ha presentado Gemini, un sólido competidor que parece ser un rival altamente inteligente de GPT-4 de OpenAI. La plataforma Gemini consta de tres modelos distintos, cada uno con diferentes tamaños y capacidades. Aunque Gemini Ultra, el modelo más avanzado diseñado para “tareas altamente complejas”, aún no está disponible públicamente, Google afirma que supera a GPT-4 en múltiples áreas, incluyendo conocimientos en campos como historia y derecho, generación de código en Python y tareas que requieren razonamiento en varios pasos.
En un logro notable, Gemini Ultra superó a GPT-4 en la prueba Massive Multitask Language Understanding (MMLU), a menudo comparada con los “SAT de los modelos de IA”. Sin embargo, el MMLU va más allá de los exámenes tradicionales, abarcando 57 disciplinas, incluyendo matemáticas, física, historia, derecho, medicina y ética. Evalúa tanto el conocimiento general como la capacidad de resolución de problemas. Según Google, Gemini Ultra alcanzó una puntuación del 90 % en el MMLU, superando el 86,4 % de GPT-4.
Lo que hace aún más destacable este logro es que Gemini Ultra se convierte en el primer modelo en superar a expertos humanos en el MMLU. Los expertos humanos obtuvieron aproximadamente un 89,8 %, según un informe técnico de Google sobre Gemini.
Reflexionando sobre este avance, Kevin Roose comentó en el pódcast tecnológico Hard Fork de The New York Times que, hace solo unos años, la idea de que un modelo alcanzara un 90 % en el MMLU —superando el nivel de expertos humanos— habría sido considerada como un indicio de Inteligencia Artificial General (AGI). La AGI es una forma teórica de inteligencia artificial capaz de procesar habilidades humanas complejas como el sentido común y la conciencia.
Aunque GPT-4 superó a Gemini Ultra en evaluaciones relacionadas con el razonamiento de sentido común para tareas cotidianas, Google destaca que Gemini tiene una ventaja única al ser nativamente multimodal. Esto significa que fue diseñado desde el principio para procesar distintos tipos de datos, como texto, audio, código, imágenes y vídeo. En cambio, otros modelos multimodales fueron creados combinando modelos separados (texto, visión y audio), lo que resulta menos eficiente, según Oriol Vinyals, vicepresidente de investigación de Google DeepMind.
Además, Google afirma que el diseño de Gemini le permite comprender mejor las entradas que los modelos multimodales existentes. Investigadores del blog SemiAnalysis también sugieren que Gemini probablemente superará a GPT-4 gracias a su enorme capacidad de cálculo.
A pesar de las altas expectativas generadas por Gemini Ultra, el veredicto final sobre cómo se desempeñará la familia de modelos Gemini frente a OpenAI —que ya cuenta con una ventaja en notoriedad entre los consumidores— sigue siendo incierto.
Las primeras opiniones sobre Gemini Pro, el modelo menos avanzado disponible a través del chatbot Bard de Google, han sido en general positivas. Sin embargo, han surgido preocupaciones sobre la precisión y las “alucinaciones”, con casos en los que el sistema dirigía a los usuarios a buscar en Google respuestas a preguntas controvertidas. La competencia entre Gemini y OpenAI seguirá evolucionando a medida que avance el panorama de los modelos de IA avanzados.