Dans de récents développements, Google a présenté Gemini, un concurrent de taille qui apparaît comme un rival très performant de GPT-4 d’OpenAI. La plateforme Gemini se compose de trois modèles distincts, chacun variant en taille et en capacités. Bien que Gemini Ultra, le modèle le plus avancé conçu pour des « tâches hautement complexes », ne soit pas encore disponible publiquement, Google affirme qu’il surpasse GPT-4 dans plusieurs domaines, notamment les connaissances en histoire et en droit, la génération de code Python et les tâches nécessitant un raisonnement en plusieurs étapes.
Dans une avancée notable, Gemini Ultra a surpassé GPT-4 au test Massive Multitask Language Understanding (MMLU), souvent comparé aux « SAT des modèles d’IA ». Le MMLU va toutefois bien au-delà des examens traditionnels, couvrant 57 disciplines, dont les mathématiques, la physique, l’histoire, le droit, la médecine et l’éthique. Il évalue à la fois les connaissances générales et les capacités de résolution de problèmes. Selon Google, Gemini Ultra a obtenu un score remarquable de 90 % au MMLU, dépassant les 86,4 % de GPT-4.
Ce résultat est d’autant plus impressionnant que Gemini Ultra devient le premier modèle à surpasser les experts humains au MMLU. Ces derniers ont obtenu un score d’environ 89,8 %, selon un rapport technique de Google sur Gemini.
Revenant sur cette performance, Kevin Roose a indiqué dans le podcast technologique Hard Fork du New York Times qu’il y a seulement quelques années, l’idée qu’un modèle atteigne un score de 90 % au MMLU — dépassant ainsi les experts humains — aurait été considérée comme un signe d’intelligence artificielle générale (AGI). L’AGI est une forme théorique d’intelligence artificielle capable de reproduire des capacités humaines complexes comme le bon sens et la conscience.
Bien que GPT-4 ait surpassé Gemini Ultra dans l’évaluation du raisonnement de bon sens pour des tâches du quotidien, Google souligne que Gemini dispose d’un avantage unique en étant nativement multimodal. Cela signifie qu’il a été conçu dès le départ pour traiter différents types de données, notamment du texte, de l’audio, du code, des images et de la vidéo. À l’inverse, d’autres modèles multimodaux ont été construits en combinant des modèles distincts (texte, vision, audio), ce qui est moins optimal, selon Oriol Vinyals, vice-président de la recherche chez Google DeepMind.
Par ailleurs, Google affirme que la conception de Gemini lui permet de mieux comprendre les entrées que les modèles multimodaux existants. Des chercheurs du blog SemiAnalysis suggèrent également que Gemini pourrait surpasser GPT-4 grâce à sa puissance de calcul.
Malgré les attentes élevées suscitées par Gemini Ultra, le verdict final sur les performances de la famille de modèles Gemini face à OpenAI — qui bénéficie déjà d’une forte notoriété auprès du grand public — reste incertain.
Les premiers retours sur Gemini Pro, le modèle moins avancé accessible via le chatbot Bard de Google, sont globalement positifs. Toutefois, des préoccupations concernant la précision et les « hallucinations » ont émergé, avec des cas où le système orientait les utilisateurs vers Google pour obtenir des réponses à des questions sensibles. La concurrence entre Gemini et OpenAI continuera d’évoluer à mesure que le paysage des modèles d’IA avancés progresse.