Chute de 50% : La dégringolade de GPT-5 va choquer les fans d’OpenAI

Le dernier classement des modèles d’intelligence artificielle vient de tomber. En septembre 2025, le très attendu GPT-5 d’OpenAI déçoit. Alors que la firme américaine avait misé gros sur sa nouvelle version lancée en août, le modèle chute à la sixième place du Top 10 élaboré par LMArena. Cette plateforme d’évaluation indépendante s’appuie sur les votes de milliers d’utilisateurs pour classer les IA selon leurs performances réelles dans différentes tâches.

Sommaire

Le Top 10 des IA les plus performantes en septembre 2025

Le palmarès révèle une surprise majeure : GPT-5 est devancé par plusieurs rivaux, dont certains plus anciens. Claude Opus 4.1, développé par Anthropic, domine le classement et garde une avance confortable. Google place également son modèle Gemini 2.5 Pro à la deuxième place, confirmant son poids croissant dans la course à l’intelligence artificielle.

1. Claude Opus 4.1 « thinking »
2. Gemini 2.5 Pro
3. ChatGPT 4o-latest
4. Claude Opus 4.1
5. GPT-4.5
6. GPT-5 « high »
7. o3
8. Qwen3
9. GPT-5 « chat »

On note qu’OpenAI place quand même cinq modèles dans le Top 10, signe que la firme conserve sa place de leader, mais doit composer avec de sérieux concurrents.

Les forces des IA selon leur spécialité

Le classement LMArena ne s’arrête pas à une note globale. Il établit aussi un palmarès par domaine d’expertise, révélant les points forts des modèles d’IA.

Génération de texte : Gemini 2.5 Pro reste le plus convaincant, suivi par Claude Opus 4.1 « thinking » et l’OpenAI o3.
Développement web : Ici, GPT-5 garde une longueur d’avance, devant les déclinaisons de Claude Opus 4.1, remarquées pour leurs capacités en codage.
Création d’images : Le modèle Seedream, peu connu en Europe, surprend en devançant Gemini 2.5 Flash, jusqu’alors leader.
Analyse d’images : Gemini 2.5 Pro domine, mais OpenAI et ses différentes versions occupent le reste du Top 5.
Recherche web : Le nouveau venu Grok-4 prend la tête, remplaçant l’ancien leader o3-search, alors que les modèles Sonar de Perplexity chutent.

Ces résultats montrent que chaque acteur excelle dans des domaines précis, selon ses technologies et ses priorités.

Pourquoi GPT-5 déçoit-il malgré les attentes ?

Comment expliquer la contre-performance du dernier bébé d’OpenAI ? Trois mois après son lancement, GPT-5 « high » recule après avoir été troisième. Il semble moins bon en tâches complexes comme le raisonnement mathématique ou la créativité d’écriture.

Une défaite face à des modèles plus anciens : GPT-4o ou GPT-4.5 surclassent encore la dernière version. Ce repli interroge.

LMArena rappelle que ses classements reposent sur un système de duels anonymes. Chaque modèle répond au même prompt, et les utilisateurs votent pour la meilleure réponse. Le système Elo qui en découle pénalise les performances faibles contre des concurrents moins bien classés. Le recul de GPT-5 reflète donc une baisse perçue de qualité par les utilisateurs.

Ce n’est pas un échec total pour OpenAI. Le groupe reste bien représenté avec plusieurs modèles dans le classement. Mais la compétition accuse un tournant. Diversité et spécialisation s’imposent désormais : les IA ne jouent plus toutes sur le même terrain.

Quelles leçons pour l’avenir de l’IA ?

Les résultats de septembre 2025 tracent une nouvelle carte de la course aux intelligences artificielles. L’usure de la suprématie OpenAI laisse place à un marché plus fragmenté et compétitif.

Les géants comme Google et Anthropic maîtrisent mieux certains domaines, et des acteurs moins connus, comme ByteDance avec Seedream, montent en puissance.

En clair : il n’y a plus un roi de l’IA, mais plusieurs champions dans différentes disciplines. Cela oblige les développeurs à spécialiser leurs modèles ou à innover rapidement pour conserver leur avance.

La question qui se pose aujourd’hui est la suivante : GPT-6 saura-t-il redresser la barre et reprendre la tête du classement ? L’industrie et les utilisateurs attendent la réponse avec impatience.

En attendant, le classement LMArena reste un bon baromètre pour mesurer les avancées concrètes des IA, dans un univers en pleine effervescence.