PandIA

GPT-5.5 plafonne à 25% sur GeneBench, même OpenAI montre où son raisonnement casse

GPT-5.5 plafonne à 25% sur GeneBench, même OpenAI montre où son raisonnement casse

25 % de réussite pour GPT-5.5 sur un benchmark censé refléter du vrai travail scientifique. Même dans ses déclinaisons Pro, les meilleurs modèles d’OpenAI laissent encore l’essentiel des cas non résolus.

C’est tout l’intérêt — et toute la brutalité — de GeneBench, publié le 23 avril 2026 : mesurer non pas la capacité d’un modèle à réciter de la biologie, mais à enchaîner correctement une analyse multi-étapes en génomique et en biologie quantitative. Le constat est net : l’écart avec l’usage scientifique fiable reste immense.

Un benchmark pensé pour sortir l’IA de la démonstration

Avec GeneBench, OpenAI met sur la table 103 évaluations construites pour reproduire des tâches réalistes de recherche en sciences du vivant. L’objectif n’est pas de tester des connaissances isolées, mais des chaînes de raisonnement où il faut repérer un signal, l’interpréter, puis le transporter correctement jusqu’à une conclusion exploitable.

Le papier insiste sur un point crucial : les modèles réussissent souvent une partie du travail. Ils voient le “bon” indice local, identifient un motif, ou détectent une relation plausible dans les données. Mais cette information se perd dans la suite de l’analyse. Autrement dit, le problème n’est pas seulement l’ignorance factuelle ; c’est l’échec à maintenir un raisonnement cohérent sur plusieurs étapes.

Cette distinction est importante, car elle vise le cœur des promesses formulées autour des grands modèles dans la recherche scientifique. Beaucoup d’outils impressionnent sur des tâches courtes ou sur des questions à réponse directe. GeneBench cherche précisément à mesurer ce qui se passe quand il faut suivre une méthode, relier des résultats intermédiaires et éviter qu’une erreur locale contamine toute la conclusion.

Les meilleurs scores restent bas, malgré l’avance d’OpenAI

Les résultats publiés par OpenAI sont suffisamment faibles pour attirer l’attention, y compris du point de vue de l’éditeur lui-même.

Au niveau eval, GPT-5.5 atteint 25,0 % de réussite. GPT-5.5 Pro monte à 33,2 %, tandis que GPT-5.4 Pro obtient 25,6 %. La meilleure baseline externe citée dans le document, Gemini 3.1 Pro, plafonne à 11,2 %.

Pris isolément, l’écart entre OpenAI et ses concurrents est réel. Mais l’enseignement principal est ailleurs : même le meilleur score laisse près de deux tiers des évaluations en échec. Et pour les versions non-Pro ou pour une large part des cas complexes, le seuil des 20 % reste un plafond plus fréquent qu’une exception.

Ce n’est pas un détail statistique. Dans un cadre scientifique, un modèle qui échoue sur deux analyses sur trois — ou davantage — ne peut pas être considéré comme un agent autonome crédible. Il peut assister, proposer, suggérer ; il ne peut pas, à ce stade, être traité comme un exécutant fiable de raisonnement expérimental.

Le vrai point faible : la propagation du raisonnement

OpenAI rattache GeneBench à sa logique “Discover”, c’est-à-dire à l’idée que les modèles peuvent aider à explorer des hypothèses scientifiques plutôt qu’à simplement répondre à des questions. Le benchmark montre précisément où cette ambition se heurte à ses limites.

Le papier souligne que les modèles “repèrent souvent le signal local, mais ne le propagent pas correctement dans la chaîne d’analyse”. Cette formulation est sans doute le point le plus intéressant du travail. Elle décrit un défaut structurel des modèles génératifs appliqués à la science : ils savent parfois reconnaître une pièce du puzzle, sans réussir à préserver sa signification jusqu’au bout.

Dans une analyse de génomique, cela peut vouloir dire identifier correctement un gène d’intérêt, mais mal relier ce résultat à un contexte expérimental ; sélectionner la bonne statistique intermédiaire, puis en tirer une interprétation erronée ; ou encore mélanger plusieurs étapes d’un protocole analytique sans détecter que l’ensemble a perdu sa validité.

Ce type d’échec est plus grave qu’une simple erreur de mémoire. Il touche à la robustesse du raisonnement séquentiel. En pratique, c’est exactement ce qui empêche encore les modèles de passer du rôle d’assistant textuel à celui d’outil scientifique de confiance.

Une publication plus utile parce qu’elle montre les limites

Il y a un paradoxe dans cette annonce. D’un côté, OpenAI met en avant GPT-5.5 dans sa communication produit. De l’autre, GeneBench agit comme une forme de contre-champ : un test conçu par l’entreprise elle-même qui souligne noir sur blanc la faiblesse persistante de ses meilleurs modèles sur des tâches proches d’un usage réel.

Ce choix mérite d’être relevé. Les benchmarks d’IA sont souvent accusés de surévaluer les performances en s’appuyant sur des questions trop scolaires, des jeux de données contaminés ou des formats qui favorisent la reconnaissance superficielle. Ici, OpenAI prend le risque inverse : publier un instrument où ses propres modèles restent modestes.

Cela ne signifie pas que GeneBench soit un reflet parfait du laboratoire réel. Comme tout benchmark, il encode une certaine définition de la tâche, des critères de réussite et un niveau d’abstraction particulier. Mais il a au moins une vertu rare : il met en évidence les fragilités pratiques que les démonstrations marketing tendent à lisser.

Ce que ces chiffres disent vraiment de l’IA pour la recherche

Le score de 33,2 % de GPT-5.5 Pro peut être lu de deux façons. La première, optimiste, consiste à noter qu’un modèle généraliste dépasse assez nettement des baselines concurrentes sur des tâches scientifiques complexes. La seconde, plus décisive, est qu’il reste très loin du niveau nécessaire pour automatiser sérieusement des analyses à fort enjeu.

C’est particulièrement sensible en biologie quantitative, où les erreurs ne se compensent pas facilement. Une mauvaise interprétation d’un résultat intermédiaire peut orienter vers une fausse piste, gaspiller du temps de calcul, ou conduire à prioriser de mauvais candidats expérimentaux. Dans ce domaine, un taux de réussite partiel ne suffit pas : il faut de la traçabilité, de la reproductibilité et une forte stabilité du raisonnement.

GeneBench rappelle aussi une réalité souvent masquée par les comparaisons de scores : battre un concurrent ne garantit pas une utilité opérationnelle. Gemini 3.1 Pro à 11,2 % est moins performant que GPT-5.5, mais le sujet n’est pas d’avoir “gagné” le benchmark. Le sujet est qu’aucun de ces systèmes ne se rapproche encore d’un niveau où la supervision humaine pourrait être marginale.

Le prochain test ne sera pas le benchmark, mais le laboratoire

La portée concrète de cette publication est double. Pour les équipes de recherche, elle invite à traiter les modèles comme des outils d’exploration assistée, pas comme des analystes fiables de bout en bout. Pour les éditeurs d’IA, elle fixe un critère plus exigeant : il ne suffit plus de montrer qu’un modèle “voit” un signal, il faut prouver qu’il sait le conserver jusqu’à la décision finale.

Le prochain jalon attendu sera donc moins un nouveau record isolé qu’une hausse nette de la réussite sur des tâches multi-étapes, idéalement accompagnée de garanties sur la stabilité des résultats et sur l’explication des erreurs. Tant que les meilleurs modèles resteront autour de 25 % à 33 % sur ce type d’évaluation, l’automatisation scientifique restera cantonnée à l’assistance, au tri d’hypothèses et à la préparation du travail — pas à sa validation.

Recevez les dernières actualités sur l'IA dans votre boite mail

envelope
Si vous souhaitez recevoir un résumé de l'actualité ainsi que nos derniers guides sur l'IA rejoignez nous !
Actualités Guides Liste IA Prompts Newsletter