Des benchmarks d’IA défectueux mettent en péril les budgets des entreprises
Les entreprises investissent des sommes considérables, parfois de l’ordre de plusieurs millions d’euros, dans des programmes d’intelligence artificielle générative. Cependant, une étude récente met en lumière des failles significatives dans les benchmarks utilisés pour évaluer les capacités des modèles d’IA, ce qui pourrait conduire à des décisions basées sur des données trompeuses.
Une étude révélatrice sur la validité des mesures
L’étude intitulée « Measuring what Matters: Construct Validity in Large Language Model Benchmarks » a analysé 445 benchmarks d’IA issus de conférences de premier plan. Une équipe de 29 experts a constaté que presque tous les articles examinés présentaient des faiblesses dans au moins un domaine, remettant en question les affirmations relatives à la performance des modèles.
Selon les chercheurs, ce phénomène de « validité de construction » est crucial. Il fait référence à la capacité d’un test à mesurer de manière précise le concept abstrait qu’il prétend évaluer. Par exemple, si un benchmark de sécurité ne parvient pas à capturer correctement les qualités de sécurité d’un modèle, une organisation pourrait déployer une solution qui expose ses opérations à des risques financiers et réputationnels sérieux.
Les problèmes fondamentaux des benchmarks d’IA
L’étude a identifié plusieurs défaillances systémiques dans l’élaboration et la présentation des benchmarks :
– Définitions vagues ou contestées : Près de 48 % des définitions fournies par les benchmarks étaient contestées ou manquaient de clarté. Cela signifie que des scores différents peuvent simplement refléter des définitions arbitraires, plutôt qu’une véritable différence de performance.
– Manque de rigueur statistique : Seulement 16 % des benchmarks ont utilisé des estimations d’incertitude ou des tests statistiques. Sans cette analyse, il est impossible de déterminer si une légère avance d’un modèle sur un autre est due à une réelle capacité ou simplement au hasard.
– Contamination des données : De nombreux benchmarks, en particulier ceux axés sur le raisonnement, sont biaisés lorsque leurs questions apparaissent dans les données d’entraînement des modèles. Cela signifie que les modèles ne raisonnent pas pour trouver des réponses, mais mémorisent simplement des informations, ce qui fausse les résultats.
– Ensembles de données non représentatives : Environ 27 % des benchmarks utilisaient des échantillons de commodité, ne reflétant pas les véritables scénarios du monde réel. Cela peut créer des angles morts critiques, masquant des faiblesses connues des modèles.
Vers une évaluation interne plus rigoureuse
Pour les dirigeants d’entreprise, cette étude souligne l’importance de ne pas se fier uniquement aux benchmarks publics. Un score élevé sur un tableau de classement public ne garantit pas l’adéquation d’un modèle à un objectif commercial spécifique. Voici quelques recommandations pratiques :
– Définir votre phénomène : Avant de tester des modèles, il est essentiel de créer une définition précise et opérationnelle pour le phénomène mesuré. Qu’est-ce qu’une réponse « utile » dans le contexte de votre service client ?
– Construire un ensemble de données représentatif : Le benchmark le plus précieux est celui basé sur vos propres données, en utilisant des éléments qui reflètent les défis réels rencontrés par vos employés et clients.
– Réaliser une analyse des erreurs : Au-delà du score final, il est conseillé de mener une analyse qualitative et quantitative des modes de défaillance. Comprendre pourquoi un modèle échoue est plus instructif que de se fier uniquement à son score.
– Justifier la validité : Chaque évaluation doit être accompagnée d’une justification expliquant pourquoi ce test spécifique est un bon proxy pour la valeur commerciale.
Un chemin vers une innovation responsable
La course à l’implémentation de l’IA générative pousse les organisations à avancer plus rapidement que leurs cadres de gouvernance ne peuvent les soutenir. Les outils utilisés pour mesurer les progrès sont souvent défaillants, et le seul moyen de progresser de manière fiable est de cesser de faire confiance aux benchmarks génériques. Il est temps de commencer à « mesurer ce qui compte » pour votre propre entreprise.
L’avenir de l’IA repose sur une collaboration entre le gouvernement, le monde académique et l’industrie, fondée sur un dialogue ouvert et des normes partagées. Cela permettra de bâtir la transparence requise pour instaurer la confiance dans les systèmes d’IA et d’assurer que l’innovation soit à la fois responsable et ambitieuse.
