Un benchmark est un ensemble standardise de tests pour evaluer et comparer objectivement les performances des modeles d IA.
Aussi appelé : étalonnage, référence comparative, benchmarking, test de performance
Un benchmark est un ensemble standardise de tests pour evaluer et comparer objectivement les performances des modeles d IA.
GLUE et SuperGLUE sont des benchmarks populaires pour evaluer les capacites de comprehension du langage des modeles.
GLUE et SuperGLUE sont des benchmarks populaires pour evaluer les capacites de comprehension du langage des modeles.
En 2026, avec l'entrée en vigueur de l'IA Act européen, les benchmarks deviennent essentiels pour évaluer la conformité des modèles d'IA. La France, via la stratégie nationale pour l'IA et le rapport Villani, pousse à l'adoption de standards européens. Les modèles français comme Mistral doivent prouver leurs performances sur des références standardisées face à GPT-4 et Gemini. Ces tests mesurent raisonnement, sécurité et efficacité énergétique, critères devenus prioritaires pour les entreprises françaises adoptant l'IA.
Métiers directement touchés par ce concept dans leur quotidien professionnel.
| Métier | Score IA | Impact |
|---|---|---|
| Chercheur | — / 100 | Concerné par Benchmark |
| Data Scientist | — / 100 | Concerné par Benchmark |
Découvrez 6 autres concepts essentiels de cette catégorie.