Articles
2026
-
GLM-5.1 , 8 heures d'exécution autonome, l'IA chinoise qui travaille pendant que vous dormez
-
Benchmarks, classements et crise de la mesure , repenser l’évaluation des modèles IA
2025
-
L'importance de l'évaluation de la sécurité du code généré par les LLMs avec le benchmark A.S.E dans le génie logiciel
-
FutureX , un benchmark avancé et dynamique pour l’évaluation des agents LLM en prédiction du futur
-
ReasonRank, le cadre innovant pour optimiser le reranking des passages en recherche d'information
-
Le benchmark WideSearch, une évaluation novatrice des agents IA pour la collecte d'informations à grande échelle et fiables
-
Meta accusé de tricher avec sa nouvelle intelligence artificielle Llama 4
-
Gemini 2.5 Pro, Comment ce modèle révolutionnaire propulse Google au sommet de l'intelligence artificielle mondiale ?
-
Mistral Small 3.1, une IA compacte, mais redoutablement puissante