Articles

2026

GLM-5.1 , 8 heures d'exécution autonome, l'IA chinoise qui travaille pendant que vous dormez 11 avril 2026
Benchmarks, classements et crise de la mesure , repenser l’évaluation des modèles IA 20 mars 2026

2025

L'importance de l'évaluation de la sécurité du code généré par les LLMs avec le benchmark A.S.E dans le génie logiciel 2 septembre 2025
FutureX , un benchmark avancé et dynamique pour l’évaluation des agents LLM en prédiction du futur 22 août 2025
ReasonRank, le cadre innovant pour optimiser le reranking des passages en recherche d'information 14 août 2025
Le benchmark WideSearch, une évaluation novatrice des agents IA pour la collecte d'informations à grande échelle et fiables 13 août 2025
Meta accusé de tricher avec sa nouvelle intelligence artificielle Llama 4 9 avril 2025
Gemini 2.5 Pro, Comment ce modèle révolutionnaire propulse Google au sommet de l'intelligence artificielle mondiale ? 26 mars 2025
Mistral Small 3.1, une IA compacte, mais redoutablement puissante 19 mars 2025