C'est le résultat de cette étude de Microsoft Research. Ils ont donné aux meilleurs LLM (au moment de l'étude, Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) des tâches à accomplir dans 52 domaines. Résult ...