Grok

Grok 4.20

GrokFlagship
RaisonnementOutilsVisionSortie structurée

À propos de ce modèle

Grok 4.20 is xAI's newest flagship model with industry-leading speed and agentic tool calling capabilities. It combines the lowest hallucination rate on the market with strict prompt adherance, delivering consistently...

Catégorie de performance

Flagship

Grok 4.20 est un modèle flagship de Grok : le plus performant de leur gamme.

Meilleur modèle de ce fournisseur. Performances maximales sur les benchmarks, idéal pour les tâches exigeantes.

Tarification

Ce modèle est inclus dans les plans Elosia
Modéré

Coût modéré. Bon équilibre pour un usage régulier sans surveillance constante du cap.

Typepar 1M tokens
Entrée (prompt)$2.00
Sortie (complétion)$6.00
Lecture cache$0.200

Capacités

Taille du contexte2.0M
Tokens de sortie max
TokenizerGrok
Entréetext, image, file
Sortietext
Date de sortie31 mars 2026

Benchmarks

Intelligence générale
MMLU
91.2%
GPQA Diamond
88.5%
Mathématiques
MATH-500
Non reporté
AIME 2025
93%
Programmation
HumanEval
Non reporté
SWE-bench Verified
81%
LiveCodeBench
79.4%
Raisonnement
IFEval
83%
ARC-AGI-2
15.9%
Humanity's Last Exam
35%

Usages recommandés

ProgrammationAnalyseRechercheChat généralÉcriture créative

Points forts

  • Architecture interne à 4 agents réduisant les hallucinations de 65% — #1 sur AA-Omniscience (78%)
  • Fenêtre de contexte de 2M tokens, la plus grande du marché, pour l'analyse de documents massifs
  • Compréhension multimodale native (texte, image, vidéo) avec accès aux données X en temps réel
  • #1 sur IFBench (83%) et #2 sur tau2-Bench (97%) pour le suivi d'instructions et l'utilisation agentique d'outils

Limites

  • Sortie verbeuse (~54M tokens en évaluation vs ~13M en moyenne) — coût plus élevé par requête
  • Raisonnement abstrait faible (ARC-AGI-2 : 15,9%) comparé aux meilleurs concurrents
  • Écosystème tiers plus restreint que celui d'OpenAI/Anthropic

Ressources

Ce modèle peut utiliser vos données pour l'entraînement

Modèles similaires