Mistral

Medium 3.5

MistralFlagship
RaisonnementOutilsVisionSortie structurée

À propos de ce modèle

Mistral Medium 3.5 is a dense 128B instruction-following model from Mistral AI. It supports text and image inputs with text output, and is designed for agentic workflows, coding, and complex...

Catégorie de performance

Flagship

Medium 3.5 est un modèle flagship de Mistral : le plus performant de leur gamme.

Meilleur modèle de ce fournisseur. Performances maximales sur les benchmarks, idéal pour les tâches exigeantes.

Tarification

Ce modèle est inclus dans les plans Elosia
Modéré

Coût modéré. Bon équilibre pour un usage régulier sans surveillance constante du cap.

Typepar 1M tokens
Entrée (prompt)$1.50
Sortie (complétion)$7.50

Capacités

Taille du contexte262K
Tokens de sortie max
TokenizerMistral
Entréetext, image
Sortietext
Date de sortie30 avril 2026

Benchmarks

Intelligence générale
MMLU
Non reporté
GPQA Diamond
Non reporté
Mathématiques
MATH-500
Non reporté
AIME 2025
86.3%
Programmation
HumanEval
Non reporté
SWE-bench Verified
77.6%
Raisonnement
IFEval
Non reporté

Usages recommandés

ProgrammationAnalyseMathématiquesChat général

Points forts

  • Performance coding agentique de premier plan : 77.6% sur SWE-bench Verified, devant Claude Sonnet 4.5 (77.2%) et Devstral 2 (72.2%)
  • Excellent raisonnement mathématique : 86.3% sur AIME 2025 avg@16, au niveau de Claude Sonnet 4.5/4.6 (86.7/86.9%)
  • Suivi d'instructions remarquable : 95.8% sur Collie, dépassant Claude Sonnet 4.5 (90.5%) et les meilleurs concurrents
  • Top niveau sur l'utilisation agentique d'outils τ³ : 91.4% Telecom, 76.1% Retail, 72.0% Airline
  • Fenêtre de contexte 256K, vision multimodale native et mode de raisonnement configurable
  • Open weights sous licence MIT modifiée, fournisseur basé dans l'UE pour la souveraineté des données

Limites

  • Aucun score publié sur MMLU, GPQA Diamond, MATH-500 ou HumanEval, limitant la comparaison sur les benchmarks classiques de raisonnement général
  • Web browsing est le point le plus faible : 48.6% sur BrowseComp, loin derrière Qwen3.5 (78.6%), GLM-5 (74.9%) et Kimi K2.5 (74.7%)
  • Sorties verbeuses (~5× la médiane en tokens) qui gonflent le coût par requête
  • Tarif élevé pour un modèle open-weight : $1.50 / $7.50 par million de tokens entrée/sortie

Ressources

Ce modèle peut utiliser vos données pour l'entraînement

Modèles similaires