Medium 3.5

MistralFlagship

RaisonnementOutilsVisionSortie structurée

À propos de ce modèle

Mistral Medium 3.5 is a dense 128B instruction-following model from Mistral AI. It supports text and image inputs with text output, and is designed for agentic workflows, coding, and complex...

Catégorie de performance

Flagship

Medium 3.5 est un modèle flagship de Mistral : le plus performant de leur gamme.

Meilleur modèle de ce fournisseur. Performances maximales sur les benchmarks, idéal pour les tâches exigeantes.

Tarification

Ce modèle est inclus dans les plans Elosia

Modéré

Coût modéré. Bon équilibre pour un usage régulier sans surveillance constante du cap.

Type	par 1M tokens
Entrée (prompt)	$1.50
Sortie (complétion)	$7.50

Capacités

Taille du contexte262K

Tokens de sortie max—

TokenizerMistral

Entréetext, image

Sortietext

Date de sortie30 avril 2026

Benchmarks

Intelligence générale

MMLU

Non reporté

GPQA Diamond

Non reporté

Mathématiques

MATH-500

Non reporté

AIME 2025

86.3%

Programmation

HumanEval

Non reporté

SWE-bench Verified

77.6%

Raisonnement

IFEval

Non reporté

Usages recommandés

ProgrammationAnalyseMathématiquesChat général

Points forts

Performance coding agentique de premier plan : 77.6% sur SWE-bench Verified, devant Claude Sonnet 4.5 (77.2%) et Devstral 2 (72.2%)
Excellent raisonnement mathématique : 86.3% sur AIME 2025 avg@16, au niveau de Claude Sonnet 4.5/4.6 (86.7/86.9%)
Suivi d'instructions remarquable : 95.8% sur Collie, dépassant Claude Sonnet 4.5 (90.5%) et les meilleurs concurrents
Top niveau sur l'utilisation agentique d'outils τ³ : 91.4% Telecom, 76.1% Retail, 72.0% Airline
Fenêtre de contexte 256K, vision multimodale native et mode de raisonnement configurable
Open weights sous licence MIT modifiée, fournisseur basé dans l'UE pour la souveraineté des données

Limites

Aucun score publié sur MMLU, GPQA Diamond, MATH-500 ou HumanEval, limitant la comparaison sur les benchmarks classiques de raisonnement général
Web browsing est le point le plus faible : 48.6% sur BrowseComp, loin derrière Qwen3.5 (78.6%), GLM-5 (74.9%) et Kimi K2.5 (74.7%)
Sorties verbeuses (~5× la médiane en tokens) qui gonflent le coût par requête
Tarif élevé pour un modèle open-weight : $1.50 / $7.50 par million de tokens entrée/sortie

Ressources

Documentation officielle Résultats de benchmarks

Ce modèle peut utiliser vos données pour l'entraînement

Modèles similaires

Claude

Claude

DeepSeek

DeepSeek