Google Gemini 3 Flash : l'intelligence de pointe à la vitesse de l'éclair
Gemini 3 Flash apporte une intelligence de premier plan à des vitesses inédites, à un prix qui le rend accessible. Notre évaluation complète.
Ce qui rend Gemini 3 Flash unique
Allons droit au but. Gemini 3 Flash ne cherche pas à être le modèle le plus « intelligent » du marché, ce rôle est dévolu à Gemini 3 Pro. Il est conçu pour être une véritable bête de somme : rapide, fiable et d’une efficacité surprenante pour sa catégorie de vitesse.
Le point essentiel est le suivant : Gemini 3 Flash surpasse Gemini 2.5 Pro sur plusieurs benchmarks tout en étant trois fois plus rapide. Vous bénéficiez d’une meilleure qualité avec une latence réduite à une fraction de l’original.
Spécifications clés
- Fenêtre contextuelle : 1 million de tokens en entrée, 64 000 tokens en sortie.
- Modalités : texte, images, audio, vidéo et PDFs (entrée) ; texte (sortie).
- Date de coupure des connaissances : janvier 2025.
- Vitesse : 218 tokens par seconde (presque 2× plus rapide que GPT-5.1).
La fenêtre contextuelle d’un million de tokens mérite une attention particulière. Vous pouvez lui soumettre des bases de code entières, de longs articles de recherche ou des heures de vidéo, il traite le tout sans sourciller.
Performances (benchmarks)
Google affiche fièrement ses chiffres, et ils sont impressionnants. Selon Artificial Analysis, voici comment Gemini 3 Flash se positionne :
| Benchmark | Gemini 3 Flash | GPT-5.2 | Gemini 3 Pro | Claude 3.5 Sonnet |
|---|---|---|---|---|
| GPQA Diamond (Niveau PhD) | 90,4 % | ~89 % | 92 % | 65,0 % |
| Humanity’s Last Exam | 33,7 % | 34,5 % | 37,5 % | 18,8 % |
| MMMU Pro | 81,2 % | ~78 % | ~80 % | 69,5 % |
| SWE-Bench Verified | 78 % | ~80 % | 78 % | 49,0 % |
| Vitesse (tokens/sec) | 218 | 125 | ~80 | ~90 |
Le résultat marquant est le score de 90,4 % sur GPQA Diamond. Il s’agit d’un niveau de raisonnement scientifique digne d’un doctorat, et Gemini 3 Flash égale ou dépasse des modèles dont le coût d’exploitation est nettement plus élevé.
Évaluation par Elosia
Nous avons soumis Gemini 3 Flash à notre suite de tests standard pour une évaluation honnête et concrète :
- Écriture créative (excellent) : détails sensoriels riches, monologue interne puissant, ambiance tokyoïte immersive.
- Génération de code (excellent) : TypeScript propre avec génériques, JSDoc complet, gestion des cas limites.
- Raisonnement (correct) : a résolu l’énigme des moutons (9) avec une explication claire étape par étape.
- Suivi d’instructions (bon) : format respecté, mais certains éléments dépassaient la limite de 10 mots.
- Synthèse (excellent) : exactement 2 phrases, capture précise des concepts clés.
Un exemple d’écriture : atmosphérique et immersif
Nous avons demandé une introduction de thriller se déroulant à Tokyo. Le résultat est saisissant :
« L’humidité à Shinjuku pesait comme une couverture de laine mouillée, une odeur d’ozone et d’huile de sésame brûlée. Ren s’appuya contre un distributeur automatique, le bourdonnement mécanique vibrant jusque dans ses omoplates tandis que les néons saignaient un rose électrique sur le bitume luisant de pluie… »
Points à améliorer
Sur le test de suivi d’instructions, Gemini 3 Flash a produit un contenu de qualité mais n’a pas parfaitement respecté la contrainte des « moins de 10 mots » (débordant à 11-12 mots). GPT-5 montre une adhérence légèrement supérieure aux règles de formatage strictes.
Tarification
C’est ici que Gemini 3 Flash brille pour les développeurs et les entreprises :
- Entrée : 0,50 $ par million de tokens
- Sortie : 3,00 $ par million de tokens
- Entrée audio : 1,00 $ par million de tokens
C’est à peine plus cher que Gemini 2.5 Flash, mais pour des performances substantiellement supérieures. Par rapport à des modèles frontières comme GPT-5.2 ou Claude 4 Sonnet, les économies sont massives surtout à grande échelle.
Meilleurs cas d’utilisation
- Workflows d’agents : idéal pour le codage complexe et l’automatisation (78 % sur SWE-Bench).
- Analyse vidéo et documentaire : analyse fluide de contenus longs grâce au million de tokens de contexte.
- Applications en temps réel : sa vitesse permet des assistants de code interactifs et du chat en direct.
- Production sensible aux coûts : quand vous avez besoin de performances de pointe sans le budget « Premium ».