DiffusionGemma 26B-A4B : quand Google remplace l'autoregression par la diffusion textuelle

Google DeepMind publie un modèle multimodal basé sur une architecture MoE qui génère du texte via diffusion discrète plutôt qu'autoregressif. Résultat : 4× plus rapide, nettement moins performant. Analyse critique sourcée.

📅 14 juin 2026 📊 25,2 Md paramètres / 3,8 Md actifs 🔓 Apache 2.0 🎯 Multimodal (texte + image + vidéo)

1. Architecture : un encoder-decoder pour la diffusion

Contrairement aux LLM classiques purement decoder-causal (GPT, Llama, Qwen), DiffusionGemma adopte un schéma encoder-decoder :

Paramètre	Valeur
Paramètres totaux	25,2 Md
Paramètres actifs (MoE)	3,8 Md (8 experts actifs / 128 + 1 shared)
Couche vision	~550 Md (encodeur d'image séparé)
Couches	30
Fenêtre glissante	1 024 tokens
Longueur du canvas	256 tokens
Contexte maximum	256K tokens
Vocabulary	262K tokens
License	Apache 2.0
Date de sortie	10 juin 2026

Encoder : traite l'invite initiale et génère le KV cache (préfill).

Decoder : applique une attention bidirectionnelle sur un « canvas » de 256 tokens. Chaque token peut consulter tous les autres simultanément — contrairement à l'autoregressif où chaque token ne voit que les précédents.

Mécanisme de diffusion : le modèle part d'un canvas bruité et l'affine itérativement via un sampler à borne d'entropie (EB). Le processus s'arrête quand l'entropie moyenne descend sous 0,005 ET que les prédictions restent stables sur deux étapes consécutives.

💡 Débit : 15–20 tokens débruités simultanément par forward pass, contre 1 en autoregressif. Sur H100 FP8 bsz=1, Google annonce +1 100 tok/s.

2. Benchmark critique : le prix de la vitesse

Les résultats ci-dessous comparent DiffusionGemma directement à son homologue autoregressif Gemma 4 26B A4B, toutes deux instruction-tuned avec EB sampler (données officielles Google) :

Raisonnement & Connaissance

Benchmark	DG 26B A4B	Gemma 4 AR	Écart
MMLU Pro	77,6 %	82,6 %	−5,0
AIME 2026	69,1 %	88,3 %	−19,2
GPQA Diamond	73,2 %	82,3 %	−9,1
LiveCodeBench v6	69,1 %	77,1 %	−8,0
Codeforces ELO	1 429	1 718	−289
BigBench Extra Hard	47,6 %	64,8 %	−17,2
MMLU standard	81,5 %	86,3 %	−4,8
Tau2 (avg 3)	56,2 %	68,2 %	−12,0
HLE (no tools)	11,0 %	8,7 %	+2,3 ✅
HLE (with search)	11,9 %	17,2 %	−5,3

Vision Multimodale

Benchmark	DG 26B A4B	Gemma 4 AR	Écart
MMMU Pro	54,3 %	73,8 %	−19,5
OmniDocBench 1.5	0,319 ED	0,149 ED	+0,170
MATH-Vision	70,5 %	82,4 %	−11,9
MedXPertQA MM	49,0 %	58,1 %	−9,1

Long Context

Benchmark	DG 26B A4B	Gemma 4 AR	Écart
MRCR v2 (8 needle @ 128k)	32,0 %	44,1 %	−12,1

Observations clés :
• L'écart est systématiquement négatif sauf en HLE no-tools (+2,3).
• En raisonnement mathématique (AIME), −19,2 pts : la diffusion perd beaucoup en logique formelle.
• En vision (MMMU Pro), −19,5 pts — l'écart le plus dramatique.
• En long context (needle-in-haystack @ 128K), −12,1 pts : la retrieval capacity est dégradée.

3. Forces réelles

Vitesse d'inférence locale. ~200-400 tok/s sur RTX 4090 (Q4), >1 100 tok/s sur H100 (FP8 bsz=1). Premier LLM MoE local vraiment rapide.
VRAM modéré. MoE sparse (3,8 Md actifs) ≈ 18 Go VRAM avec quantisation 4-bit. Une carte 24 Go suffit théoriquement.
Apache 2.0. Pas de restriction commerciale, libre fine-tuning et redistribution.
Multimodalité native. Texte + image (budget tokens configurable : 70/140/280/560/1120) + vidéo (max 60s). Fonction calling intégré.

4. Limites sérieuses

Qualité inférieure partout. Écart moyen de ~10 points est énorme. Ce n'est pas « quasi équivalent mais plus rapide » — c'est fondamentalement différent en capacités cognitives.
Outils immatures. Transformer support day-zero mais vLLM reste la seule voie de production fiable. llama.cpp en PR unmerged (#24427). Pas de GGUF officiel Google.
Scénarios restreints. Vitesse excelle en batch-size 1 local. En serving cloud haute-QPS, l'avantage se réduit car les modèles AR batchent mieux.
Hardware contraint. RTX 3060/4060 et Mac Silicon ne profitent pas de l'accélération — le goulot recale sur la bande passante mémoire.
Data cutoff janvier 2025. Comme tous les modèles de cette génération.

5. Verdict : un modèle de niche prometteur, pas un replacement

DiffusionGemma 26B-A4B est une preuve de concept technologique majeure — Google prouve que la diffusion textuelle fonctionne à l'échelle. Mais c'est un modèle expérimental explicitement flagué « experimental » par Google, dont la proposition de valeur est étroite :

« Pas "meilleur LLM" — "4× plus rapide à qualité acceptable pour des workloads spécifiques." »

Pour qui ? Développeurs locaux voulant une génération rapide sur mono-GPU, équipes expérimentant la diffusion textuelle, cas où la vélocité prime sur la précision absolue (brainstorming, prototypage, transcription image→texte rapide).

Pas pour ? Raisonnement mathématique complexe, OCR fin, QA factuelle exigeante, production cloud haute-performance.

En attendant que la maturité de la diffusion textuelle comble l'écart de qualité — probablement pas avant 1-2 générations — DiffusionGemma restera fascinant mais niche.

Installation rapide

vLLM (recommandé)

pip install vllm>=0.12.0
vllm serve "google/diffusiongemma-26B-A4B-it"

Transformers (test rapide)

pip install transformers>=4.55.0 accelerate torch

from transformers import AutoProcessor, AutoModelForMultimodalLM

model = AutoModelForMultimodalLM.from_pretrained(
    "google/diffusiongemma-26B-A4B-it",
    trust_remote_code=True
)
# nécessite flash-attn et CUDA 12+