DiffusionGemma 26B-A4B : quand Google remplace l'autoregression par la diffusion textuelle

Google DeepMind publie un modèle multimodal basé sur une architecture MoE qui génère du texte via diffusion discrète plutôt qu'autoregressif. Résultat : 4× plus rapide, nettement moins performant. Analyse critique sourcée.
📅 14 juin 2026 📊 25,2 Md paramètres / 3,8 Md actifs 🔓 Apache 2.0 🎯 Multimodal (texte + image + vidéo)

1. Architecture : un encoder-decoder pour la diffusion

Contrairement aux LLM classiques purement decoder-causal (GPT, Llama, Qwen), DiffusionGemma adopte un schéma encoder-decoder :

ParamètreValeur
Paramètres totaux25,2 Md
Paramètres actifs (MoE)3,8 Md (8 experts actifs / 128 + 1 shared)
Couche vision~550 Md (encodeur d'image séparé)
Couches30
Fenêtre glissante1 024 tokens
Longueur du canvas256 tokens
Contexte maximum256K tokens
Vocabulary262K tokens
LicenseApache 2.0
Date de sortie10 juin 2026

Encoder : traite l'invite initiale et génère le KV cache (préfill).

Decoder : applique une attention bidirectionnelle sur un « canvas » de 256 tokens. Chaque token peut consulter tous les autres simultanément — contrairement à l'autoregressif où chaque token ne voit que les précédents.

Mécanisme de diffusion : le modèle part d'un canvas bruité et l'affine itérativement via un sampler à borne d'entropie (EB). Le processus s'arrête quand l'entropie moyenne descend sous 0,005 ET que les prédictions restent stables sur deux étapes consécutives.

💡 Débit : 15–20 tokens débruités simultanément par forward pass, contre 1 en autoregressif. Sur H100 FP8 bsz=1, Google annonce +1 100 tok/s.

2. Benchmark critique : le prix de la vitesse

Les résultats ci-dessous comparent DiffusionGemma directement à son homologue autoregressif Gemma 4 26B A4B, toutes deux instruction-tuned avec EB sampler (données officielles Google) :

Raisonnement & Connaissance

BenchmarkDG 26B A4BGemma 4 ARÉcart
MMLU Pro77,6 %82,6 %−5,0
AIME 202669,1 %88,3 %−19,2
GPQA Diamond73,2 %82,3 %−9,1
LiveCodeBench v669,1 %77,1 %−8,0
Codeforces ELO1 4291 718−289
BigBench Extra Hard47,6 %64,8 %−17,2
MMLU standard81,5 %86,3 %−4,8
Tau2 (avg 3)56,2 %68,2 %−12,0
HLE (no tools)11,0 %8,7 %+2,3 ✅
HLE (with search)11,9 %17,2 %−5,3

Vision Multimodale

BenchmarkDG 26B A4BGemma 4 ARÉcart
MMMU Pro54,3 %73,8 %−19,5
OmniDocBench 1.50,319 ED0,149 ED+0,170
MATH-Vision70,5 %82,4 %−11,9
MedXPertQA MM49,0 %58,1 %−9,1

Long Context

BenchmarkDG 26B A4BGemma 4 ARÉcart
MRCR v2 (8 needle @ 128k)32,0 %44,1 %−12,1
Observations clés :
• L'écart est systématiquement négatif sauf en HLE no-tools (+2,3).
• En raisonnement mathématique (AIME), −19,2 pts : la diffusion perd beaucoup en logique formelle.
• En vision (MMMU Pro), −19,5 pts — l'écart le plus dramatique.
• En long context (needle-in-haystack @ 128K), −12,1 pts : la retrieval capacity est dégradée.

3. Forces réelles

4. Limites sérieuses

5. Verdict : un modèle de niche prometteur, pas un replacement

DiffusionGemma 26B-A4B est une preuve de concept technologique majeure — Google prouve que la diffusion textuelle fonctionne à l'échelle. Mais c'est un modèle expérimental explicitement flagué « experimental » par Google, dont la proposition de valeur est étroite :

« Pas "meilleur LLM" — "4× plus rapide à qualité acceptable pour des workloads spécifiques." »

Pour qui ? Développeurs locaux voulant une génération rapide sur mono-GPU, équipes expérimentant la diffusion textuelle, cas où la vélocité prime sur la précision absolue (brainstorming, prototypage, transcription image→texte rapide).

Pas pour ? Raisonnement mathématique complexe, OCR fin, QA factuelle exigeante, production cloud haute-performance.

En attendant que la maturité de la diffusion textuelle comble l'écart de qualité — probablement pas avant 1-2 générations — DiffusionGemma restera fascinant mais niche.

Installation rapide

vLLM (recommandé)

pip install vllm>=0.12.0
vllm serve "google/diffusiongemma-26B-A4B-it"

Transformers (test rapide)

pip install transformers>=4.55.0 accelerate torch

from transformers import AutoProcessor, AutoModelForMultimodalLM

model = AutoModelForMultimodalLM.from_pretrained(
    "google/diffusiongemma-26B-A4B-it",
    trust_remote_code=True
)
# nécessite flash-attn et CUDA 12+