Contrairement aux LLM classiques purement decoder-causal (GPT, Llama, Qwen), DiffusionGemma adopte un schéma encoder-decoder :
| Paramètre | Valeur |
|---|---|
| Paramètres totaux | 25,2 Md |
| Paramètres actifs (MoE) | 3,8 Md (8 experts actifs / 128 + 1 shared) |
| Couche vision | ~550 Md (encodeur d'image séparé) |
| Couches | 30 |
| Fenêtre glissante | 1 024 tokens |
| Longueur du canvas | 256 tokens |
| Contexte maximum | 256K tokens |
| Vocabulary | 262K tokens |
| License | Apache 2.0 |
| Date de sortie | 10 juin 2026 |
Encoder : traite l'invite initiale et génère le KV cache (préfill).
Decoder : applique une attention bidirectionnelle sur un « canvas » de 256 tokens. Chaque token peut consulter tous les autres simultanément — contrairement à l'autoregressif où chaque token ne voit que les précédents.
Mécanisme de diffusion : le modèle part d'un canvas bruité et l'affine itérativement via un sampler à borne d'entropie (EB). Le processus s'arrête quand l'entropie moyenne descend sous 0,005 ET que les prédictions restent stables sur deux étapes consécutives.
Les résultats ci-dessous comparent DiffusionGemma directement à son homologue autoregressif Gemma 4 26B A4B, toutes deux instruction-tuned avec EB sampler (données officielles Google) :
| Benchmark | DG 26B A4B | Gemma 4 AR | Écart |
|---|---|---|---|
| MMLU Pro | 77,6 % | 82,6 % | −5,0 |
| AIME 2026 | 69,1 % | 88,3 % | −19,2 |
| GPQA Diamond | 73,2 % | 82,3 % | −9,1 |
| LiveCodeBench v6 | 69,1 % | 77,1 % | −8,0 |
| Codeforces ELO | 1 429 | 1 718 | −289 |
| BigBench Extra Hard | 47,6 % | 64,8 % | −17,2 |
| MMLU standard | 81,5 % | 86,3 % | −4,8 |
| Tau2 (avg 3) | 56,2 % | 68,2 % | −12,0 |
| HLE (no tools) | 11,0 % | 8,7 % | +2,3 ✅ |
| HLE (with search) | 11,9 % | 17,2 % | −5,3 |
| Benchmark | DG 26B A4B | Gemma 4 AR | Écart |
|---|---|---|---|
| MMMU Pro | 54,3 % | 73,8 % | −19,5 |
| OmniDocBench 1.5 | 0,319 ED | 0,149 ED | +0,170 |
| MATH-Vision | 70,5 % | 82,4 % | −11,9 |
| MedXPertQA MM | 49,0 % | 58,1 % | −9,1 |
| Benchmark | DG 26B A4B | Gemma 4 AR | Écart |
|---|---|---|---|
| MRCR v2 (8 needle @ 128k) | 32,0 % | 44,1 % | −12,1 |
DiffusionGemma 26B-A4B est une preuve de concept technologique majeure — Google prouve que la diffusion textuelle fonctionne à l'échelle. Mais c'est un modèle expérimental explicitement flagué « experimental » par Google, dont la proposition de valeur est étroite :
« Pas "meilleur LLM" — "4× plus rapide à qualité acceptable pour des workloads spécifiques." »
Pour qui ? Développeurs locaux voulant une génération rapide sur mono-GPU, équipes expérimentant la diffusion textuelle, cas où la vélocité prime sur la précision absolue (brainstorming, prototypage, transcription image→texte rapide).
Pas pour ? Raisonnement mathématique complexe, OCR fin, QA factuelle exigeante, production cloud haute-performance.
En attendant que la maturité de la diffusion textuelle comble l'écart de qualité — probablement pas avant 1-2 générations — DiffusionGemma restera fascinant mais niche.
pip install vllm>=0.12.0
vllm serve "google/diffusiongemma-26B-A4B-it"
pip install transformers>=4.55.0 accelerate torch
from transformers import AutoProcessor, AutoModelForMultimodalLM
model = AutoModelForMultimodalLM.from_pretrained(
"google/diffusiongemma-26B-A4B-it",
trust_remote_code=True
)
# nécessite flash-attn et CUDA 12+