Текстовые генерации всегда работали как печатная машинка - один токен за раз, слева направо, без возможности исправить уже написанное. Google решила перевернуть этот подход: DiffusionGemma генерирует 256 токенов сразу, как картинку, через диффузионный процесс. И - главное - Apache 2.0, vLLM прямо из коробки и 18 гигабайт памяти на потребительской RTX 5090. Это новости gemini google, которые стоит знать.
Не печатная машинка, а холст
DiffusionGemma не генерирует токены по порядку. Она начинает с блока из 256 случайных токенов-заполнителей - как чистый холст - и прогоняет через него несколько проходов уточнения. На каждом проходе модель оценивает каждую позицию и фиксирует те, в которых уверена больше всего. Неуверенные позиции получают новый случайный токен и пересматриваются на следующем проходе, используя уже зафиксированные как контекст.
Из этой архитектуры следуют два ключевых свойства:
- Самокоррекция. Авторегрессионная модель, совершив ошибку, застревает с ней - все последующие токены уже обусловлены неверным выбором. DiffusionGemma может определить низкодоверительные позиции и переоценить их на следующем проходе.
- Бидирекционный контекст. Каждая позиция «видит» все остальные одновременно, включая токены, которые идут позже в последовательности. Это даёт структурное преимущество для задач с ограничениями - например, генерация кода, где правильность середины зависит от того, что будет в конце.
DiffusionGemma в цифрах
1008 токенов/сек на одном H100 (FP8). 1288 токенов/сек на H200. 26B MoE, активируется только 3.8B параметров. 18GB VRAM - помещается на RTX 4090 и 5090. Apache 2.0, vLLM из коробки.
Где выигрывает, а где нет
Google честно признаёт: DiffusionGemma уступает стандартной Gemma 4 по качеству. Их собственная документация говорит прямым текстом: «Для приложений, требующих максимального качества, мы рекомендуем стандартную Gemma 4». Так что DiffusionGemma - не замена, а новая опция для специфических сценариев.
Где выигрывает: локальный инференс, однопользовательские приложения, низкоконкурентное обслуживание. GPU простаивает, узкое место - пропускная способность памяти. DiffusionGemma заполняет этот разрыв параллельной генерацией.
Где нет: высоконагруженное облачное обслуживание. Когда сервер батчит сотни конкурентных запросов, авторегрессионные модели уже насыщают доступные вычисления, и параллельная декодировка даёт убывающую отдачу.
Зато в структурированных задачах с ограничениями - код-инфиллинг, генерация шаблонов, задачи с двунаправленным распространением ограничений - диффузионная архитектура имеет встроенное преимущество. Google продемонстрировала это на тонконастроенном решателе Судоку: базовая модель решала ноль головоломок, после тонкой настройки на датасете Sudoku - 80% успеха.
«DiffusionGemma - не просто трюк с декодингом. Это другая парадигма генерации. Она не угадывает будущие токены - она создаёт зашумлённый холст из 256 токенов и повторно денойзит весь блок параллельно» - Andrew Kuncevich, ML/AI researcher
Что это значит для бизнеса
DiffusionGemma открывает третий путь для команд, которые запускают локальный инференс. Раньше выбора не было: либо брать большую модель и терпеть задержки, либо меньшую - и терять в качестве. Теперь на том же количестве параметров можно получить другую точку компромисса - скорость за счёт предсказуемости качества.
Для компаний во Владивостоке и на Дальнем Востоке, где доступ к облачным GPU западных провайдеров ограничен, это особенно важно. DiffusionGemma работает на потребительской RTX 4090 с открытой лицензией - без подписок, без API-ключей, без привязки к вендору. Это ещё один шаг к тому, чтобы внедрение искусственного интеллекта стало доступным для любого бизнеса, независимо от расположения.
Впрочем, называть DiffusionGemma заменой GPT или Claude пока рано. Это экспериментальная модель, которая открывает новое направление - и для constrained generation может оказаться очень полезной. А для вольной генерации текста - Gemma 4 остаётся королём.