MiniMax M3: архитектура внимания в 15 раз быстрее

Китайская компания MiniMax, известная своей серией моделей M2, выпустила технический отчёт, который стоит прочитать каждому, кто строит AI-продукты. И заодно дразнит M3 - с архитектурой, которая может изменить экономику длинных контекстов.

В мире AI-моделей есть проблема, о которой редко говорят вслух: чем длиннее контекст, тем медленнее модель. Квадратичная сложность внимания - иначе говоря, каждый новый токен требует пересчёта всех связей с предыдущими - превращает работу с большими документами в дорогое удовольствие. MiniMax утверждает, что нашла способ обойти это ограничение.

🔑 Ключевая цифра

Новая архитектура MiniMax Sparse Attention (MSA) даёт 15,6-кратное ускорение декодирования на последовательности в 1 миллион токенов. prefilling ускоряется в 9,7 раза. Это не эволюция - это прыжок.

Проблема квадратичного внимания

Чтобы понять, почему это важно, надо разобраться, как вообще работает AI, когда «читает» длинный текст. Есть две фазы: prefilling (модель читает весь входной текст за раз) и decoding (генерирует ответ слово за словом). Проблема в том, что на каждом шаге декодирования модель пересматривает весь контекст заново.

Метафора: представьте, что вы читаете юридический документ на 500 страниц, а потом пишете по нему отчёт. Но каждое новое слово в отчёте требует, чтобы вы перечитали все 500 страниц плюс всё, что уже написали. Примерно так работает классическая архитектура полного внимания. И чем длиннее диалог, тем больнее.

Субквадратичные методы (скользящее окно, сжатое линейное внимание) раньше пытались это обойти - но ценой потери контекста. MiniMax сама тестировала такие подходы на M2 и выбросила: на задаче RULER 128K точность упала с 90,0 до 72,0. Модель просто теряла нить рассуждения.

«Мы перепробовали все гибридные схемы: Lightning Attention, Sliding Window Attention, смешанные конфигурации. Результат был однозначным - на больших контекстах традиционное полное внимание побеждает.»
- из технического отчёта MiniMax M2

Что придумали в M3

MSA (MiniMax Sparse Attention) работает иначе. Вместо того чтобы сжимать ключи и значения в сжатое пространство (как делает DeepSeek с MLA), MSA оставляет их в исходном виде, но на этапе внимания выбирает только релевантные блоки на уровне блоков. Это похоже на умный индексатор: не читать всё подряд, а подсматривать только нужные куски.

Elie Bakouch из Prime Intellect поясняет: «Это блочный отбор, как в CSA, но внимание считается на реальных KV, а не в сжатом пространстве». Разница принципиальная - нет потери точности, сохраняется поддержка prefix caching.

                    📊 Цифры M3
                    Prefilling: ускорение в 9,7 раза на 1 млн токенов
Decoding: ускорение в 15,6 раза на 1 млн токенов
Архитектура: GQA + блочный отбор, без сжатия
Совместимость: полная поддержка prefix caching и MTP

                

От M2 к M3: эволюция через Forge

Отдельного внимания заслуживает то, как MiniMax вообще дошла до M3. Их M2-серия (M2, M2.5, M2.7) - это не просто языковые модели, а полноценные агенты с «чередующимся мышлением»: модель чередует цепочки рассуждений на естественном языке с вызовами инструментов внутри одного трейса. История мышления не отбрасывается между шагами - она остаётся в контексте, что предотвращает «дрифт состояния».

Чтобы тренировать такие длинные сценарии, MiniMax построила Forge - масштабируемую систему RL, которая декомпозирует выполнение на три модуля. Два ключевых инженерных решения:

Оконный FIFO-планировщик: скользящее окно над очередью генерации, предотвращает простой кластера
Слияние префиксных деревьев: одинаковые префиксы считаются один раз - ускорение до 40x с нулевой ошибкой аппроксимации

Результат: M2.7 работает как автономный AI-инженер - профилирует свои тренировки, диагностирует аномалии, читает логи и сам меняет код. По данным MiniMax, модель справлялась с 30-50% собственного цикла разработки. На бенчмарке MLE Bench Lite M2.7 набрала 66,6% медалей - наравне с Gemini 3.1 Pro от Google.

Что это значит для бизнеса

Самое интересное в M3 - не технические детали, а экономика. Если модель может обрабатывать контекст в миллион токенов в 15 раз быстрее, это меняет стоимость AI-агентов, работающих с большими объёмами данных: юридические分析, медицинские записи, кодовая база предприятия.

MiniMax - не единственная китайская лаборатория, которая движется в этом направлении. DeepSeek, Xiaomi, Alibaba - все ищут свой путь к эффективному длинному контексту. Но MSA выглядит как один из самых практичных подходов на сегодня.

«За бенчмарками они сделали реально солидную работу по эффективности MoE и агент-ориентированному дизайну. Интересно, куда M3 пойдёт дальше.»
- Адина Якуп, Hugging Face

💡 Вывод

MiniMax M3 с MSA - это не просто очередная модель, а сдвиг в архитектуре. Если заявленные цифры подтвердятся на практике, длинный контекст перестанет быть роскошью. Для компаний, которые строят AI-агентов на больших документах, это снижение стоимости инференса в 10-15 раз. Следим за релизом.

MiniMax M3: новая архитектура внимания и ответ в 15 раз быстрее