MiniMax-M3 beats GPT-5.5 and Gemini at 10-20x lower cost

Китайский стартап MiniMax выкатил M3 - большую языковую модель, которая обходит GPT-5.5 и Gemini 3.1 Pro на ключевых бенчмарках, но стоит в 10-20 раз дешевле. И главное: через 10 дней модель выйдет в open-weights - с возможностью скачать и запустить локально на своём «железе».

Сколько стоит и с чем сравнивают

MiniMax-M3 запустили в воскресенье вечером. Модель может обрабатывать до 1 миллиона токенов за раз - это примерно три книги «Война и мир». Она мультимодальная: понимает текст, картинки, и всё это из коробки, без склеивания разных моделей.

Цены - вот где начинается самое интересное. Первую неделю действует скидка: $0.3 за миллион входных токенов и $1.20 за миллион выходных. В сравнении:

GPT-5.5 от OpenAI - $5/$30 (вход/выход)
Claude Opus 4.8 от Anthropic - $5/$25
Gemini 3.1 Pro от Google - $2/$12
MiniMax-M3 - $0.3/$1.20 (со скидкой), $0.6/$2.40 (полная цена)

Даже по полной цене M3 стоит от 8% до 20% от конкурентов. А со скидкой - и вовсе копейки. Единственный, кто рядом по цене - DeepSeek-V4 Pro с $0.435/$0.87, но у MiniMax результаты на SWE-Bench выше.

Архитектура: никакого «честного» внимания

Обычный Transformer работает так: каждый новый токен «смотрит» на все предыдущие. Чем длиннее текст, тем дороже - сложность растёт квадратично. При 1 млн токенов это было бы безумно дорого.

MiniMax придумали обход: MiniMax Sparse Attention (MSA). Вместо того чтобы читать всю библиотеку каждый раз, MSA ставит «интеллектуального индексатора» - он заранее фильтрует, какие блоки данных реально нужны, и обращается только к ним. Внутренние тесты говорят, что MSA работает в 4+ раза быстрее аналогов вроде Flash-Sparse-Attention.

Результат: на полном контексте в 1 млн токенов затраты на один токен упали в 20 раз по сравнению с предыдущим поколением. Скорость префиллинга выросла в 9 раз, декодинга - в 15 раз.

🔑 Ключевой момент

MiniMax спроектировали M3 как мультимодальную систему с нуля, а не приклеили визуальный модуль к текстовой модели. Данные для обучения - текст, картинки, смешанные последовательности - всё обрабатывалось одним пайплайном. Корпус предобучения перевалил за 100 триллионов токенов.

Бенчмарки: кого и на сколько обошли

Вот где M3 реально удивил. На SWE-Bench Pro - автономном тесте для AI-агентов - модель показала 59.0%. Это выше, чем у GPT-5.5 и Gemini 3.1 Pro. На BrowseComp (автономный поиск в интернете) - 83.5%, обойдя Claude Opus 4.7 с его 79.3%.

Но не всё так радужно. Claude Opus 4.8, который вышел на прошлой неделе, всё ещё впереди по сложным агентским задачам: 69.2% на SWE-Bench Pro против 59.0% у M3, 74.6% на Terminal-Bench против 66.0%.

То есть картина такая: M3 бьёт GPT-5.5 и Gemini, но уступает свежему Opus 4.8 на сложных сценариях. Однако с учётом разницы в цене (Opus 4.8 стоит $30 за миллион выходных токенов, M3 - $1.20-2.40) вопрос «кто лучше» теряет смысл - они просто в разных весовых категориях.

Сравнение с DeepSeek-V4 Pro Max - ещё интереснее. M3 чуть лучше на SWE-Bench Pro (59.0% против 55.4%), немного хуже на Terminal-Bench (66.0% против 67.9%) и практически идентичен на BrowseComp и MCP Atlas. Два open-weights гиганта идут нос к носу.

Продукты и подписка

MiniMax запустили и потребительские продукты. Главный - MiniMax Code, AI-агент для программирования. Он работает через веб или десктопное приложение, использует паттерн «Producer + Verifier»: один экземпляр модели пишет код, другой - проверяет и тестирует. Система может работать автономно днями.

Благодаря мультимодальности MiniMax Code умеет напрямую работать с интерфейсами: можно сказать голосом «открой ERP-систему и заполни таблицы из Excel», и модель сама это сделает.

Для разработчиков - API-ключ (sk-cp), совместимый с Claude Code, Cursor, Roo Code и Cline. Есть режим «thinking»: включил - модель глубоко размышляет, выключил - быстрые ответы.

Тарифы на подписку (годовые):

Plus ($20/мес) - примерно 1.7 млрд токенов, 3-4 параллельных агента
Max ($50/мес) - 5.1 млрд токенов, 4-5 агентов, плюс 3 видео в день от Hailuo 2.3
Ultra ($120/мес) - 9.8 млрд токенов, 6-7 агентов, 5 видео в день

Open weights: главная «бомба»

В течение 10 дней MiniMax обещают выложить веса модели на HuggingFace и GitHub под open-source лицензией. Какой именно - пока неясно: может быть MIT, Apache 2.0 или новый OpenMDW. Но сам факт: фронтирная модель, которая бьёт GPT-5.5 по тестам, будет доступна бесплатно.

Для бизнеса это означает полный контроль над данными - никаких API-запросов к внешним серверам, никакой утечки данных. Можно запустить локально, дообучить под свои задачи, встроить глубоко в стек. Из off-the-shelf системы модель превращается в собственный корпоративный актив.

«Open weights меняют всё. Компании, которые раньше были привязаны к API OpenAI и платили за каждый токен, теперь могут просто скачать модель и запустить у себя на сервере. Для соблюдающих регуляторику - это спасение.»
- из комментария инженера в X (бывший Twitter)

Автономный тест на 12 часов

Один из самых впечатляющих тестов, который гуляет по сети: M3 поставили задачу воспроизвести статью-победителя ICLR 2025 Outstanding Paper Award. Модель работала автономно 12 часов, сделала 18 коммитов, построила 23 графика и подтвердила все ключевые результаты оригинальной статьи - включая предсказанные тренды вероятностей в SFT, эффект «сжатия» в DPO и работоспособность метода Extend.

Автономная работа на 12 часов без вмешательства человека - это принципиально другой уровень. Если M3 может решать исследовательские задачи уровня PhD за вечер, то что будет, когда такие модели станут стандартом?

📊 Что в итоге?

MiniMax M3 - не просто очередная модель. Это сигнал: эра дорогих проприетарных API подходит к концу. Open-weights модели догоняют и обходят флагманы США по качеству, оставаясь на порядок дешевле. Для бизнеса, который не хочет зависеть от одного вендора - лучшего времени для перехода на локальные модели ещё не было. Следим за развитием - ближайшие 10 дней, когда выйдут веса, могут изменить рынок надолго.

MiniMax-M3 обходит GPT-5.5 и Gemini 3.1 Pro по тестам - в 10-20 раз дешевле