3 млрд параметров против 671 млрд: как VibeThinker-3B переписывает правила

В воскресенье девять исследователей из Sina Weibo - китайской соцсети, которую никто не ассоциирует с передовым AI - выложили на arXiv 14-страничный технический отчёт, который взбудоражил сообщество. Их заявление: языковая модель с 3 миллиардами параметров может сравниться или превзойти по качеству рассуждений флагманские системы Google DeepMind, OpenAI, Anthropic и DeepSeek, которые в сотни раз больше. Open source ии, новости нейросетей и open weights модели - вот о чём пойдёт речь.

Модель, названная VibeThinker-3B, набрала 94,3 балла на AIME 2026 - одном из самых сложных математических тестов в мире. Это ставит её рядом с DeepSeek V3.2 (671 млрд параметров) и выше Gemini 3 Pro от Google (91,7). А с техникой масштабирования под названием Claim-Level Reliability Assessment результат поднимается до 97,1, обходя практически все системы в публичном доступе.

Реакция не заставила себя ждать. За несколько часов статья набрала 62 апвоута в ленте Hugging Face, репозиторий модели - 130 лайков, а GitHub-репозиторий - 685 звёзд. Но реакция в соцсетях была далеко не единодушно восторженной. Скорее, глубоко скептической.

«КАКОГО ЧЁРТА происходит в AI?» - написал пользователь @orcus108 в X, набрав 161 000 просмотров. «Модель с 3B параметров показывает результаты по кодингу на уровне Claude Opus 4.5... Я правда не знаю, это прорыв или бенчмарки сломаны»

Это напряжение - между настоящим научным достижением и растущим подозрением, что бенчмарки стали настолько «натренировываемыми», что потеряли смысл - и есть суть истории VibeThinker-3B.

Результаты, бросающие вызов законам масштабирования

По математике VibeThinker-3B показал 91,4 на AIME 2025, 94,3 на AIME 2026, 89,3 на HMMT 2025 (математический турнир Гарварда и MIT), 93,8 на BruMO 2025 и 76,4 на IMO-AnswerBench. По кодингу - 80,2 Pass@1 на LiveCodeBench v6 и 96,1% принятых решений на невиданных ранее задачах LeetCode. По следованию инструкциям - 93,4 на IFEval.

Ключевой факт

DeepSeek V3.2 имеет 671 млрд параметров - в 224 раза больше VibeThinker-3B. GLM-5 от Zhipu AI - 744 млрд. Kimi K2.5 от Moonshot AI - больше 1 трлн. VibeThinker-3B с его 3 млрд помещается на обычном ноутбуке.

Авторы называют это Parametric Compression-Coverage Hypothesis. Суть: разные типы AI-способностей имеют принципиально разное отношение к размеру модели. Проверяемое рассуждение - математика и кодинг, где ответ можно проверить - это «параметро-плотная» способность, которую можно сжать в компактное ядро. Открытые знания, факты, эдж-кейсы - «параметро-растяжимые», они требуют широкого покрытия.

Это подтверждается результатами: на GPQA-Diamond (научные знания уровня выпускника) VibeThinker-3B набрал всего 70,2 - против 91,9 у Gemini 3 Pro и 87,0 у Claude Opus 4.5. Авторы прямо пишут: «Основное открытие не в том, что 3B-модель заменила ведущие модели общего назначения, а в том, что маленькая модель может достичь первоклассных результатов на многих проверяемых задачах».

Четырёхстадийный пайплайн обучения

VibeThinker-3B построен поверх Qwen2.5-Coder-3B от Alibaba через четырёхфазный процесс, который авторы называют «Spectrum-to-Signal Principle».

Первая фаза - двухстадийная точная настройка с curriculum learning: модель сначала обучается на широкой смеси математики, кода, STEM-рассуждений, диалогов, затем на отобранных сложных задачах. Примеры с длиной рассуждения короче 5000 токенов отбрасываются, а задачи, которые VibeThinker-1.5B решает с точностью выше 75%, фильтруются.

Вторая фаза - обучение с подкреплением по алгоритму MGPO (MaxEnt-Guided Policy Optimization), который фокусируется на задачах на границе текущих возможностей модели. Интересно: стратегия, которая работала на 1.5B - постепенное расширение контекстного окна - навредила на 3B. Пришлось тренироваться с единым окном в 64 000 токенов.

Третья фаза - дистилляция: из RL-обученных чекпоинтов извлекаются качественные траектории и дистиллируются обратно в единую модель через supervised fine-tuning. Четвёртая - Instruct RL: обучение с подкреплением на задачах следования инструкциям.

Реальные тесты показывают разрыв между бенчмарками и практикой

На каждую восторженную реакцию нашёлся не менее резкий критик. «Бенчмарки - это буквально паттерн-матчинг в одном файле, - написал @BigMoonKR. - Это не имеет отношения к реальной работе программиста».

Самый точный удар нанесли те, кто скачал и проверил модель. «Попробовал полную точность, - написал @politilols. - Она даже не знает, что такое uv script (самый популярный Python-инструмент). Этого не было ни в одной LLM как минимум год. Заточено под бенчмарки».

Авторы, впрочем, предусмотрели эту критику. LeetCode-контесты с апреля по май 2026 - даты, которые заведомо позже любых тренировочных данных. И на них VibeThinker-3B прошёл 123 из 128 первых попыток - 96,1%, обойдя GPT-5.2, Doubao Seed 2.0 Pro, Kimi K2.5 и Claude Opus 4.6.

Почему социальная сеть могла найти трещину в гипотезе масштабирования

Даже самые резкие критики признают: достичь таких результатов на 3 млрд параметров - значимое инженерное достижение. «Даже если это заточка под бенчмарки, сделать это с 3B - потрясающе, - написал @rohityin. - Показывает, как быстро развивается эта область».

VibeThinker-3B бросает вызов консенсусу - но лишь частично. Статья чётко очерчивает границы, разделяя задачи с «чётким сигналом верификации» и задачи, требующие широких фактических знаний. Parametric Compression-Coverage Hypothesis явно утверждает: маленькие модели не могут заменить большие во всём.

«Истинное значение VibeThinker-3B не в доказательстве того, что 3B-модель может заменить крупных генералистов, а в конкретном эмпирическом сигнале: разработка компактных моделей перестаёт быть пассивным компромиссом ради эффективности и становится самостоятельным исследовательским направлением» - из технического отчёта VibeThinker-3B

Sina Weibo - публичная компания с рыночной капитализацией в единицы миллиардов долларов - выпустила вторую значимую open-source AI-модель за семь месяцев. Предыдущая, VibeThinker-1.5B, обошла оригинальный DeepSeek R1 на нескольких математических тестах при стоимости пост-тренинга в 7 800 долларов против 294 000 долларов у DeepSeek.

Модель выпущена под MIT-лицензией. Веса свободно доступны на Hugging Face и ModelScope. Сообщество уже создало GGUF-квантования и производные модели.

Что это значит для бизнеса

VibeThinker-3B - это не готовая замена production-инструментам. Но его ключевая идея - что рассуждение и знание частично разделимы, и первое можно сжать гораздо сильнее, чем считалось - имеет серьёзные последствия.

Если Parametric Compression-Coverage Hypothesis верна, нас ждёт будущее, где маленькие специализированные «движки рассуждения» работают рядом с большими моделями знаний в гибридных архитектурах. 3-миллиардная модель тянет логику, большая система даёт факты. Стоимость развёртывания AI-рассуждений может радикально снизиться.

Для бизнеса на Дальнем Востоке это означает: можно не ждать, пока цены на frontier-модели упадут. Уже сейчас есть архитектуры, где маленькие модели на локальном железе решают конкретные задачи, а внешние API используются только для фактологии. Разделение знаний и рассуждения - не академическая абстракция, а практический паттерн, который экономит деньги уже сегодня.

Веса открыты. Код открыт. Самый важный тест - не в лидерборде, а в том, сможет ли кто-то сделать модель такого размера реально полезной.