DeepSeek навсегда снизила цену V4 Pro на 75%. Теперь это 0,15 / 0,60 доллара за миллион токенов - в 7–17 раз дешевле Claude Sonnet и GPT-5.5-Med. Кеш в Китае - в 87 раз дешевле. Проблема стоимости токенов стала критической: Uber сжёг весь бюджет Claude Code на 2026 год за четыре месяца. Pinterest ушёл на open-source и сократил затраты на 90%. DeepSeek V4 Flash занял первое место на OpenRouter с 48-процентным скачком токенов. Топ-3 модели DeepSeek обработали около 6 триллионов токенов. Всё это - не случайность, а следствие архитектурных прорывов, о которых мы расскажем ниже.
Ценовой шок: DeepSeek ломает рынок
Когда DeepSeek объявила о снижении цены V4 Pro на 75%, в индустрии произошёл тектонический сдвиг. 0,15 доллара за миллион входных токенов и 0,60 - за выходные. Для сравнения: Claude Sonnet стоит 3,00 / 15,00 долларов, GPT-5.5-Med - 2,50 / 10,00. В 7–17 раз дороже. А если вы работаете через Китайский кеш DeepSeek - разрыв достигает 87 раз.
Такая разница в цене - не демпинг, а результат инженерной мысли. DeepSeek просто построила принципиально другую архитектуру, которая тратит на порядок меньше ресурсов на каждый токен. И теперь любой бизнес может получить качество frontier-модели по цене, которая раньше казалась фантастикой.
Проблема стоимости токенов стала действительно критической. Uber, один из крупнейших корпоративных клиентов Claude, сжёг весь бюджет на Claude Code 2026 года за четыре месяца. Pinterest перевёл свои AI-пайплайны на open-source модели и сократил затраты на 90%. Маржинальная стоимость токена больше не абстрактный показатель - это прямая строка в P&L любого tech-бизнеса.
DeepSeek V4 Flash взлетел на первое место на OpenRouter с 48-процентным приростом трафика токенов за месяц. Три ведущие модели DeepSeek - V4 Flash, V4 Pro и R1 - обработали в сумме около 6 триллионов токенов. Цифра, которая год назад принадлежала исключительно GPT.
Архитектурные прорывы DeepSeek
Четыре ключевые технологии - вот что стоит за ценой и производительностью DeepSeek. Ни одна из них не появилась в вакууме, но вместе они дают синергию, которую конкуренты пока не могут повторить.
1. CSA/HCA - Compressed Sparse + Heavily Compressed Attention
Классический механизм внимания - главный пожиратель памяти в LLM. Каждый токен «смотрит» на все предыдущие, и чем длиннее контекст, тем больше памяти уходит на хранение KV-cache (Key-Value cache). У DeepSeek свой подход: Compressed Sparse Attention (CSA) + Heavily Compressed Attention (HCA). Суть - не хранить все ключи и значения для всех токенов. CSA прореживает матрицу внимания, оставляя только значимые связи. HCA идёт дальше - сжимает KV-cache до минимального размера. Вместе они дают до 90% экономии памяти на внимание. Это означает, что DeepSeek может обрабатывать контексты в миллион токенов на том же GPU, на котором конкуренты еле тянут 128К.
2. MLA - Multi-head Latent Attention
Multi-head Latent Attention - ещё один слоёный трюк DeepSeek. Идея: значения (Values) не хранятся в дорогой HBM-памяти GPU. Они уходят на дешёвое хранилище - на CPU-сторону или в более медленную, но объёмную память. На GPU остаются только ключи (Keys). KV-cache для миллиона токенов у DeepSeek - 5,48 GB HBM. У конкурентов, использующих классическое внимание: от 89 GB у условного Llama 3.1 70B до 180+ GB у более крупных моделей. Разница - в 16–33 раза.
3. FP4 QAT - квантизация с сохранением точности
Квантование моделей - стандартная практика: 16-битные веса заменяют 8-битными, теряя немного точности. DeepSeek пошла в 4 бита через FP4 QAT (Quantization-Aware Training). Модель обучается уже с учётом того, что её веса будут сжаты до 4 бит - и учится компенсировать потери качества. Результат: 99,7% точности полной модели при двукратном ускорении инференса на железе. На практике это значит, что V4 Pro на дешёвых GPU выдает скорость, сравнимую с топовыми ускорителями конкурентов.
4. mHC - Manifold-Constrained Hyper-Connections
Самая глубокая инновация. Manifold-Constrained Hyper-Connections - способ стабилизировать обучение моделей-гигантов. DeepSeek тренирует V4 семейство на 1,6 триллиона параметров (активируется около 200B). Такая размерность легко сваливается в хаос градиентов - веса рассинхронизируются, loss расходится. mHC накладывает ограничение-многообразие на связи между слоями: градиенты не могут уходить в бесконечность, они принудительно проецируются на стабильное подпространство. Это позволило обучить модель в срок и без срывов.
Рынок раскалывается на два tier
DeepSeek сделала нечто большее, чем просто выпустила дешёвую модель. Она расколола рынок LLM на два принципиально разных сегмента.
Premium deterministic tier. Anthropic (Claude) и OpenAI (GPT) - для задач, где цена не имеет значения, а нужна предсказуемость, безопасность и zero-shot качество без артефактов. Это юридические контракты, медицинские диагнозы, финансовые отчёты. Здесь платят за уверенность, а не за токен.
High-volume agentic tier. DeepSeek и open-source - для всего остального. Для AI-агентов, которые делают тысячи вызовов в минуту. Для RAG-пайплайнов, перемалывающих гигабайты документов. Для код-генерации в CI/CD, где каждый токен - это деньги. Для стартапов, у которых бюджет ограничен, а амбиции - нет.
Для enterprise-клиентов open weights DeepSeek дают принципиальное преимущество: полный контроль над архитектурой и нулевая стоимость токенов при self-hosting. Вы не платите за API-вызовы - вы платите только за железо. А с архитектурой, потребляющей 5,48 GB HBM на миллион токенов контекста, это железо обходится в разы дешевле, чем для альтернатив.
📊 Суть
DeepSeek сломала токен-мур Silicon Valley. Цены - в 7–17 раз ниже конкурентов при сопоставимом качестве. Секрет - в архитектуре: CSA/HCA снижает KV-cache на 90%, MLA выводит Values на дешёвое хранилище, FP4 QAT даёт 99,7% точности при 4-битной квантизации, а mHC стабилизирует обучение на 1,6T параметров. Рынок LLM больше не монолитен - он расколот на премиум и high-volume сегменты, и DeepSeek доминирует во втором.