Kimi K2.7-Code cuts thinking tokens 30%

Moonshot AI выпустила Kimi K2.7-Code - open source обновление своей модели для программирования. Ключевое улучшение - модель тратит на 30% меньше токенов на рассуждение, что напрямую снижает стоимость инференса для агентных рабочих процессов. Но независимые разработчики уже подняли вопрос: насколько честны эти цифры? Новости ии сегодня - это история про разрыв между собственными бенчмарками и реальным продакшеном.

Когда K2.6 запускалась в апреле, она возглавила еженедельный рейтинг OpenRouter - основанный на реальных решениях разработчиков, а не на отчётах о бенчмарках. K2.7-Code построена на той же trillion-параметровой MoE-архитектуре и совместима с OpenAI API. Для команд, уже использующих K2.6 в продакшене, апгрейд обещает быть безболезненным.

Ключевой факт

30% экономии токенов рассуждения. Moonshot AI говорит, что K2.7-Code борется с «оверсинкингом» - модель тратит меньше вычислительных ресурсов на обдумывание ответов. Для бизнеса это означает снижение стоимости инференса без смены архитектуры. Open source ии и open weights модели становятся всё более доступными для практического внедрения.

Что изменилось в K2.7-Code

Главное отличие от K2.6 - как модель генерирует низкоуровневый код. Раньше она оборачивала существующие библиотеки и прокладывала пути через готовые фреймворки. Теперь - пишет реализации напрямую. Moonshot AI утверждает, что это даёт более надёжное обобщение для Rust, Go и Python, а также для фронтенда, DevOps и оптимизации производительности.

По собственным тестам компании, модель показывает прирост 21.8% на Kimi Code Bench v2, 11% на Program Bench и 31.5% на MLS Bench Lite. Все три - проприетарные бенчмарки Moonshot AI. На независимый бенчмарк DeepSWE модель пока не подавалась.

Честнее, но не сильнее

Картинка от независимых тестеров сложнее. Исследователь Эллиот Арледж запустил K2.7-Code против K2.6 и Claude Fable 5 на KernelBench-Hard - публичном бенчмарке оптимизации GPU-ядер.

Его вывод: «K2.7 честнее, но не способнее». На пяти из шести задач модель написала настоящие Triton-ядра, где K2.6 использовала библиотечные обёртки. Но два из пяти ядер упали с собственными ошибками. Результат MoE-ядра ухудшился с 0.222 до 0.157.

«K2.7 честнее, но не способнее. Fable, для сравнения, проходит каждую ячейку, которую не проваливает честно» - Эллиот Арледж, исследователь

Разработчик Сугумаран Баласубраманиян, построивший роутер задач на основе DeepSWE, публично спросил Moonshot AI: «Каждая модель улучшается на своих тестах. K2.6 получил 24% на DeepSWE (наравне с GPT-5.4-mini). Эти 30% - на собственных бенчмарках. Когда увидим независимые результаты?»

Он отметил, что потратил 13 итераций на настройку данных для роутера, и будет маршрутизировать задачи на K2.7-Code, если независимые тесты подтвердят результат.

Что это значит для бизнеса

30% экономия токенов рассуждения - это не абстрактная цифра. Если у вас работают AI-агенты, которые генерируют миллионы токенов в день, это прямая экономия на инференсе. Модель можно просто подменить через OpenAI-совместимый API - никаких изменений в архитектуре.

Практический вопрос в другом: держатся ли эти 30% на ваших конкретных задачах? Не на синтетических бенчмарках, а на вашей кодовой базе, ваших промптах, вашем распределении задач. Единственный способ узнать - протестировать на своих данных.

Для компаний во Владивостоке, которые думают о нейросетях для бизнеса, K2.7-Code - хорошая новость. Open source модель, которую можно запустить локально или через API, с потенциально более низкой стоимостью. Но, как и с любым AI-инструментом, сначала тест на своих задачах, потом масштабирование.

Kimi K2.7-Code снижает токены рассуждения на 30% - но практики сомневаются в бенчмарках

Ключевой факт

Что изменилось в K2.7-Code

Честнее, но не сильнее

Что это значит для бизнеса

Выбираете AI-модель для бизнеса?

Читайте также