Google Faithful Uncertainty: LLM без галлюцинаций

Исследователи Google опубликовали работу, которая меняет подход к галлюцинациям AI. Вместо того чтобы заставлять модель замолчать при малейшей неуверенности, они предлагают научить её честно говорить: «Я не уверен, но моя лучшая догадка - ...». Это не просто философский сдвиг - это практическое решение для бизнеса, где AI-агенты должны балансировать между полезностью и надёжностью. Новости ии сегодня - про то, как метапознание становится промышленным стандартом.

Проблема галлюцинаций знакома каждому, кто хоть раз использовал LLM для реальных задач. Модель уверенно выдаёт неверный ответ - и вы тратите часы на перепроверку. Традиционный подход: заставить модель отвечать только тогда, когда она «уверена». Проблема: это отбрасывает 52% правильных ответов.

Ключевой факт

52% верных ответов теряются. Если попытаться снизить уровень ошибок с 25% до 5% путём принудительного воздержания от ответа, модель отбрасывает больше половины правильных ответов. Google предлагает альтернативу: пусть модель выражает сомнение, но продолжает отвечать. Это «налог на полезность», который бизнес платит за безопасность - и Google нашла способ его снизить.

Налог на полезность: цена нулевых галлюцинаций

Гал Йона, исследователь Google и соавтор работы, объясняет просто: «Есть два способа улучшить фактологичность LLM. Первый - учить модель большему количеству фактов. Но ёмкость модели конечна, а длинный хвост знаний бесконечен». Когда модель упирается в потолок, единственная надежда - что она хотя бы знает, чего не знает.

Проблема в том, что LLM принципиально плохо отличают известное от неизвестного. Они не умеют говорить «я не знаю» - они просто галлюцинируют правдоподобный ответ. Попытки заставить их молчать при неуверенности создают то, что авторы называют «налогом на полезность».

Цифры впечатляют: снижение уровня ошибок с 25% до 5% заставляет модель отказаться от ответа в 52% случаев, когда она права. Это не просто неудобно - это делает модель бесполезной для практических задач. Разработчики это понимают и выбирают «покрытие» вместо точности - модель продолжает уверенно галлюцинировать.

«Большинство практических попыток снизить галлюцинации не доходят до продакшена. Они уменьшают галлюцинации, но уничтожают полезность - модель отказывается отвечать на вопросы, на которые на самом деле знает ответ» - Гал Йона, Google Research

Faithful Uncertainty: как это работает

Google предлагает перестать считать любую фактическую ошибку галлюцинацией. Вместо этого - «уверенная ошибка»: неверная информация, поданная авторитетно, без оговорок.

Разница тонкая, но практическая. Если модель говорит: «Я не совсем уверена, но VentureBeat была основана в...» - и ошибается на год, это не галлюцинация. Это гипотеза, которую пользователь может проверить. Модель сохранила полезность (дала лучшую догадку) без нарушения доверия (честно указала на неуверенность).

Ключевая идея - «верная неуверенность» (faithful uncertainty): лингвистическое выражение сомнения должно совпадать с внутренней статистической уверенностью модели. Модель использует оговорки только тогда, когда её внутреннее состояние действительно отражает конфликтующие или маловероятные данные.

Практическое значение для AI-агентов

Это особенно важно для агентных систем. На первый взгляд, доступ к внешним инструментам (поиск, базы данных) делает метапознание избыточным - модель может просто поискать факты. На деле - наоборот.

Без faithful uncertainty AI-агент не знает, когда искать, а когда использовать собственную память. Результат: либо он ищет даже то, что знает уверенно (тратит время и деньги на лишние API-вызовы), либо уверенно отвечает из памяти там, где надо было поискать - и выдаёт правдоподобную чушь.

Сегодняшние агентные обвязки пытаются решить это внешними классификаторами запросов или правилами вроде «всегда искать». Но это, по словам Йоны, «статично и хрупко». Faithful uncertainty позволяет агенту динамически оптимизировать использование инструментов, запуская поиск только тогда, когда внутренняя уверенность действительно низкая.

Парадокс начальной загрузки

Для бизнеса важный нюанс: научить модель «верной неуверенности» сложно. Стандартный supervised fine-tuning требует правильных ответов в обучающих данных. Но правильное выражение неуверенности зависит от того, что конкретная модель знает или не знает на данном этапе обучения.

«Земная истина для неуверенности динамична, - говорит Йона. - Если вы обучаете модель на ответе "я не знаю X", но модель на самом деле знает X - вы научили её галлюцинировать неуверенность». Обучающие данные статичны, а цель - движется.

Что это значит для бизнеса

Для бизнеса эта работа - не академическая абстракция. Если вы строите AI-агентов для бизнеса или автоматизацию с помощью ии, вопрос галлюцинаций - это вопрос доверия. Без метапознания агент не может адекватно решить, когда искать информацию, а когда использовать свои знания.

Для компаний во Владивостоке, которые думают о внедрении AI-агентов в свои процессы, это сигнал: технология становится зрелой. Когда Google публикует работу о том, как научить модель быть честной в своей неуверенности - это значит, что проблема осознана на самом высоком уровне и к ней есть практические подходы. Внедрение искусственного интеллекта бизнес-процессы становится предсказуемее.

Пока что самый доступный способ получить эффект - промпт-инжиниринг. Йона рекомендует фреймворк MetaFaith для экспериментов с метапознавательным промптингом. Но предупреждает: «Промптинг не решает всё - индустрии потребуется reinforcement learning, чтобы встроить метапознание глубоко в обучение моделей».

Google представила Faithful Uncertainty - LLM учатся говорить «не уверен» вместо галлюцинаций