Alibaba представила технологию HDPO: ИИ-агенты научились экономить ресурсы без потери точности
Одной из ключевых проблем при создании эффективных ИИ-агентов остается обучение моделей выбору между использованием внешних инструментов и опорой на собственные знания. Зачастую современные языковые модели настроены на автоматический вызов сторонних сервисов, что приводит к задержкам в работе, росту затрат на API и ухудшению логики из-за избытка лишней информации. Для решения этой задачи исследователи из Alibaba представили Hierarchical Decoupled Policy Optimization (HDPO) — систему обучения с подкреплением, которая помогает ИИ балансировать между скоростью выполнения и точностью задачи.
Преодоление «метакогнитивного дефицита»
Разработчики отмечают, что текущие модели ИИ сталкиваются с глубоким метакогнитивным дефицитом. Нейросети сложно определить, когда достаточно собственных параметров, а когда необходимо обратиться к внешним утилитам. В результате агенты могут запускать поиск в интернете или выполнение программного кода даже в тех случаях, когда запрос пользователя уже содержит все необходимые данные.
Такое поведение создает серьезные препятствия для практического применения технологий:
- Резкое возрастание стоимости эксплуатации из-за ненужных вызовов платных API.
- Появление узких мест в обработке данных, что делает систему медленной и неудобной для пользователя.
- Снижение качества ответов, так как лишние взаимодействия с инструментами вносят «шум» в контекст и сбивают цепочку рассуждений модели.
Предыдущие попытки ограничить использование инструментов часто приводили к дилемме: если штрафовать модель слишком сильно, она становится излишне осторожной и перестает использовать нужные функции в сложных задачах. HDPO решает эту проблему, разделяя каналы оптимизации точности и эффективности.
Механика работы HDPO
Фреймворк HDPO обрабатывает сигналы точности и экономичности независимо друг от друга, объединяя их только на финальном этапе вычислений. При этом приоритет всегда остается за корректностью ответа. Это означает, что модель никогда не получит поощрение за быстрый, но неправильный результат.
Такой подход создает естественный процесс обучения: на ранних этапах ИИ фокусируется исключительно на правильности ответов. По мере того как модель осваивает логику и начинает стабильно выдавать верные решения, в силу вступает сигнал эффективности, который заставляет систему отказываться от избыточных и дорогостоящих вызовов внешних служб.
Результаты тестирования агента Metis
Для проверки эффективности нового метода был создан мультимодальный агент Metis, обученный на базе модели Qwen3-VL-8B-Instruct. В ходе испытаний Metis показал впечатляющие результаты, сократив количество ненужных вызовов инструментов с 98% до всего лишь 2%. При этом модель установила новые стандарты точности в отраслевых тестах, обойдя даже более крупные системы, такие как Skywork-R1V4 с 30 миллиардами параметров.
В ходе практических тестов были отмечены важные особенности поведения нового агента:
- При анализе четкого изображения вывески музея Metis сразу считывает текст, в то время как другие модели тратят время на написание Python-скриптов для обрезки и увеличения картинки.
- В сложных задачах, например, при поиске данных на мелких графиках, агент безошибочно распознает нехватку разрешения и вызывает программный код для детального зума нужной области.
- ИИ воспринимает программный код как инструмент высокой точности, применяемый только при реальной необходимости, а не как стандартное действие по умолчанию.
Разработчики опубликовали код HDPO и модель Metis под открытой лицензией Apache 2.0. По мнению экспертов, это знаменует переход от простого обучения нейросетей работе с инструментами к развитию у них способности самостоятельно решать, когда использование этих инструментов действительно оправдано.