OpenAI: Галлюцинации ИИ — не баг, а фича обучения
Новое исследование OpenAI вскрыло неприятную проблему: нейросети врут не из-за загадочных сбоев, а потому что их так научили. Система поощряет угадывание, а не честное признание в незнании, и эта проблема оказалась гораздо глубже, чем представлялось, затрагивая всю индустрию ИИ.
Представьте себе студента, который на экзамене скорее придумает ответ, чем оставит поле пустым. По данным OpenAI, именно так и ведут себя языковые модели. Это не ошибка в коде, а заложенная при обучении стратегия выживания: выгоднее дать правдоподобный, но неверный ответ, чем промолчать и не получить балл. Исследователи наглядно показали это в эксперименте. Модель, натренированная угадывать, воздерживалась от ответа лишь в 1% случаев и ошибалась в 75% сомнительных ситуаций, хотя её общая точность была 24%. В то же время модель, которую научили чаще сомневаться, молчала в 52% случаев. Её точность оказалась лишь незначительно ниже (22%), зато доля откровенных выдумок рухнула до 26%.
Корень проблемы — в самих «правилах игры». Общепринятые тесты для ИИ, так называемые бенчмарки, работают как счётчик очков: чем больше правильных ответов, тем выше рейтинг. Это и создаёт порочный круг, в котором модели оптимизируются для прохождения тестов, а не для честного диалога. Эту проблему признают и другие учёные. В работе «Мираж обнаружения галлюцинаций» исследователи из Университета Южной Калифорнии и Apple отмечают, что существующие метрики плохо отражают реальное положение дел и не всегда согласуются с оценками людей. Иногда простые показатели, вроде длины ответа, оказываются более надёжными детекторами лжи, чем сложные алгоритмы.arxiv
Похоже, индустрия начинает осознавать, что долгое время измеряла не совсем то, что нужно. Разработчики из OpenAI предлагают не просто латать дыры, а изменить саму систему оценки, поощряя модели за «воздержание» от ответа при неуверенности. Одновременно с этим другие команды ищут технические решения. Например, в Университете искусственного интеллекта Мохамеда бин Зайда (MBZUAI) разработали метод, который анализирует внутреннюю «уверенность» модели в генерируемых словах и может помечать потенциально недостоверные фрагменты.
Похоже, гонка за создание ИИ, который знает всё, уступает место новой цели — созданию ИИ, который знает, чего он не знает. Битва с «галлюцинациями» переходит из плоскости таинственных сбоев в область понятной инженерной задачи, где скромность и честность становятся такими же важными показателями качества, как и объём знаний.
Источники:

