Разработчики ИИ из OpenAI, Google и Meta признались, что в будущем они могут перестать понимать, как работает искусственный интеллект
В середине июля 2025 года был опубликован документ под названием «Мониторинг цепочки рассуждений: новая и хрупкая возможность обеспечения безопасности ИИ». В его составлении приняли участие больше 40 сотрудников из крупнейших компаний и исследовательских организаций, занимающихся вопросами развития нейросетей. Например, старший вице-президент по исследованиям OpenAi и главный научный сотрудник Марк Чен, один из основателей компании Войцех Заремба. Еще два сооснователя OpenAI, Джон Шульман и Илья Суцкевер оценили и поддержали эту работу, а также нобелевский лауреат Джеффри Хинтон, которого также называют «крестным отцом ИИ».

В новой работе говорится, что с недавним появлением так называемых моделей рассуждения, использующих метод обучения с подкреплением (например, OpenAI o1 и другие системы этого семейства), исследователи получили уникальную возможность лучше понять, как устроен процесс принятия решений у нейросетей. Такие ИИ-системы не просто отвечают на запрос, а строят цепочки рассуждений на естественном языке, то есть том, который используют для общения обычные люди, что открывает дополнительные возможности для мониторинга их работы.
Исследователи отмечают, что процесс рассуждений порой все равно может быть неполным. Но разработчики тем не менее получают достаточно данных, чтобы выявить серьезные отклонения или нарушения в работе искусственного интеллекта, которые остались бы незамеченными у других моделей. Такой мониторинг делает работу нейросетей безопаснее, изменяя или полностью блокируя некорректные выводы ИИ.
По мнению авторов исследования, существующий баланс в работе моделей рассуждения очень легко нарушить. И один из самых простых способов — масштабирование обучения с подкреплением. Оно неизбежно и будет требовать все больших вычислительных ресурсов.
Изначально разработчики ИИ обучали модели на данных, созданных или проверенных людьми. Соответственно, модели выдавали заранее одобренные ответы. Рассуждающие модели в большей степени нацелены на результат независимо от используемых методов. При существенном масштабировании ИИ, обученный таким способом, может потерять стимул к четким рассуждениям, отдавая приоритет быстрому достижению результата (и, следовательно, вознаграждения). В итоге для ускорения процесса нейросеть, вполне возможно, перестанет использовать человеческий язык, что усложнит мониторинг.
Сделать ИИ-модель быстрее и безопаснее может оптимизация работы нейросети через сокращение цепочек рассуждения (или же корректировка стиля рассуждений, или запрет на оскорбительный контент). Однако все это ухудшит качество выводов модели.
Помимо этого, некоторые исследователи экспериментируют с архитектурой моделей искусственного интеллекта, чтобы позволить моделям рассуждать менее поверхностно. Такие экспериментальные системы выстраивают цепочки в скрытом пространстве, не показывая свои «мысли» в виде понятного текста. Теоретически это позволяет добиться более глубоких рассуждений и существенно повышает мощность модели. Однако контроль со стороны человека при такой архитектуре уже невозможен.
Ситуация когда ИИ обходит заданные ограничения для достижения цели уже случались не раз, поэтому авторы акцентируют внимание на возможности понимать ход рассуждений ИИ.