Apple против ИИ: как Claude Opus стал соавтором разгромной критики

Apple, технологический гигант, выпускает исследование, чтобы доказать, что современные ИИ-модели не умеют думать. А через пару дней их собственный объект критики, модель Claude Opus, становится соавтором статьи, которая разносит их выводы в пух и прах. Иронично. Давайте разберем, что произошло.

image

Недавно Apple опубликовала исследование под названием «Иллюзия Мышления». В нем они с серьезным видом заявили, что так называемые «думающие» модели ИИ, такие как OpenAI o1/o3, Claude 3.7 Sonnet и Gemini Thinking, на самом деле не размышляют. Мол, это просто сложные алгоритмы, повторяющие заученные шаблоны, которые рушатся, как карточный домик, при малейшем усложнении задач.

Apple провела эксперименты с головоломками вроде «Башни Ханоя», где модели должны были решать задачи разной сложности. Итог? На простых задачах «думающие» модели иногда справлялись хуже обычных, на средних показывали преимущество, а на сложных — полный провал. Исследователи гордо заключили: никакого мышления, только иллюзия.

Не прошло и недели, как в ответ на пафосное исследование Apple выходит статья с названием «Иллюзия иллюзии мышления». И вот тут начинается самое интересное: одним из авторов указан C. Opus, он же Claude Opus — модель ИИ от Anthropic. ИИ, которого Apple назвали неспособным думать, сам написал критику их работы. Я просто представил, как в Купертино кто-то пролил кофе на клавиатуру от такого поворота.

В этой статье авторы человек и ИИ разбирают исследование Apple по косточкам. Они указывают на три ключевые проблемы в экспериментах:

  • Ограничение токенов: В задачах вроде «Башни Ханоя» модели сталкивались с лимитом на длину ответа. Они буквально говорили: «Эй, я не могу продолжать, у меня кончилось место», а Apple записывала это как провал в мышлении. Ну серьезно, это как обвинить человека в глупости, потому что у него закончилась бумага для записи.
  • Некорректная оценка: Система Apple не различала, провалилась ли модель из-за отсутствия логики или из-за технических ограничений.
  • Нерешаемые задачи: В некоторых головоломках, например, с переправой через реку, для больших значений N задача была математически нерешаемой из-за недостаточной вместимости лодки. ИИ отказывался тратить время на заведомо провальный квест, а Apple ставила им ноль.

Ну, отличный подход к тестированию :)

Авторы статьи даже провели свои эксперименты, изменив подход: вместо бесконечных списков ходов они просили модели генерировать функции для решения. Те же задачи, на которых Apple зафиксировала «полный коллапс», модели решали с высокой точностью.

А в конце статьи авторы поблагодарили за комментарии модели o3 и Gemini 2.5.  Лица исследователей Apple после этого я бы с радостью посмотрел!

Давайте начистоту: Apple, которая сама отстает в гонке ИИ-технологий, решила ткнуть пальцем в лидеров рынка вроде OpenAI, Google и Anthropic. Их исследование выглядит как попытка сказать: «Если мы не можем, то и вы не такие уж умные». Но вместо триумфа они получили ответку, да еще и от самой модели, которую критиковали.

Сообщество ИИ, конечно, не осталось в стороне. Многие программисты и исследователи указывают, что Apple выбрала головоломки, которые не отражают реальных сценариев использования ИИ. Другие смеются, что это просто способ отвлечь внимание от собственных неудач с Apple Intelligence. А я просто сижу с попкорном и наблюдаю, как технологии начинают спорить с людьми.

Честно, я впечатлен. Не столько выводами Apple, сколько тем, что Claude Opus не просто «прочитал» их статью, а помог написать ответ, который звучит логичнее оригинала. Нейронка может сказать: «Эй, ребята, вы ошиблись, вот доказательства». И если Apple хотела доказать, что ИИ не думает, то, кажется, они только подтвердили обратное.

Так что, друзья, пока Apple пытается сохранить лицо, конкуренты делают ставку на ИИ.

Источники:

8
1
8комментариев