OpenAI взрывает индустрию ИИ новой моделью o3: гений или маркетинговый ход?

Конференция OpenAI "12 дней OpenAI" завершилась громким анонсом – моделью o3, демонстрирующей, по заявлениям разработчиков, невиданные ранее способности к рассуждению. Пока остальные анонсы – улучшения ChatGPT, генератор видео Sora и новые функции для подписчиков – выглядят эволюционными, o3 претендует на революцию в мире ИИ. Но оправдан ли этот ажиотаж?

image

image

OpenAI позиционирует o3 как модель уровня доктора наук, ссылаясь на впечатляющий результат в 87,5% в тесте ARC (тест на абстрактное мышление). Для сравнения, средний человек набирает около 85%, а предыдущие модели ИИ – около 50%. Ключевая особенность o3 – способность к самопроверке через цепочку рассуждений: модель планирует, анализирует ошибки и обосновывает решения. Чем больше времени на "размышления", тем качественнее результат, как и у человека.

Впрочем, за гениальность приходится платить. И дорого. Прогнать o3 на ARC-AGI стоит до полутора миллионов долларов! OpenAI не раскрывает точные цифры, но известно, что высокопроизводительный режим (high-compute) потребляет в 172 раза больше ресурсов, чем низкопроизводительный (low-compute) за $8689. Возникает вопрос: доступна ли такая мощь кому-то, кроме самых богатых корпораций? И не является ли вся эта шумиха просто хитрым маркетинговым ходом для привлечения инвестиций?

Пока доступ к o3 ограничен узким кругом учёных и экспертов по безопасности. Упрощённая o3-mini станет общедоступной лишь в январе 2025 года, а дата релиза полной версии покрыта мраком. Этот "эксклюзивный" доступ подливает масла в огонь скепсиса.

OpenAI также представила нейросеть Sora для генерации видео по текстовым запросам, изображениям или другим видео. Звучит многообещающе, но конкурент Veo 2, похоже, уже обходит Sora по качеству. К тому же, Sora доступна только по платной подписке и заблокирована в России.

Veo 2
Veo 2
Veo 2
Veo 2

Бесплатный ChatGPT получил режим Canvas для удобной работы с текстом и кодом, а также улучшенный поисковик с голосовым управлением, виджетами и интеграцией с браузером Chrome. Платные подписчики получили доступ к полной версии o1, распознаванию видео в голосовом режиме, "проектам" для организации работы с ChatGPT и интеграции с приложениями на macOS. За $200 в месяц предлагается безлимитный доступ к различным моделям и 500 быстрых генераций в Sora. Полезно, да, но революционно ли? Вряд ли.

O3 не только показала рекордные 87.5% в ARC-AGI, но и установила новые стандарты (SOTA) во многих других бенчмарках: SOTA по Frontier Math взлетел с 2% до 25%, на SWE-Bench модель набрала 71,7% (стартап с результатом 13,86% привлёк $200 млн инвестиций!), а ELO на Codeforces достигло 2727 – выше, чем у большинства программистов в мире. На GPQA и AIME o3 также показала значительный прогресс.

image
image
image
image

Но достаточно ли этого, чтобы считать o3 прорывом? Критики указывают на высокую стоимость вычислений и ограниченный доступ как на признаки пиар-кампании, а не реального технологического скачка.

image
image

Пока OpenAI хвастается o3, конкуренты не сидят сложа руки. Google показал превью конкурента o1, а компании второго эшелона готовятся выпустить свои версии "мыслящих" моделей. Эксперты предсказывают, что через несколько месяцев технологии, подобные o1, станут широко доступны.

o1 – пожалуй, единственное оставшееся преимущество OpenAI. В генерации видео и изображений компания отстаёт, а фишки конкурентов, вроде огромного контекста Gemini и продвинутого посттрейна Claude от Anthropic, OpenAI пока не освоила.

На этом фоне из OpenAI уходят ключевые фигуры – автор оригинальной GPT Алек Рэдфорд, технический директор и директор по развитию покинули компанию за последние три месяца. Возникает вопрос: сможет ли OpenAI удержать лидерство в условиях жесточайшей конкуренции и кадрового голода?

Анонс o3 вызвал бурную реакцию. Одни восхищаются прорывом и предвкушают новые открытия. Другие настроены скептически, называя тест ARC искусственным и нерепрезентативным, а ценник на o3 – запредельным.

Многие критикуют OpenAI за маркетинговый хайп и завышенные цены, призывая тестировать ИИ на реальных задачах. Часть комментаторов подчёркивает, что прохождение ARC не гарантирует наличие у o3 общего интеллекта, и выражает опасения по поводу этических последствий развития таких мощных технологий.

В целом, анонс o3 породил больше вопросов, чем ответов.  Время покажет, оправдает ли OpenAI возложенные на неё ожидания или это всего лишь красивый мыльная пузырь.

Источники:

17
17комментариев