avatarcommunity
NEUROVIBE9 месяцев назад

Meta представила Movie Gen: модель ИИ для создания высококачественного видео и звука

Meta анонсировала Movie Gen, комплекс передовых моделей искусственного интеллекта, способных генерировать высококачественное видео в разрешении 1080p HD с синхронизированным звуковым сопровождением. Это прорыв в области генеративного ИИ, значительно превосходящий существующие лучшие модели по ряду ключевых показателей. Несмотря на впечатляющие результаты, публичный доступ к Movie Gen пока не предоставляется. UPD: Добавил больше видео с примерами.

Movie Gen — это не одна модель, а целая система, включающая несколько взаимосвязанных компонентов. Наиболее мощным является модуль преобразования текста в видео, содержащий 30 миллиардов параметров и генерирующий видеоролики длительностью до 16 секунд с частотой 16 кадров в секунду (хотя возможен и вариант 10 секунд при 24 FPS). Полученное видео с разрешением 768 пикселей по ширине затем масштабируется до 1080p.

Отдельная 13-миллиардная модель, Movie Gen Audio, отвечает за создание высококачественного звука (48 кГц), идеально синхронизированного с видео. Звуковое сопровождение включает реалистичные звуковые эффекты, фоновые шумы и музыку, соответствующие контексту видео.

К ключевым возможностям Movie Gen относятся:

Достижение такого уровня качества стало возможным благодаря ряду инноваций: оптимизированной архитектуре Transformer, эффективному пространственно-временному сжатию и новым методам обучения. Обучение моделей проводилось на масштабном наборе данных, включающем лицензированные и общедоступные изображения и видео, хотя точный состав данных Meta не раскрывает, ссылаясь на коммерческую тайну. Вероятно, использовались данные из Facebook и Instagram, а также других источников.

В будущем Meta планирует опубликовать ряд бенчмарков для сравнительного анализа и дальнейшего развития этой области. Movie Gen демонстрирует значительный прогресс в создании реалистичного и универсального видео- и аудиоконтента с использованием ИИ, однако пока остается исследовательским проектом. Отсутствие голосового сопровождения обусловлено как техническими сложностями (синхронизация речи с движениями губ), так и опасениями злоупотребления технологией для создания дипфейков, особенно в преддверии важных политических событий.

Важно отметить, что Meta – организация, деятельность которой запрещена на территории Российской Федерации.

15комментариев