«Нейросеть так не может. Но ты можешь». Мысли известного концепт-художника Фэна Чжу относительно нейросетей.
Пересказал для пользователей хаба некоторые мысли дизайнера из 110 эпизода рубрики Design Cinema.
Заранее извиняюсь за неточности перевода и настоятельно рекомендую всем интересующимся ознакомиться с полной версией видео по ссылке https://youtu.be/QTj1Y4JW-KI?feature=shared для более полного понимания позиции художника по этой теме.
После стандартного
приветствия в начале выпуска, многоуважаемый
Фэн Чжу рассказывает, чем
он занимался последний год: у него
возникли определенные вопросы, связанные с арендой помещения для своей школы, после
решения которых он взял перерыв на отдых.
Во время
перерыва он много путешествовал, общался
с коллегами и играл в видеоигры.
Я не
буду долго останавливаться на этой
части рассказа художника, можно только
порадоваться за человека, которому
удалось наконец-то отдохнуть.
Плавно подходя ближе к основной теме, Фэн поделился наблюдением: примерно за последние пять лет он стал замечать, что в работах новичков и студентов все меньше как такового «дизайна» и чего-либо интересного (в ориг. entertainment design).

Фэн называет эти работы «вторичным контентом» (в ориг. regurgitated content), когда сложно отличить один рисунок от другого и автор видео подчеркивает, что это почти тоже самое, что делает нейросеть, при этом эти работы начали появляться задолго до бума нейросетей; в дальнейшем этот момент будет раскрыт более подробно.
У человека не из индустрии сгенерированные работы при первом взгляде могут вызвать «вау-эффект», иногда попадаются несущественные ошибки у персонажей, на генерациях окружения ошибок побольше, но результат все равно может впечатлить.
Однако, Фэн Чжу добавляет, что для человека, знакомого с индустрией концепт-арта, особенно работающего над промышленным дизайном, нейросети выглядят слабо.
Перед тем, как ответить на вопрос: "Как быть лучше нейросети?", мистер Чжу решил взглянуть на то, в чем на данный момент нейросети проявляют себя неплохо. Автор не стал лукавить и выбирать какие-то изображения с артефактами, либо значительными дефектами, вместо этого выбрав обыкновенные средние генерации для примера с пинтереста (pinterest.com).
Сначала
я хотел добавить найденные автором
изображения отдельно, но в процессе
быстро понял, что в этом мало смысла,
потому что работы нейросетей выглядят
очень похожими друг на друга, поэтому
при желании, вы можете сами взглянуть
на какой-нибудь "дженерик нейроконтент"
и суть будет та же.

1.
Генерация
интересных форм
Нейросети способны сбалансировать формы в приятной для глаза последовательности, но без какого-либо нового уникального дизайна и истории.
Это относится и к окружению, и к персонажам.
2. Быстрая генерация образцов для вдохновения.
Это то, чем может пользоваться заказчик, чтобы помочь художнику понять, чего от него хотят. Иногда заказчики генерят совсем уж психоделические изображения, что наоборот может завести художника в тупик, но автор видео не стал относить это к существенным минусам, потому что это скорее вина заказчиков, которые сами не знают, чего хотят.
3.
Способность
генерировать разные художественные
стили.

Нейросети доступны для генерации как изображений в реализме, так и стилизации.
4. Хороший рендеринг.
Пока что у большинства сгенерированных изображений отчетливо виден след нейронки (ориг. ai-look), но это, скорее всего, исправят в течении следующего года — двух.
5. Способность решить приземлённые потребности в дизайне и творчестве.
Под этим Фэн имеет в виду, что некоторым компаниям и не нужен хороший дизайн. Как пример можно привести простые мобильные игры, которым нужны задние фоны для их проекта.
6.
Возможность
использовать для проектов с низкими
требованиями к дизайну.
Этот пункт очень похож на предыдущий. Нейросети используются для продуктов, где дизайн не является основным маркетинговым и продаваемым элементом.
7. Могут быть использованы людьми, которые не умеют рисовать.

Преимущество, которое является обоюдоострым клинком. Директора проектов могут передать своё видение, генерируя изображения, а не "рисуя скетчи на салфетках". Но иногда генерации не-художников крайне непонятны и выглядят как приход от наркотиков.
8.
Использование
миллионов изображений в качестве
источника.
Нейросети могут просматривать огромную базу чужих работ, гораздо большего масштаба, который способен охватить художник-человек. С этим есть определенные проблемы относительно авторского права, но это, вероятно, будет решено в будущем.
9.
Способность
научиться основам рисования.
Нейросети уже научены основам перспективы, освещения и композиции.
Человеку нужно все это освоить перед тем, как приступать непосредственно к дизайну и концепт-арту.
10.
Исправление
ошибок.

Различные ошибки генераций можно в конечном итоге исправить. Например, поначалу у сетей была проблема с генерацией рук и пальцев, однако эти дефекты уже исправляют и ошибок становится меньше.
11.
Экономически
выгодны.
Существуют как бесплатные варианты нейросетей, так и те, которые требуют подписку, что все равно обойдется дешевле, чем опытный дизайнер.
12.
Возможность
стать инструментом визуализации.
Автор видео отмечает, что рано или поздно нейросети станут использоваться в качестве одного из инструментов в арсенале художника.
AI will become a tool for designers - our experience will always be in demand.
Фэн Чжу использует последний пункт в списке сильных сторон нейросетей для раскрытия следующей своей мысли: сети станут очередным инструментом дизайнеров, от которых все также будет требоваться их опыт, как и до этого.
Мистер Чжу попал в индустрию приблизительно с середины 90-х годов и видел появление множества новых инструментов, каждый из которых вызывал фурор в индустрии дизайна. Всегда, когда появлялся новый способ создания концепта, он сначала принимался в штыки, но, в конечном итоге, его начинали использовать все.
Так было с Photoshop’ом, после его появления такая же ситуация произошла с Zbrush, затем с 3D-программами, аналогичное случилось и с техникой фотобаша. Нейросети автором воспринимаются также, он считает, что это не «искусственный интеллект» как таковой, а просто продвинутый инструмент создания коллажей, обученный основам рисования.

Каждый раз при появлении нового инструмента, дизайнером приходилось осваивать новые техники и улучшать свои навыки. К нейросетям также придется адаптироваться, поэтому нужно понимать, на что нейросеть способна, чтобы избежать создания вторичного контента (в ориг. regurgitated content).
You must upgrade your design skills.
Фэн Чжу показывает несколько сгенерированных изображений и вспоминает, что обозреваемые им работы учеников в Париже выглядели буквально как эти генерации. Все дело в том, что таких работ уже нарисовано невероятно большое количество и у нейросетей есть возможность использовать их в качестве источника.

Профессиональные художники тоже делают такие работы, однако есть существенная разница между работой новичка, либо генерацией нейросети и работой про.
Если взглянуть на составные части генераций, то можно отметить следующее: одна большая форма, несколько маленьких форм, представленных людьми и… все. Объяснения, как формы взаимодействуют между собой и механизмы их работы отсутствуют. Фэн отметил, что это может быть полезно на первой неделе работы над проектом, но затем приходит черед настоящего дизайна и использовать генерации проблематично. С персонажами ситуация похожая - в них отсутствует какая-либо история.
После рассмотрения сильных сторон нейросетей, Фэн Чжу переходит к вещам, которые нейронки создать не могут.
(В оригинале: "Can’t design functional interactions").
Художник приводит примеры из реального мира и работы его бывших учеников. Для начала он объясняет, что «функционирующее взаимодействие» - это вещи, которые работают, взаимодействуя друг с другом. Например, шасси самолёта.

Составные части посадочного шасси включают большое количество различных рычагов и гидравлики, которые работают вместе и эти взаимодействия нейросеть не понимает. Поэтому с задачей, например, создания шасси космического корабля, которое выдвигается при приземлении и имеет 6 колес, нейронка не справится.
Следующий пример, который приводит дизайнер — это Ford-Evos.

Нейросеть может хорошо генерировать формы, однако не умеет раскрывать их составные части (ориг. break lines apart).
Мистер Чжу быстро набросал простую схему раскрытия формы, над которой он работал в одном из прошлых проектов, с которой бы не справилась нейросеть.

Затем автор видео показал несколько вещей из реально жизни, которые включают в себя большое количество составных частей, каждая из которых расположена в логически правильном месте.

В развлекательном дизайне (в ориг. entertainment design) не требуется 100%-ая точность, однако даже приблизительное попадание в такую сложную форму для нейронок проблематично.
Следующий пример того, чего нейросети не способны создать — это головоломки.

После этого Фэн
Чжу показывает работу своего бывшего
ученика - Ричарда Пенг Ли.

На концепте изображено прикрепляемое к раскладному мобильному телефону устройство, выполненное в викторианском стиле, имеющее пазы для складывания линз. Кроме этого, приведен второй концепт, показывающий возможность убрать это устройство в кейс.
Good luck prompting THAT
В данным момент нейросети способны сгенерировать только форму, но они не знают, что внутри или снаружи неё.
Новая видео-нейросеть SORA может сгенерировать пролёт сквозь здание, однако заметно, что в момент попадания внутрь сгенерированного помещения его интерьер перестает совпадать с видом снаружи.
Фэн приводит в качестве примера еще одну работу своего ученика на которой показан многоуровневый дизайн внешней и внутренней части палубы корабля.

На данный момент настолько сложный многоуровневый дизайн нейросетям не под силу, однако это одно из основных требований, предъявляемое к концепт-художникам.
(В оригинале: "Can't combine multiple interactions").
Этот пункт немного совпадает с предыдущими двумя. Под этим Фэн Чжу имеет в виду, что нейросети не могут найти связь в сложном взаимодействии предметов между собой при создании окружения.

В качестве примера автор привел очередную работу своей ученицы, на которой изображен дизайн дамбы, вдохновлённый Панамским каналом и взаимодействие предметов внутри неё.
Для дополнительного примера Фэн показывает свою старую работу над дизайном рук генерала Гривуса, когда уже одобренный директором дизайн пришлось менять из-за просьбы Джорджа Лукаса.

(В оригинале: "Can't design multiple elements in the same scene").
Этот недостаток уже в большей степени относится к использованию нейросетей на стадии продакшена, а не концепта.
Мистер Чжу показывает несколько иллюстраций, содержащих большое количество взаимосвязанных элементов внутри.


Все элементы внутри этих изображений работают вместе, чтобы рассказать историю. Нейросети могут генерировать толпы, но не такого уровня, который бы позволял отобразить видение и направление проекта.
(В оригинале: "Can't design tiered focal points & reveals").
Очень сложная задача, которую редко доверяют ученикам и студентам, поэтому для объяснения этого момента, Фэн показывает "Стального гиганта" и "The Legend of Zelda: Breath of the Wild".


В большинстве произведений все самые вкусные моменты не бросают в зрителя прямо в самом начале, перед этим необходим определенный период накопления предвкушения.
В данный момент нейронки не могут создать такой опыт. Даже если попытаться это напромптить, для этого все равно потребуется опыт в дизайне.
(В оригинале: "Can't refine details").
Автор видео напоминает, что дизайн заключается не только в одном поиске подходящей формы, но и её улучшении и дальнейшей работы с ней.
Для разъяснения Фэн Чжу предоставляет Audi R8 вместе с её интерьером и еще один концепт своего ученика.


Такой уровень детализации достигается колоссальным уровнем совершенствования и правок первоначальной формы.
(В оригинале: "Can't create consistency in specific IPs")

Название говорит само за себя, Мистер Чжу вспомнил Persona 5, которая имеет новый визуальный стиль, будучи уже пятой частью в серии.
(В оригинале: "Can't integrate existing designs").
Для объяснения этого недостатка Фэн приводит более близкий к практике пример.

Над проектом часто трудятся многие художники и дизайнеры, поэтому директор проекта часто смешивает вместе их работы на свое усмотрение.
Вполне может случиться, что потребуется, скажем, заменить три большие черные фигуры на персонажей, которых нарисовал другой художник, но их нужно будет развернуть спиной.

Это относится не только к персонажам, а к любому элементу окружения.
Это название тоже достаточно говорящее, все примеры основаны на добавлении визуального смысла в результат работы сценаристов.
В качестве примера использовано Прибытие(2016).

Дизайнеры использовали фигуру круга в качестве основной темы.
Я опущу пример с "Зоотопией", который приводит автор, потому что на мой взгляд одного примера уже достаточно для разъяснения этого момента.
(В оригинале: "Can't provide art direction").
Нейросеть не принимает решения и не может выбрать и придерживаться какого-то конкретного визуального стиля для создания проекта.

В качестве примера автор приводит несколько игр, каждая из которых разворачивается в фэнтезийном мире, но имеющие при этом уникальный стиль. И различие между ними обеспечивается выбором творческого направления (ориг. "art direction").
В результате работы концепт-дизайнеры находят свой характерный стиль. Независимо от количества генераций свой стиль нейросеть не выработает.

(В оригинале: "Can't design human experiences").
Фэн говорит, что прямое значение этого пункта: нейросеть не знает, как рассказать историю.

Другое значение заключается в том, что многие проекты были созданы благодаря человеческой командной работе. Некоторые самые запоминающиеся вещи возникают в момент простого общения с коллегами.
В конце добавлю список, включающий в себя все выделенные автором недостатки нейросетей.
На этом Фэн Чжу заканчивает почти полуторачасовой разбор нынешнего положения нейросетей в индустрии концепт-дизайна.
Благодарю всех прочитавших мой перевод / пересказ и еще раз побуждаю ознакомиться с оригинальным видео.
Делитесь своим мнением по поводу нейросетей в комментариях.
И если заметили в тексте ошибки любого рода - не стесняйтесь написать об этом в комментариях или дискорд канале хаба.