Искусственный интеллект

,

Генеративные медиа

,

Цифровое искусство

Один миллиард Рембрандтов? ИИ, генеративные медиа и история искусства

Пока художники учатся сотрудничать с искусственным интеллектом, медиатеоретики уже оценивают, какое место получившиеся изображения займут в истории искусства, кто их настоящий автор и как должно измениться художественное образование в эпоху нейросетей. Теоретик цифровой культуры Лев Манович рассказал об этом на лекции в Музее криптографии, а мы в сотрудничестве с музеем публикуем самые интересные фрагменты его выступления

Лев Манович

Эксперт в области цифровой культуры и искусства, теории медиа, автор 15 книг и 180 статей, профессор Computer Science в Городском университете Нью-Йорка, основатель исследовательской лаборатории Software Studies Initiative. Живёт и работает в США

Лекция Льва Мановича на междисциплинарной конференции Screenshot_2023 в Музее криптографии. Москва, март 2023

Начиная с июля прошлого года мы живем на заре очередной революции визуальной культуры. По крайней мере так описывали происходящее такие солидные издания как Financial Times, New York Magazine или New York Times. Эта революция стала возможна благодаря новым инструментам, позволяющим создавать изображения при помощи искусственного интеллекта. Эти инструменты — Midjourney, Stable Diffusion, RunwayML — используют одну и ту же систему нейронной сети, обученной на огромном количестве изображений.

Примечательно, что о революции пишут самые разные СМИ, например, New York Times — очень консервативное издание, поскольку средний возраст его читателя — порядка 65 лет. Обычно они немножко огрызаются в адрес цифровой культуры, но сейчас даже эти журналисты стали восторженно писать про то, как искусственный интеллект создаёт новые изображения. И тогда люди подумали: ну, ладно, эти инструменты могут стать подспорьем для массовой визуальной коммуникации, но что они могут дать художникам? Тем не менее, сейчас ведущие музеи и галереи, например Gagosian, открывают выставки работ, созданных при помощи нейросетей — даже те галереи, что раньше выставляли только масляную живопись и немного инсталляций. То есть в арт-мире уже ни у кого нет сомнений, что ИИ — это тоже художественное медиа.

Лев Манович. Тестовое изображение, созданное при помощи нейросети Midjourney v5, 2023

Сначала мне бы хотелось немного поговорить о терминах. В контексте изображений, созданных при помощи нейросетей, используются термины: «генеративное изображение», «генеративное медиа», «AI-изображение» — для меня всё это синонимы. Термин «генеративные медиа» установился несколько лет назад, правда для меня он недостаточно специфичен. Конечно, я не говорю, что нам надо прекратить его использовать. Но когда мы работаем с компьютерной графикой, компьютер ведь тоже что-то генерирует. В чем же тогда особенность работы с ИИ? Мне самому очень нравится другой термин — Statistical Image, «статистическое изображение». Он был предложен медиатеоретиком Полем Вирильо в работе тридцатилетней давности про компьютерное зрение. Однако мне он нравится, поскольку именно идея статистики отличает ИИ от других медиа, ведь нейронные сети обучаются на миллионах разных картинок. Или мне еще нравится Probabilistic Image —"вероятностное изображение", потому что суть работы с нейронными сетями в том, что они создают картинки в соответствии с вашим текстовым запросом, то есть те, которые, вероятно, соответствуют тому, что вы хотели получить.

Раздел для тех, кто новичок в теме изображений, создаваемых искусственных интеллектом

Для тех, для кого эта тема совсем новая, я поясню, как это работает. Вы пишете текстовый запрос (промпт) и искусственный интеллект генерирует изображение, подходящее под ваше описание. Кроме того, вы можете кроме описания нужной вам картинки прибавить фразу «in a style of» или «by (someone)» — и ИИ выдаст вам картинку, которая более-менее успешно будет стилизована в манере этого художника, фотографа, дизайнера и т. д. Впервые познакомившись с этой технологией прошлым летом, я сам, мои знакомые художники, искусствоведы, медиаведы — все сошли с ума, соцсети оказались переполнены их картинками. И то, что компьютер способен делать такие вещи, мне представляется невероятной революцией. Правда даже если вы опишете желаемое изображение очень подробно, не факт, что вы получите то, что ждёте. ИИ часто ошибается, но для меня, как для художника, в этом и есть главная прелесть нашего взаимодействия. Потому что любое медиа, будь то холст, гравюра или экспериментальное кино, неизбежно вносит свои поправки в замысел художника. Также и ИИ хотя не всегда правильно вас понимает, но при этом может выдать что-то интересное. Но, конечно, для индустрии массовых коммуникаций эти ошибки — проблема, которую предстоит решить.

Лев Манович и Екатерина Маслова. Фотографии, 2022—2023
148 изображений, сгенерированных Midjourney v 4 одним запросом и по именам 148 фотографов

Вот так выглядит интерфейс одного из самых популярных инструментов, он называется Midjourney. Вы используете его пока что не напрямую, а через специальную социальную сеть, которая называется Discord. Дело в том, что его разработчики, которые называют себя не компанией, а лабораторией, создали этот инструмент, чтобы люди учились друг у друга. Поэтому процесс работы с этим инструментом происходит публично: ты листаешь страницы разных пользователей, смотришь, что они пишут и поначалу просто копируешь их запросы. Я также начинал учиться, воспроизводил их промпты и потихоньку начинал в них что-то менять. Вспомним, что основой художественного образования всегда было копирование: вы приходите в мастерскую и обязательно начинаете с того, что воспроизводите чужие образцы и лишь потом начинаете делать что-то своё. Процесс обучения занимает от нескольких часов до нескольких лет.

В ответ на ваш запрос ИИ выдает вам сразу несколько картинок, и вы можете выбрать ту, что вам нравится больше и дальше её трансформировать. Какие-то юзеры создают что-то в эстетике гравюры, другие много времени тратят, чтобы получить фотореалистичное изображение. Однако можно заметить — что это медиа в гораздо большей степени, чем фотоаппарат или перо, додумывает вашу идею. Иногда он вас не понимает, поэтому придумывает что-то, о чем вы его не просили. Кроме того, если посмотреть на детали изображения, которые вы не прописывали в своём описании, ИИ создаёт их сам. Вы даёте ему намёк, а он развивает идею, привносит больше информации — иногда это хорошо, иногда плохо, поскольку изображение создаётся статистическим способом на основе миллионов существующих изображений, и результат отражает более-менее массовые вкусы. Тем не менее, это хорошая возможность наблюдать вкусы различных культурных и социальных групп.

Статистическое изображение как форма медиаискусства

Midjourney, Stable Diffusion, RunwayML, Adobe Firefly, а также другие инструменты могли появиться только после того, как достаточное число изображений, произведений искусства, иллюстраций, концепт-артов, кадров из фильмов и видеоигр стали доступны в интернете. То есть появилась база, на основе которой стало возможно обучить нейросеть. То есть мы можем назвать первой стадией появление самой цифровой культуры. Кроме того, еще одной важной стадией стало развитие социальных сетей, где люди привыкли делиться своими картинками и текстами. В этом смысле генеративные медиа — это еще один пример революционной парадигмы, которая стоит на плечах цифровой вселенной, создававшейся последние пятнадцать лет. Еще пятнадцать лет назад эти инструменты попросту не могли возникнуть, потому что в интернете не было достаточно материала для обучения нейросети. Но это еще не всё: почему я говорю, что ИИ — это не просто еще одно медиа, подходящее для создания искусства. Потому что с самого начала ИИ умел более или менее успешно имитировать сотни разных медиа, то есть это постмедиа, метамедиа, которое включает в себя все предыдущие медиа. Мы можем имитировать различные типы съемки, ломографию, поларойд, любые разновидности рисунков, стиль такой-то иллюстрации в таком-то журнале. Мы увидим, что Midjourney может отделить стиль от содержания в произведениях указанного вами художника, а потом накладывать этот стиль на любое содержание.

Лев Манович. Из серии «Meta abstractions 004», май 2023
Изображение, созданное нейросетью Midjourney v 5.1 и отредактированное в Lightroom

И если мы посмотрим самые популярные слова, используемые в промптах, то окажется, что они относятся не к содержанию картинки, описывают не что должно быть изображено, а как изображено, то есть именно к характеристикам медиа: style, realistic, black, lighting, render, octane, high. Отсюда я делаю вывод, что генерация изображений искусственным интеллектом — это форма медиаискусства, поскольку большинство пользователей используют именно эстетику медиа в качестве основного содержания: Unreal 5, трассировка лучей. фотография 35-мм, живопись маслом, объемное освещение, безумная детализация, фотореализм, 8k — эти и другие эстетические эффекты часто находятся в центре внимания пользователей. Компьютер и сам по себе является мета-средой, поскольку там можно формировать различные медиа, но теперь вам не нужно как в Фотошопе самому все отрисовывать, менять кисточки и тратить сотни часов — компьютер способен сгенерировать тысячу различных стилей и создать эффекты, которых раньше просто не существовало.

Для меня же как для теоретика и историка важно, что когда появляются новые способы коммуникаций, запоминания или воспоминания, они заставляют нас по новому взглянуть на наши самые базовые концепции и понятия, поэтому мне бы хотелось посмотреть на изображения, создаваемые ИИ в контексте истории искусства.

ИИ в контексте истории искусства

Давайте подумаем о роли копий и оригинала в нашей культуре, и как это работает в эпоху нейросетей. Изображение создаётся ИИ посредством текстового запроса. Вы пишете текстовое описание — и искусственный интеллект выдает вам картинку. Пользователи могут видеть, как другие люди набирают свои запросы в каналах Discord, — и таким образом учатся работать с ИИ, создавать собственные запросы и модифицировать их. И вот, например, я вижу как некий человек — я не знаю кто — печатает свой запрос. Я вижу, что это интересный запрос и хочу его скопировать. Я могу скопировать запрос целиком и дальше менять какие-то слова, но я могу скопировать детали и собрать свой собственный запрос из таких чужих фрагментов — описаний эффектов, освещения, цвета — которые я заимствую у другого человека.

Копирование всегда было сущностью человеческой культуры, но не просто копирование, а творческое преобразование копируемого материала. То же самое происходит в эволюции: она представляет собой бесконечное копирование биологического материала, куда постоянно вкрадываются различные ошибки — таким образом появляются новые виды живых существ. Мы можем вообразить себе некого художника, который занимается копированием, но в то же время создаёт нечто новое — чисто технически это можно назвать ошибкой, но мы называем это гениальностью, хотя принцип точно такой же.

Лев Манович. Без названия, 1981—82
Бумага, цветные карандаши, 27,5 × 21 см

Синтез изображений, осуществляемый ИИ, можно назвать искусством копирования: вы бесконечно запускаете процесс генерации новых изображений, пытаясь исправить свой первый вариант — то есть бесконечно тыкаете на кнопку «Make Variations». Мне неоднократно говорили, что если двести раз подряд провести эту операцию, получится что-то интересное. Однако когда мне удавалось сделать что-то интересное, я сам тут же видел, что меня кто-то копирует. То есть вы постоянно копируете и изменяете собственные изображения, заимствуете у других, а они, в свою очередь, заимствуют у вас. Важно, что здесь мы имеем дело с массовой культурой — этот механизм используют миллионы людей.

Многие из этих людей используют в качестве референсов работы художников-иллюстраторов, анимационных студий, видеоигры, голливудские фильмы. В каком-то смысле здесь нет ничего нового, это очень похоже на такие ресурсы как DeviantArt и ArtStation. Уже пятнадцать лет пользователи DeviantArtделятся друг с другом изображениями, созданными по мотивам каких-то уже существующих произведений. Например, пытаются сделать что-то похожее на работы какой-нибудь известной анимационной студии. Они копируют и меняют по своему вкусу какие-то детали. Например, я задаю запрос «Blade Runner» и сайт мне выдает 27 тысяч картинок, которые пользователи создали на основе эстетики фильма Ридли Скотта. Мы можем вспомнить FanFiction или FanArt —  они еще старше. Таким образом культура креативного копирования существовала всегда, однако именно цифровые инструменты сделали это явление массовым.

Лев Манович. Из серии «После Брейгеля», 2023
Изображение, созданное нейросетью Midjourney v 5.1, пост-обработка в Lightroom

Однако наш вопрос заключается о том, чем изображения, созданные ИИ, отличаются от тех, что создавались в истории искусства, также основанной на копировании и варьировании, но в гораздо более скромных количествах? Например, Питер Брейгель за свою жизнь создал порядка пятидесяти работ, но у него была большая семья. Братья и сыновья художника еще при его жизни и с его согласия, а потом после смерти художника создали множество копий его картин. То, что мы называем историей искусства — это один оригинал и десятки, может быть, сотни копий. Тогда почему приходя в музей, вы этого не замечаете? Потому что в каком-то смысле музей это скрывает. Музей транслирует вам модернистское представление об истории искусства, помещая на свои стены художников, которые отличаются друг от друга: вот Рубенс, вот Веронезе, там Суриков, а тут Малевич. Но вы не видите их бесконечные копии.

Тогда новый вопрос: а что тогда действительно нового в этой форме копирования, которую предоставляет нам ИИ. Конечно, вы можете управлять им по-разному: давать ему видео, чтобы получить новое видео, задать ему картинку или звук. Но на данный момент популярнее всего то, что называется text to image, то есть вы создаёте текстовый запрос и получаете картинку или анимацию. Дело в том, что в современном обществе почти все люди умеют писать и читать. А вот рисовать или делать хорошие фотографии — далеко не все. Мы могли бы представить какой-нибудь авангардный вариант, где пользователь бы использовал в качестве запроса музыку, а в ответ получал архитектуру. Но пока все работают с текстовыми запросами. Как я уже говорил, пользователи могут видеть, как другие набирают свои запросы в каналах Discord и воспроизводить их целиком или частями. Так учатся новые пользователи, так же учился и я. То есть вместо того, чтобы трансформировать картинку в Photoshop’е, соединяя части найденных в интернете изображений в собственный коллаж, мы работаем с текстом. Разные части этого текста могут описывать разные части изображения, как, например, в художественной литературе мы видим описание внешности Анны Карениной или Мадам Бовари. Эти описания менее структурны и более свободны, чем те, что создаём мы. Наши больше похожи на программирование. Скажем, отдельно мы описываем желаемое освещение, отдельно мы даём референсы на интересных нам по стилю художников, отдельно пишем very detailed или epic composition, и таким образом мы можем разобрать изображение на части, как «лего», и эти части скопировать. Это и есть, главное, на мой взгляд отличие от предыдущих культур копирования, среди которых есть и история западного искусства.

Отношения изображения и текста в синтетических медиа. По мотивам Ролана Барта

Десятилетиями в гуманитарных науках считалось, что возможности описать изображение словами ограничены. Это было очень важным допущением, которое принималось по умолчанию современной культурой. В частности, модернистское искусство старалось всеми способами избавиться от текстовых нарративов, чтобы вместо них исследовать собственный визуальный язык. У Малевича, Кандинского и многих других модернистов есть картины, которые оставлены «Без названия». Untitled — это, наверное, самое распространённое название произведений современного искусства. Отказ от названия подразумевает отказ от семантики, от попытки навязать зрителю то, что он должен увидеть в произведении.

Лев Манович. Из серии «Мой любимый век», 2022
Изображение, созданное при помощи нейросети Midjourney

Эта идея не осталась только в поле визуального искусства. Например, всеми нами любимый теоретик культуры Ролан Барт в 60-е годы прошлого века замечает, что подписи к газетным фотографиями фиксируют значение фотографии, чтобы ограничить её потенциальную двусмысленность. Что же происходит, когда люди начинают использовать инструменты, которые им даёт искусственный интеллект, синтетические медиа? А происходит, я бы сказал, нечто обратное. Я пишу свой запрос и получаю четыре подходящих под него картинки. Если мне не нравится, я могу сгенерировать еще и еще. То есть одно и то же описание дает жизнь бесконечному числу изображений. Еще важный момент — Midjourney или Stable diffusion обогащают вашу короткую фразу, усиливают, интенсифицируют, развивают её, привнося детали, атмосферу, ассоциации и настроения, которые вы не закладывали, которые вы даже не могли себе представить. Всё это переворачивает наше предположение, что текст ограничивает значение изображений, поскольку один и тот же текстовый запрос можно использовать для создания бесконечного числа изображений — каждый раз будет возникать новый визуальный мир.

ИИ — это инструмент или соавтор?

Когда я стал постить собственные картинки, сгенерированные при помощи ИИ, то всегда писал Lev Manovich + Midjourney. И кто-то из моих читателей однажды прокомментировал: «Ну, нет, вообще-то от тебя здесь один процент, а от ИИ — 99 процентов». Сегодня у нас уже есть дистанция в 8−9 месяцев, и мы можем попытаться ответить себе на вопрос: ИИ — это твой инструмент или соавтор? Разумеется, этот ответ — it depends. Наш телефон со своей прекрасной камерой — это соавтор, наше перо — тоже соавтор. Одна из историй в истории культуры — это история автоматизации. Сначала рисовали от руки, затем Дюрер придумал «перспективную машину». Потом была изобретена camera lucida, а за ней — фотография. Конечно, это новая степень автоматизации, когда ваше текстовое описание превращается в картинку, и можно говорить, что машина играет всё большую роль в создании произведений искусства. Но это началось не сегодня. Это началось даже не вчера.

Лев Манович. Из серии «Архитектура Снежной планеты», 2022
Изображение, созданное при помощи Midjourney Image Synthesis AI

Один вариант — когда я пытаюсь получить нечто конкретное, ИИ меня не понимает, однако выдаёт нечто с моей точки зрения интересное. Другой вариант — когда коммерческий иллюстратор также пытается получить что-то конкретное и часами мучается, чтобы добиться нужного для себя результата, например, фона для какой-нибудь видеоигры. Мы видим, что он контролирует ИИ гораздо сильнее. То есть правильный ответ на наш вопрос: ИИ — это не «инструмент», и не «соавтор», а целая вереница разных возможностей.

Когда Тарковский создавал свои фильмы, обычно он даже не смотрел в камеру, он доверял своему оператору. Но когда снимали «Сталкера» — вы помните эту историю — весь материал оказался засвечен, пришлось переснимать — и Тарковский начал заглядывать в кадр, и это стало для оператора большой проблемой. Так что я бы сказал, что произведения искусства всегда создавались в коллективе. Этот миф — об одиноком гении, который всё делает сам — возник в эпоху романтизма. И именно из-за этого мифа художественный мир десятилетиями не хотел принимать цифровое искусство, как не хотел принимать фотографию. По-настоящему, фотография стала признанным медиа только в 1970−80-е годы. Конечно, если за художника работает машина, непонятно, за что ему нужно платить и за какие заслуги возводить этого художника на пьедестал, однако некоторые авторы, такие как Энди Уорхол, прекрасно на этом сыграли.

Как должно измениться художественное образование в эпоху ИИ?

Самый простой ответ на этот вопрос: чтобы работать с ИИ, нужно учить историю искусств, тренировать глаз, ходить в музеи, освоить Photoshop. Это и правда так. Поскольку наступает эпоха, когда любой человек может сделать хорошую картинку, профессионалами будут те, кто в состоянии сделать очень-очень хорошую картинку, то есть довести её до ума в правильном направлении. Когда мои коллеги начали с восторгом выставлять свои картинки в соцсетях, мне было очень стыдно, поскольку эти картинки были ужасны. Потому что нельзя сказать: вам нужен просто концепт, а ИИ сделает всё остальное, нет, вам нужен глаз, который увидит, как трансформировать композицию и свет. Так что в этом смысле художественное образование становится еще более важным, если вы хотите быть конкурентоспособным в этом поле.

Лев Манович. Из серии «Meta abstractions 001», май 2023
Изображение, созданное нейросетью Midjourney v 5.1 и отредактированное в Lightroom

С другой стороны, мы видим стремительный, ужасающий прогресс. И, наверное, довольно скоро одна нейросеть будет создавать изображение, а вторая ей советовать, как улучшить композицию. Но на ранних периодах развивать визуальные знания будет полезным.

Однако самое полезное — это знание истории культуры, те самые референсы, которые мы можем дать нейросети. Мы можем взять идею XV века или что-то из ранних работ Кабакова, но их надо знать, поскольку в противном случае наружу будет выходить массовое сознание, и у вас получатся красотки с накачанными бюстами. Так что самое важное — это даже не обучение глаза, а обучение мозга. Знаете, на Западе гуманитарии постоянно хнычут, что никто не идёт изучать историю искусства или английскую литературу — потому что никто не хочет потом сидеть без работы. Но сейчас, я полагаю, именно эти знания могут оказаться применимы, поскольку люди, у которых есть культурная память, смогут создавать более интересные вещи.

При этом вам не обязательно создавать новые нейросети с нуля, нейросеть может быть обучена на миллионах примеров массовых изображений, но достаточно дать ей 40−50 своих картинок и буквально за несколько часов она выработает свою модель. Кастомизация пока не такая простая, но она возможна и станет еще проще в самом ближайшем будущем. Тогда можно будет вынуть майонез из салата и питаться здоровой пищей. Однако для этого вам сначала придётся выкинуть из собственной головы котиков, обнажённых красоток и вторичное концептуальное искусство, а вместо этого дрессировать свою память, своё воображение и свои культурные навыки.

Лев Манович
2023

Посмотреть лекцию целиком: