Сергей Полин и Яков Сапаров Сергей Полин и Яков Сапаров Фото: Андрей Титов

Что такое «Нейрохудожник»?

В начале сентября все подземные переходы Иннополиса превратились в своеобразную картинную галерею. Урбанистические пейзажи, созданные генеративным искусственным интеллектом по фотографиям города, — проект мэрии и молодого стартапа «Нейрохудожник». Его основали пятеро студентов, когда им не было и 20 лет. Проект, позволяющий любые каракули и быстрые скетчи превращать в полноценные картины в стиле известных художников, быстро заметили. Ребят стали приглашать на мероприятия, и спустя два года они уже стали резидентами одновременно ОЭЗ «Иннополис» и казанского IT-парка, провели перформанс в казанской галерее «БИЗОН», а также привлекли 10 млн рублей инвестиций от одного из фондов на XVIII Российском венчурном форуме. Прокачался и сам продукт: из продвинутой «рисовалки» он превратился в инструмент, позволяющий генерировать любые изображения, не задумываясь над сложным описанием-промптом. О том, что дальше, рассказали сооснователи проекта, Сергей Полин и Яков Сапаров.

— Сергей, Яков, когда мы с вами в прошлый раз встречались на перформансе в галерее «БИЗОН», вы еще не были миллионерами…

Сергей: Ну такие уж миллионеры… пока рублевые (смеется). Но надо же с чего-то начинать.

— Тогда начнем с начала — с основания стартапа, самой идеи. Расскажите, пожалуйста, как вам пришло в голову, что нейросеть должна работать не по текстовому описанию, а прокачивать скетчи?

Яков: Мы не пытались сделать революцию в мире генеративного ИИ. Вначале мы подумали, что было бы неплохо немножечко дополнить туризм в Иннополисе: создать физическое пространство, куда могут прийти туристы и вместо скучной открытки сгенерировать себе уникальную картинку в виде полароида. На этой идее мы — два первокурсника — и познакомились, выступили на хакатоне и выиграли.

В процессе поняли, что у каждого из нас есть свой навык, необходимый для создания продукта. У Сережи, например, — фулстек-разработка, у меня — машинное обучение, у Андрея, нашего сокомандника, — продуктовый дизайн. Этот симбиоз привел к тому, что мы можем экспериментировать со всем, чем мы хотим. У нас есть время, ресурсы, а самое главное — амбиции для того, чтобы чего-то достичь. Фраза банальная, но нам казалось, да и кажется, что мы не ограничены ничем, кроме своих идей.

— А как же средства? Или в Университете Иннополис настолько хорошие стипендии?

Яков: Средства идут в бой, когда ты пытаешься добиться чего-то совершенно нового.

Мы не могли себе позволить создать свою нейросеть: во-первых, у нас не хватало знаний, во-вторых, потому что это действительно очень дорого — не у всех крупных исследовательских лабораторий хватает ресурсов. Поэтому мы взяли open-source-решения, а университет открыл нам доступ к серверам, чтобы мы могли поэкспериментировать. Сделали технологию прямо на наших ноутбуках, которая умеет понимать, что рисует человек, и достраивать изображение.

Сергей: В тот момент на рынке царили GAN — генеративно-состязательные нейросети. Они позволяли рисовать, но без энтузиазма, архитектура плохо понимала, чего человек хочет, и могла выдавать разве что абстрактные картинки. И однажды мы увидели, как NVIDIA использовала эту технологию, показывая, как из какого-то наброска получаются классные пейзажи. Но эта нейронка работала только с пейзажами, а Яков заявил, что может так же, но с диффузными моделями. Они понимают, что человек пытается нарисовать, в каком стиле, как эти стили можно смешивать. Получилось создать классные изображения.

— Как это работает? Если простым языком.

Яков: Простым сложно… Представьте, что вы с улицы заходите в темную комнату. Сначала ничего не видите, потом появляются очертания объектов — и вы понимаете, что где-то в глубине стоит, наверное, стол. Постепенно адаптируясь к темноте, вы понимаете, какие у него размеры, форма, где точно он стоит. С диффузными моделями то же самое: это итеративный процесс, когда из непонятного рандомного набора пикселей убирается шум и получается изображение.

Мы сделали демо-версию, даже не ожидая, что она будет хорошо работать. Но все получилось, людям понравилось. Модель научилась понимать, что рисуют пользователи, какую композицию они задумали, и пытается из этого собрать настоящую картину. Тогда мы отобрали несколько известных художников, интересных разным категориям людей. И запустили проект.

Генерация по запросу «Нейрохудожник» Генерация по запросу «Нейрохудожник»

— Начали с университета?

Яков: Да, в апреле прошлого года мы поставили в Университете Иннополис стенд с QR-кодом, который вел на наш сайт, где можно было порисовать и получить картину. И мы увидели, что людям нравится, они повторяют сессии. Потом связались с туркомпаниями, которые водят экскурсии по Иннополису, они это сразу подхватили. Для них это была дополнительная цифровая технология, которую можно было просто продемонстрировать всем желающим — как беспилотные автомобили и роверы-доставщики. Про все остальное обычно говорят, а не показывают.

Сергей: Мы даже выставку делали. Пользователи могли отправить свои картины на конкурс, мы их публиковали в соцсетях. Те, которые набрали больше всего лайков, распечатали и сделали публичную выставку. Всю ночь — с шести вечера до пяти утра — вешали картины на ниточки и думали: что мы вообще делаем? Это точно стартапная жизнь?!

Университет помог организовать целую лекцию про искусство и генеративные ИИ, позвали туда Льва Переулкова. До открытия генеративного ИИ он был уличным художником, а сейчас рассказывал, как использует нейросети в своих работах, что он видит в будущем, как искусство будет трансформироваться. Был солдаут!

Яков: Ничего не… солдаут, потому что мы ничего не продавали. Мы пригласили людей просто прийти послушать.

Сергей: Да, но мы собрали полный зал, битком. Потом мы поняли, что надо масштабироваться. Попали на конференцию «Россия – исламский мир» — там на стенде был фурор. Наверное, за сутки генераций 700! Появились первые заказы.

«Мы попробовали сделать так, чтобы модель сама предлагала множество различных вариантов, причем каждый параметр можно было сразу же визуально контролировать» «Мы попробовали сделать так, чтобы модель сама предлагала множество различных вариантов, причем каждый параметр можно было сразу же визуально контролировать» Фото: Андрей Титов

Зарождение бизнеса

— Это стало бизнес-проектом?

Сергей: Идея полноценного бизнес-проекта пришла чуть позже. С «Нейрохудожником» мы выиграли студенческий хакатон в Университете Иннополис, выиграли грант как студенческий стартап от Российского венчурного форума. Получаем 10 миллионов рублей от фонда Daily Challenge — и через несколько минут об этом пишет Forbes. Мол, «Нейрохудожник» — самый молодой стартап, который попал в топ-100. А там были стартапы, которые по 10 лет делаются, у некоторых уже огромные продажи — и тут мы.

Но везде нам говорили, дескать, ребята, все это классно, но нужно другое — чтобы ваш генеративный ИИ мог помогать бизнесу развиваться, сокращать косты и так далее.

В августе прошлого года мы зарегистрировали компанию, прошли отбор в бизнес-инкубатор казанского IT-парка, познакомились с очень крутыми экспертами, в том числе бывшим вице-президентом Mail.ru Group Андреем Табуринским и Ильей Степановым, который вместе с ним основал венчурную компанию Daily Challenge. Буквально через пару дней они позвали в свой акселератор — для больших стартапов, которые уже на пороге первой выручки. А мы сидим такие: Якову 18 лет, мне 20, а нас зовут в акселератор международных стартапов!

Яков: Тогда мы на самом деле даже не понимали до конца, насколько это кардинально изменит ход событий.

Стало ясно, что надо думать шире. У нас нет модели с текстовым запросом, но есть «рисовалка». Как можно ее реально использовать в бизнесе, чтобы иллюстраторы, дизайнеры, художники и все остальные могли просто очень быстро им пользоваться? Нужно собирать запрос как конструктор. Сейчас происходит как — пользователь оказывается перед чистым листом, где ему нужно написать огромный реферат, что ему нужно сгенерировать. Как нейронка интерпретирует его промпт — большой вопрос: чаще всего теряется контекст, приходится дописывать запрос несколько раз с нуля — это сложно и долго. Мы попробовали сделать так, чтобы модель сама предлагала множество различных вариантов, причем каждый параметр можно было сразу же визуально контролировать.

Сергей: Эффект первых айфонов: убираем клавиатуру как инструмент и делаем инструментом генерации палец! Например, хочешь сгенерировать автомобиль. Вводишь слово «машина», и сервис с помощью визуального конструктора помогает подобрать параметры — это будет пикап, кабриолет или, допустим, минивэн, какого года, какого цвета и так далее. А под капотом там три большие языковых модели, которые мы модифицировали, они задействуются в зависимости от задач и сами предсказывает, какие именно параметры стоит предложить пользователю.

Яков: Это контекстные подсказки. Причем такие, чтобы не надо было каждый раз лезть в словарь, чтобы понять, как на английском называется порода собаки с красивыми ушами, которая появилась у тебя в голове. Если мне предложат выбрать собак разного размера и разных пород, я сразу найду среди них нужную мне. Более того, большая языковая модель обладает теми знаниями, которых у меня самого нет. Я генерирую кенгуру — оказывается, у них тоже есть разные породы! Это для меня было открытием.

«Например, хочешь сгенерировать автомобиль. Вводишь слово „машина“, и сервис с помощью визуального конструктора помогает подобрать параметры — это будет пикап, кабриолет или, допустим, минивэн, какого года, какого цвета и так далее.» «Например, хочешь сгенерировать автомобиль. Вводишь слово «машина», и сервис с помощью визуального конструктора помогает подобрать параметры — это будет пикап, кабриолет или, допустим, минивэн, какого года, какого цвета и так далее» Фото: Андрей Титов

— А что за модель там? На русском?

Яков: Большая языковая модель. Как ChatGPT, только с открытым кодом. Конечно, на русском языке. И вот эту идею уже пробуем упаковать в полноценный стартап с конкретной измеримой продуктовой ценностью для бизнеса. Начали считать рынок, строить годовой план, стоимость подписки. Теперь будем привлекать инвестиции. Мы хотим, чтобы продукт реально предсказывал запросы пользователя, чтобы было ощущение магии. И идея в голове максимально просто воплощалась в жизнь.

А когда завершим с контекстными подсказками, будем пробовать взаимодействие напрямую с латентным пространством. Сейчас на стадии R&D.

— С каким-каким пространством?..

Сергей: Если очень упрощенно, работает это так. Нейросеть обучили, у нее есть какое-то представление о мире, которое ей дали. Она это все записывает в латентное пространство и группирует между собой. Но когда мы пишем текстовый запрос, он превращается в вектор. Векторы не могут покрыть 100 процентов латентного пространства!

С помощью текстовых запросов мы никогда не сможем сгенерировать все изображения, которые есть в этом пространстве. Наша миссия — убрать текстовый запрос и делать так, чтобы пользователи могли сгенерировать все что угодно.

А когда мы дойдем до стадии MVP и сделаем палец главным инструментом генерации, тогда будем создавать свою нейросеть. Это как раз то, к чему идем.

«Ты вынужден пользоваться современными инструментами, если хочешь быть таким же продуктивным как конкуренты. Иначе потеряешь и клиентов, и рынок» «Ты вынужден пользоваться современными инструментами, если хочешь быть таким же продуктивным как конкуренты. Иначе потеряешь и клиентов, и рынок» Фото: Андрей Титов

О судьбе дизайнеров и художников

— Кто все-таки ваши пользователи? И как вы замеряете их потребности?

Сергей: Ядро ЦА — графические дизайнеры, которым нужно генерировать иллюстрации, обложки для постов, упаковывать тот контент, который есть у бизнеса. Наши ребята связываются с «топами» всех международных и российских больших агрегаторов дизайнеров, Behance, Dribble, Words, мы с ними общаемся, замеряем потребности, получаем обратную связь. Познакомились с несколькими ребятами, которые ходят в «БИЗON» во время перформанса. Общались с Андреем Себрантом из «Яндекса», Андреем Кузнецовым из Сбера, который разрабатывает модель «Кандинский», Александрой Мурзиной из Positive Technologies и так далее.

— И какова обратная связь? Кто эти люди, которые сейчас пользуются искусственным интеллектом — у них больше разочарования или больше надежды?

Сергей: Первый тип — это консерваторы. Они потестили базовые функции, получили вроде красивое изображение, условно, в «Шедевруме»… и закрыли все это. Мол, побаловались и хватит. Второй тип — это ребята, которые настроены этим пользоваться. Им приходит новая задача — они пытаются решить нейронкой, не получается — возвращаются к традиционному способу. И так по кругу. На 6-й, 7-й раз что-то получится. А кто-то из них потом уходит в очень нишевые истории, подсаживаются на очень специализированный софт, который работает на больших мощностях.

— А не было такого, что дизайнеры и художники восприняли это все как непрошенную помощь, как угрозу для своего будущего?

Сергей: Дизайнеры пытаются не отстать от рынка. Большие игроки вроде студии Артемия Лебедева генерируют с помощью нейронок тысячи мокапов, сотни вариаций. Ты вынужден пользоваться современными инструментами, если хочешь быть таким же продуктивным как конкуренты. Иначе потеряешь и клиентов, и рынок.

Яков: Дизайнеры и художники — это абсолютно разные категории. У дизайнеров есть специфическая задача, которую нужно быстро и эффективно закрыть. Художники создают произведения искусства, поэтому у них отношение к нейросетям больше негативное. Но для них есть свои инструменты. Например, есть стартап, который тоже разрабатывает платформу для генерации изображений, позволяющую художникам создавать работы в авторском стиле. Условно — они загружают в нее несколько своих картин и дальше генерация будет в этом же стиле. При этом все права на изображения будут принадлежать художнику.

— А в вашем случае авторские права кому принадлежат?

Яков: Пока мы исходим из того, что прописано в лицензиях open source моделей, которые мы используем: права на изображение принадлежат пользователю самой нейросети. Кто сгенерировал — того и права.

— А художники, на чьих работах вы обучали нейросеть, теоретически не могут предъявить права на сгенерированные ей изображения? Наверное, Бэнкси и Миядзаки вряд ли подадут на вас в суд, но если бы речь шла о российских авторах?

Сергей: В международном регулировании нет однозначного ответа на этот вопрос. Вот что значит обучить нейросеть? Это показать ей мир, в котором она будет генерировать изображения. Но это не будут картины художника. В этом мире часто смешиваются стили и так далее, модели дообучаются и переобучаются. Пока нейросети считаются инструментом, а все права принадлежат тому, кто его использует.

Яков: Я не знаю, можно ли меня считать художником, но я вот рисую в стиле Баскии. Мог ли он меня за это засудить, если бы был жив?

— Но вы один и вряд ли повлияете на рынок его покупателей. А нейросети позволяют же генерировать работы в промышленных масштабах…

Сергей: Нейронки генерируют новые экземпляры, синтезируя авторский замысел, выраженный в запросе, со своим пониманием мира и со стилистикой, похожей на ту, в которой работает Баския или в нашем случае Бэнкси. И по идее, авторского право у Бэнкси здесь нет никакого, потому что он не прикладывал свои усилия для того, чтобы получилось это изображение.

Генерация по запросу «Иннополис - город будущего» Генерация по запросу «Иннополис — город будущего»

— Вот представьте, вы художники, еще живые, суперуспешные, в том числе и коммерчески, которые выработали свой неповторимый, узнаваемый стиль. И вот прихожу я к вашим покупателям, говорю, что сейчас ткну пальчиком в экран и у меня появится работа в том же стиле, но в миллион раз дешевле. Я не обрушу ваш рынок?

Сергей: Эта история очень похожа на историю с оригинальными вещами и подделками, которые появляются на рынке. Adidas десятилетиями борется с «Абибасом», но не делает так, чтобы он умер.

— То есть вы занимаетесь «Абибасом»?

Сергей: Я бы не сказал (оба хохочут). Но прошу заметить, мы не генерируем копии.

Яков: Давайте так. Возьмем вот этот фантик. Сейчас это мусор, но если я возьму и положу его в белую комнату на белый постамент с табличкой, крутым освещением и красной ленточкой, это будет выглядеть как искусство. Современные арт-дилеры вкладываются в историю, выстроенную вокруг искусства, а не в сам объект искусства.

Ценность картины в том, что художник ее нарисовал. Если ты ткнул на кнопочку, ты можешь стать великим мировым художником, только если кроме тыкания на кнопочку у тебя есть невероятный талант. Сгенерированное изображение уже победило однажды на конкурсе фотографий. А в этом году в конкурсе ИИ-генераций выиграл настоящий снимок.

— То есть мы с вами живем в мире иллюзий?

Яков: Да. Мне кажется, скоро границы между сгенерированным искусством и традиционным сотрутся. Все будут воспринимать это просто как набор пикселей. В любом случае в сгенерированное изображение встраиваются невидимые вотермарки, которые позволят отличить машинную генерацию от человеческой.

«Фотографии тоже считаются искусством — а это тоже „ткнуть на кнопочку“. Художник — это экспрессия самого себя» «Фотографии тоже считаются искусством — а это тоже «ткнуть на кнопочку». Художник — это экспрессия самого себя» Фото предоставлено Сергеем Полиным

О судьбе искусства

— Нейрохудожник» — это художник?

Яков: Это нейрохудожник. Мы его даже запатентовали, зарегистрировали товарный знак.

— Сгенерированное искусство — это искусство?

Яков: Если понимать искусство как метод реализации своего нарратива… Фотографии тоже считаются искусством — а это тоже «ткнуть на кнопочку». Художник — это экспрессия самого себя.

— Не любая фотография — это искусство. Если я вас сейчас здесь сфотографирую, это вряд ли будет искусством.

Сергей: А что, если я скажу, что это искусство? Что если у этой фотографии будет контекст?

Яков: Да! Что, если это последняя фотография?

Сергей: Оу! Давайте лучше другое. Что, если эта фотография будет манифестом чего-то?

Яков: Я недавно разрисовал огромную стену маркером в стиле Баскии. Не вкладывая в нее особых манифестов. Ради эксперимента скинул ее ChatGPT и попросил проанализировать. Он нашел там расовый конфликт и проблему противостояния человека капиталистическому обществу. А я как раз пытался отобразить дефицит тест-полосок для диабетиков на американском рынке: люди без страховки вынуждены покупать их на вторичном рынке по завышенной цене — и происходит дисбаланс системы, где богатые тратят меньше и становятся богаче, а бедные — еще беднее. Нейросеть распознала этот смысл, а еще пришла к выводу, что эта система неустойчива и она скоро рухнет. А я просто одному из персонажей нарисовал оторванную ногу.

Так вот, если это изображение и это описание поместить в альбом про настоящих художников с рецензиями профессиональных критиков, вряд ли кто-то догадается, что это сделал я скучным вечером одним маркером на стене. Вопрос контекста.

— Но это как раз не сгенерированное искусство.

Яков: Я могу сгенерировать такое вообще без проблем по текстовому запросу. Хотя с абстрактным артом чуть сложнее. Это все еще не отменяет того, что это мое искусство. Я просто его по-другому изобретаю.

— Сколько времени на генерацию изображения надо?

Сергей: Секунд 15.

— А картины некоторые пишутся месяцами, если не годами.

Сергей: Ну и что, пишутся некоторые месяцами, но, когда мы говорим про современный арт, Бэнкси делал это все за пару часов. Условно, если сейчас Баския воскресает и начинает генерить…

Яков: …Я думаю, он бы этим и занялся…

Сергей: …Это было бы точно искусство.

Генерация по запросу «Нейросети»

— Как художники используют генеративные инструменты сегодня, и как они это будут делать через 5–10 лет?

Сергей: Взять Льва Переулкова. Он создает в нейросетях российскую глубинку.

Смотришь и думаешь: как ты добился, чтобы нейронка, натренированная на японских стилях, на американской субкультуре понимала, как выглядит хрущевка!

— Дайте прогноз развития искусства на 3, 5, 10 лет.

Сергей: Блин, это что-то суперсложный вопрос. Мне кажется, просто все выровняется, то есть появится новое направление — AI-арт. AI станет инструментом, как баллончики для граффити, кисточки или мел.

Яков: Бум точно станет потише, AI перестанет попадаться в каждой второй новости и каждом втором питчинге стартапов.

— Искусство не деградирует в таких обстоятельствах, как считаете?

Яков: Есть хороший французский термин «авангард», означающий, что кто-то находится впереди армии. Когда появляется новый вид искусства, это отпугивает большинство людей, потому что, с их точки зрения, он нарушает стандарты. При этом я глубоко убежден, что художников точно генеративными моделями не заменишь. Диффузными моделями можно создавать очень крутые концептуальные вещи, можно заложить в них много смысла, но все равно у них есть ограничения.

Ну а потом, если мы не будем делать платформу для генеративного ИИ, ее точно сделает кто-нибудь другой. Развитие, в том числе в изобразительном искусстве, идет вне зависимости от того, создаем мы что-то или нет.

Сергей: Деградация как будто случается каждый век. Абстракционизм заменил Шишкина — деградация. Дальше Малевич и «Черный квадрат» — опять деградация. Но это всего лишь новые инструменты и новые возможности взаимодействия с миром.

Яков: В конце концов, все новое — это хорошо забытое старое. Либо созданное комбинацией оригиналов. Как бы ты ни старался, чего-то нового сейчас вряд ли можно изобрести. Мне кажется, это просто невозможно с точки зрения фундаментальной философии. Мы всегда ограничены нашим субъективным опытом, который люди прожили до нас. Нет возможности синтезировать что-то новое из ниоткуда.

К тому же массовой адаптации нейросетей пока не произошло. А значит, и массовой деградации тоже пока не будет.

— А как только произойдет массовая адаптация, будет массовая деградация?

Яков: Массовая адаптация, скорее всего, произойдет, когда модели станут достаточно хорошими, чтобы говорить тебе нет. Тогда это будет так называемый AGI (осознающая себя система, обладающая умственными способностями).

Сергей: Но мы видим сильную деградацию в другом. Все сгенерированные открытыми моделями изображения начинают индексироваться в поисковиках. И, когда ты открываешь картинки в поиске, первые 100 изображений — это, скорее всего, ИИ-контент, который сгенерирован по тупому запросу и выглядит соответствующе. Мужчина всегда такой красивый с челюстью, а женщина всегда с большой грудью. Вот это деградация, да.

Яков: Вот здесь, кстати, на самом деле большое окно для новых стартапов, которые бы делали системы фильтрации AI-контента.

Сергей: Рынок генеративного ИИ слишком быстрый, он растет на 42 процента в год. Это если брать и изображения, и видео, и аудио, и все-все-все.

— Это не пузырь?

Сергей: Вся эта история принадлежит корпорациям, которые вкладывают в нее деньги. Поэтому, может, это и пузырь, он надувается, но не так быстро, как web-3 и «крипта». При этом 70 процентов стартапов делают ИИ-решения для B2С, и очень мало тех, кто думает о том, что нужно для B2B. Бесконечные ИИ-ассистенты, ИИ-коучи, ИИ-СЕО — на каждом питчинге по 3–4 таких стартапа.

Яков: Это точно пузырь. Я не знаю более очевидных пузырей, чем ИИ.