Создатели нашумевшего ролика с Путиным в виде «гей-мамы» — о технологии Deepfake — fan-monitoring.ru

Сделанное при помощи искусственного ума видео, на котором у актрисы Дженифер Лоуренс — лицо актера Стива БушемиYoutube.com

Недельку вспять вирусную популярность в соц сетях заполучил пародийный ролик, в каком лицом президента РФ (Российская Федерация — государство в Восточной Европе и Северной Азии, наша Родина) Владимира Путина поменяли лицо карикатурного гея из ролика в поддержку поправок к Конституции. В уникальном ролике, выполненном медиагруппой «Патриот» (связана с прокремлевским предпринимателем Евгением Пригожиным, — прим. ред.) малыша конфискует из детдома гей-пара. В освеженном ролике мальчугану представляют не «маму» мужского пола, а «обнуленного» Путина, который отрадно указывает ребенку Конституцию. Znak.com побеседовал с Марией Чмир основоположником и генеральным директором стартапа Dowell — компании, развивающей технологию Deepfake.

— Разработка Deepfake дозволяет созодать убедительные подделки видео с подменой лиц. Не могли бы вы очень упрощенно разъяснить, как работает эта разработка?

— Глобально зрительные дипфейки можно поделить на два огромных класса — face-swap (трансфер наружности от «донора» к «дублеру») и reenactment (перенос мимики и чувств). В рамках этих направлений есть несколько подходов к обработке видео, которые разрешают модифицировать контент. Я расскажу о том, которым углубленно занимается Dowell. Наша команда исторически практикуется на компьютерном зрении: мы учили методы «читать» фото и видео как текст, обучаться определять объекты и связи меж ними на изображениях.

Это позволило нам натренировать наши искусственные нейронные сети с высочайшей точностью распознавать, где на лице находятся глаза, нос и рот, куда ориентирован взор, даже если голова двигается, как падают тени, и где лежат морщинки. Такому въедливому анализу подвергаются и видео с «донором», и видео с «дублером».

Последующий шаг — методы обучаются воссоздавать донорское лицо поверх лица дублера, сохраняя позы, освещение и мимику дублера. Далее подключаются методы обработки — они стабилизируют видео, избавляют несовершенства и сглаживают цвет. В нашем случае в 8 из 10 случаев выходит неотличимое от оригинала лицо. На данный момент мы способны сделать до 50 видео за 72 часа.

— Как такие технологии доступны? В сети много Deepfake-роликов, сделанных различными блогерами. Их может созодать хоть какой желающий?

— На данный момент вправду есть несколько открытых библиотек, также приложений и веб-сервисов, при помощи которых можно произвести фото- и видеофейки. Большая часть из их ориентированы на создание веселительных маленьких роликов в низком качестве — они непревзойденно вписываются в ваши соцсети, но на их базе не создать высококачественный сюжет для киноэкранов. Те решения, которые владеют высочайшим реализмом результата, требуют, во-1-х, суровых технологических мощностей (для обучения нейросетей употребляются графические микропроцессоры с высочайшей производительностью), также нуждаются в суровой ручной постобработке в редакторах: вы могли созидать итог такового симбиоза человека и алгоритмов в «Ирландце» Скорсезе.

— Как смотрится процесс обучения нейросети? Необходимо «скормить» ей огромное количество видеороликов и фото? Можно ли заменять лица в настоящем времени? Как это трудозатратная задачка?

— Работа с генеративными технологиями — это постоянно баланс 3-х компонент: прирастить скорость, сохранив высочайший реализм при наименьшем объеме входящих данных. Мы, к примеру, научились создавать по-настоящему неотличимые от оригинала копии лиц, и даже голов, и на данный момент колдуем нам убыстрением нашей модели, также снижаем ее «прожорливость» по части требуемых для генерации материалов. Существенного прогресса мы достигнули, когда начали работу пасмурным обслуживанием Hostkey из Нидерландов. Некие наши коллеги по цеху, напротив, могут весьма стремительно — за пару секунд — производить трансфер лиц, но бьются над неувязкой улучшения свойства генерируемого лица. Броский пример — команда стартапа AI Factory, основоположники которого, к слову, наши земляки, челябинцы Александр Машрабов и Григорий Ткаченко, продавшие свою разработку пересадки лиц в настоящем времени Snapchat за $166 млн.

— От чего же зависит свойство сделанного «фейка»? От чего же зависит его стоимость? стоимость?

— Если мы говорим про cinema production quality, когда принципиально сделать очень похожую и живую копию, то в этом кейсе методы вправду чувствительны ко почти всем чертам контента: в эталоне условия съемки в видео, для которого мы имитируем лицо, и в видео, из которого лицо извлекаем, должны быть идентичны по цветокоррекции, иметь высочайшее разрешение, а лица не должны перекрываться предметами. Но мы обучаемся нивелировать эти «капризы». К примеру, за счет глубочайшей сегментации видео обнаруживаем кадры, в каких перед лицом машут руками, и автоматом удаляем их из обучающей подборки, чтобы минимизировать «шум» в итоговой работе. С некачественными контентом мы работаем при помощи алгоритмов, восстанавливающих изображения до наиболее высочайшего разрешения. И чем больше манипуляций с контентом нам приходится создавать, тем выше стоимость работы. Самое сложное — сгенерировать 1-ые 30 секунд новейшего лица, а далее модель, познакомившись с ним, будет реагировать на новейшие задачки (кадры) все лучше и лучше.

— За которую сумму ваша компания вставит лицо известной личности (либо неведомой) в порноролик либо во что-то схожее? Либо вы откажетесь от таковой работы?

— Мы в Dowell на старте условились о том, что этичное внедрение технологии — главная ценность нашей команды. У нас глобальные амбиции, потому даже в наших пародийных роликах для Youtube мы верно заявляем о фейковости контента, даем ссылки на первоисточники и сопровождаем особо экстравагантные сюжеты дисклеймерами.

— Про этичность и законность — как на данный момент регулируется эта сфера? Есть ли какие-то звучные прецеденты?

— Обычно пионерами в данной сфере выступают Штаты: в октябре 2019-го губернатор Калифорнии подписал законопроект, запрещающий употреблять фейки (в любом виде — голосовые, текстовые, зрительные) в политических целях. При всем этом есть обмолвка, которая допускает создание материалов, раскрывающих свою «подражательную» природу. Подобные инициативы есть в Англии и Канаде. В тоже время, в феврале перед выборами в индийский парламент один из кандидатов употреблял замену движения губ на видео, чтобы «заговорить» с электоратом на диалекте хариани, которым он не обладает. В западной прессе последовала волна обеспокоенных публикаций, но на родине санкций к бюрократу не применили.

Непременно, мы подходим к новенькому шагу определения норм относительно воззвания с индивидуальными данными. Понятие «кражи личности», возникшее полста лет вспять в англосаксонском праве, разумеется, просит расширения значения и включения individual visual identity (неповторимой наружности человека) в список охраняемых категорий.

— Выходит, на данный момент видео совершенно недозволено веровать? Человек может сказать — я этого не гласил, не делал, это все Deepfake. Либо, напротив, образ человека могут употреблять, чтоб от его лица наговорить всякого. Как с сиим биться? Есть ли метод вычислять фейки? Как он действенный?

— Кибербезопасность в плоскости дипфейков — одна из самых жарких тем, как для стран, так и для компаний, который сталкиваются со шквалом критики из-за собственной неспособности предупредить распространение неверной инфы. Microsoft, Гугл и Facebook выделяют млрд на сбор данных и исследования. Техногигант Марка Цукерберга две недельки вспять окончил собственный масштабный челлендж по детекции дипфейков на видео с призовым фондом в миллион баксов (одолел инженер по машинному обучению из Белоруссии).

Нейросети участников демонстрировали точность угадывания подделок равную 83% на тренировочных данных, но когда их методам давали незнакомые видео и фото, свойство понижалось до 65%. Видите ли, точность определения дипфейков на данный момент лежит кое-где в области подкидывания монетки. И это как и раньше колоссально непростая задачка.

— Технологию уже употребляли в кино и разных веселительных видео. А не так давно она посодействовала поменять истинные лица героев кинофильма BBC о преследуемых в Чечне геях. Для чего же еще она может употребляться? Может, есть какие-то неочевидные примеры?

— Чемодан с подменой лиц героев кинофильма «Добро пожаловать в Чечню» на представителей ЛГБТ-активистов — мой возлюбленный. По-моему, это по-настоящему человечное внедрение технологии, и таковых кейсов пока незначительно, к огорчению. Из арт-мира увлекательным смотрится проект музея Дали в Санкт-Петербурге, Флорида: нейросети воскресили отца сюрреализма, с которым любой гость экспозиции мог поменяться парой фраз.

Цифровое воскрешение погибших звезд, создание нарративов с естественным старением героев (заместо дублеров и грима), возможность фанатов оказаться снутри киновселенной, загрузив фото на стриминговую платформу, перенос собственных мимики и чувств для управления возлюбленными персонажами — это уже не будущее, это наше реальное завтра, в приближении которого команда Dowell принимаем активное роль.

Мне же любознательным видится социально-ответственное направление развитие дипфейков, связанное с исцелением и реабилитацией. VR-технологии уже сейчас начинают применяться для работы с фобиями и психотравмами, и возможность моделирования при помощи генерации лица и голоса важной для пациента личности — ценный инструмент для терапии (терапия — процесс, для снятия или устранения симптомов и проявлений заболевания). Таковой подход сейчас кажется экстремальным, и он нуждается в масштабных клинических исследовательских работах, но 1-ые шаги уже делают, скажем, наши корейские коллеги.

— Про ролик с Путиным — как он создавался? Как развивались действия позже, просили ли его удалить?

— Около года мы вели наши научно-исследовательские разработки в области генеративных сетей, время от времени отвлекаясь на коммерческие проекты, и не без боли (переживание, связанное с истинным или потенциальным повреждением ткани) наблюдали за тем, как набирают популярность создатели, создающие дипфейи при помощи открытых алгоритмов — опосля видео с Маском, которое, кажется, не переслал мне лишь сам Маск, мы тоже решили действовать. Нам не весьма любопытно пересаживать актеров из одной картины в другую, как делает большая часть, потому мы избрали вектор драматичности над повесткой: поначалу был ролик, в каком Собянин ввел пропуски в Хогвартсе, а последующим стала пародия на нашумевшую пропаганду в поддержку поправки в Конституцию о семье как о союзе мужчины и дамы.

Публикации данной работы медиагруппы «Патриот» вызвала у меня такую сильную фрустрацию, что попытка переосмысления стала естественной реакцией. Мы собрали высококачественный датасет с Владимиром Путиным из общественных источников и пофантазировали в творческом ключе о том, как будет смотреться Наша родина опосля поправок. Честно, мы страшились его публиковать. Длительно спорили. И даже опосля того, как отважились, закрыли доступ к ролику на Youtube через 10 часов опосля публикации. «Басманный трибунал для вас тоже чего-нибудть сгенерирует» — отдал оборотную связь на наше предложение опубликовать ролик админ 1-го известного паблика в телеграме. Но видео успели скачать, и оно попало в телеграм, твиттер и «ВК» без нашей воли, собрав там, по моим подсчетам, около 100 тыщ просмотров. На данный момент доступ к нему опять открыт: мы не желаем страшиться гласить о том, что нас тревожит, оставаясь при всем этом корректными и используя язык пародии.

— Поведайте конкретно о вашем стартапе, как он зарождался и к чему в итоге вы желаете придти?

— На данный момент мы параллельно разрабатываем два продукта: в конце лета планируем окончить автоматизацию нашего метода переноса наружности и упаковать его в решение для подмены лиц в настоящем времени (большенный пул возможных клиентов в рекламе и потоковых медиа ожидают этого релиза), а уже в июле мы запустим сервис, оживляющий фото — как в Гарри Поттере, помните? Можно будет загрузить портрет собственного шефа и анимировать его различными чувствами, а из приобретенных гифок создать стикерпак либо поделиться ими в соцсетях. Гифки стали сейчас всепригодным средством коммуникации — в мае Facebook купил Giphy за $400 млн, что подчеркивает энтузиазм широкой аудитории к созданию и обмену маленькими зрительными сообщениями. В этом направлении мы лицезреем потенциал для масштабирования.

Хочешь, чтоб в стране были независящие СМИ (Средства массовой информации, масс-медиа — периодические печатные издания, радио-, теле- и видеопрограммы)? Поддержи Znak.com

Источник: www.znak.com