«Виртуальный диктор». Как устроен реалистичный аватар, созданный искусственным интеллектом

Искусственный интеллект (ИИ) занимает центральное место в современных цифровых технологиях. Сейчас он активно используется в большинстве сфер экономики и преобразует различные отрасли. Видеоконтент не стал исключением. Теперь вместо того, чтобы целыми днями или даже неделями записывать образовательный курс или информационную программу, переснимать неудачные дубли, тратиться на аренду помещений и дорогую съемочную технику, можно использовать цифрового аватара.

Такую возможность дает «Виртуальный диктор» — новый продукт от ведущего оператора сетей доставки контента компании CDNvideo. О том, как создаются цифровые аватары, где они уже используются и почему становятся все популярнее, специально для билайн now рассказывает Эмир Вахитов, владелец ИИ продуктов (AI Product Owner) в CDNvideo.

билайн приобрел компанию CDNvideo в прошлом году. Мы видим большие перспективы на рынке доставки контента в РФ. Сделка стала очередным шагом в создании ценности для наших клиентов за пределами классических телеком-услуг.

Что такое «Виртуальный диктор»?

Это цифровой аватар, который озвучивает набранный текст. Клиент получает доступ к нашей платформе, где всего в пять шагов может создать своего «Виртуального диктора». У нас довольно интуитивный сервис, но на каждом из этапов можно обратиться в нашу поддержку и получить подробную консультацию.

Выбор аватара. Можно сделать собственного аватара или выбрать его из нашей библиотеки. В распоряжении пользователей находятся целый банк аватаров и гибкие возможности кастомизации под конкретные задачи.
Выбор фона. Можно выбрать хромакей или уже готовый вариант.
Кадрирование. Определить расположение ведущего (аватара) в кадре.
Выбор эмоции и голоса. В нашей библиотеке есть широкий набор различных голосов дикторов. Ваш цифровой аватор может говорить на разных языках. Например, на английском, китайском, русском и других. Также можно определить эмоциональную тональность голоса — будет ли диктор говорить спокойно, сдержанно или радостно.
Ввод текста. В конце необходимо ввести текст, который озвучит «Виртуальный диктор».

В чем преимущества «Виртуального диктора»?

Широта использования. Сфера эффективного применения «Виртуального диктора» очень большая: продажи и коммуникации, HR-процессы, обучение. Сейчас уже сложно переоценить важность взаимодействия с аудиторией через видеоконтент, поэтому «Виртуальный диктор» может найти свое применения в абсолютно разных сферах.

Отсутствие человеческого фактора. «Виртуальный диктор» не болеет, не запинается, не опаздывает. Он не «ляпнет» что-то в эфире, а будет следовать четко по подготовленному вами тексту.

Экономическая составляющая. «Виртуальный диктор» заменяет собой работу целого коллектива (съемочной группы, дикторов), не требует обустраивать студию и держать дорогостоящий парк техники. Не нужно тратить время на макияж, настройку света и другой аппаратуры, снова и снова переснимать неудачные дубли и так далее. Здесь нет тех издержек, с которыми можно столкнуться при реальной съемке. Таким образом, «Виртуальный диктор» позволяет экономить деньги, причем кратно: по нашим оценкам приблизительно в 10 раз, а времени — в 20 раз.

Развитие своего бизнеса. Это простой способ сделать свой контент более разнообразным, привлечь к себе внимание и, как результат, повысить интерес аудитории к продукту.

Где уже применяется «Виртуальный диктор»?

В январе проект перешел в стадию пилотного тестирования. На телеканале ГТРК «Чувашия» появился новый сотрудник — НейроЕлена. Ее создали с помощью нашей модели нейросети на основе видеоматериалов телеканала. Прототипом для цифрового сотрудника стала ведущая Елена Михайлова.

НейроЕлена.png

Фото: ГТРК «Чувашия»

НейроЕлену можно увидеть в утренних блоках телеканала. Она рассказывает о погоде в регионе. По первым неделям использования уже можно сказать, что НейроЕлена привлекла внимание пользователей, люди активно обсуждают нового ведущего канала и с интересом смотрят прогноз погоды. Это первый шаг к инновациям в медиа, который позволяет оценить потенциал искусственного интеллекта в сфере телевещания.

Несмотря на то, что пилот был раскатан только в прошлом месяце, мы уже видим интерес к «Виртуальному диктору» среди различных клиентов. Это представители образовательного и культурного сектора, новостные издания, информационные и технологичные компании. В настоящий момент, помимо «ГТРК Чувашия», мы подписали еще один крупный контракт с другим телеканалом, а также с телеком-компанией для анимации персонажей — это еще одна возможность в рамках «Виртуального диктора».

Как создается «Виртуальный диктор»?

Это собственная разработка CDNvideo, позволяющая быстро создавать профессиональный видеоконтент с помощью ИИ. Мы используем генеративно-состязательную модель (GAN). Она в свою очередь состоит из двух моделей нейросети.

Первая — генеративная. Так как мы хотим получить качественное видео, то в качестве источника информации, к которому применяем технологию, также используем видео. Нейросеть смотрит записанный видеоматериал с реальным человеком (как он двигается, как говорит, как меняется его поза, мимика, одежда) и пытается это повторить. Несмотря на то, что это генеративная модель, здесь она ничего сама не придумывает, а опирается только на то, что видит.
Вторая модель — дискриминационная. Она оценивает реальное видео, соотносит его с тем, что получается у генеративной модели, и пытается найти отличия. Она выступает условным критиком для генеративной модели и сообщает ей о неточностях, которые находит между двумя видео.

Процесс обучения и совершенствования происходит одновременно. И заканчивается, когда дискриминационная модель больше не видит разницы между реальным изображением и сгенерированным.

Как сделать собственного аватара?

Так как обучение нейросети и создание цифрового аватара происходит в результате оценки видеоматериала, то ответ здесь прост — записать видео. Нужно снять около 2-4 часов видеозаписи с реальным человеком в кадре (согласитесь, это в разы меньше по времени, чем сделать, например, видеокурс лекций с живым спикером). Если заказчик хочет иметь аватара в нескольких вариациях одежды, то во время этих съемок модель (ведущий/ведущая) должна сняться в разных образах.

Подготовить видеоматериал необходимо по нашим требованиям. Мы высылаем клиенту соответствующую инструкцию, следуя которой, в результате, можно рассчитывать на качественного и полноценного цифрового аватара. Сразу скажу, что ничего специфичного или технически сложного там нет: рекомендации про то, как выставить свет, какие позы надо принять, какую одежду и аксессуары лучше не использовать. Например, как правило, собственного аватара клиенты снимают на зеленом хромакее, поэтому мы напоминаем, что стоит избегать в своей одежде отражающих элементов, так как они могут «исчезнуть» вместе с зеленым фоном.

Отснять видеоматериал клиент может как самостоятельно, так и обратиться за помощью к нам — наши профессиональные партнеры организуют и выполнят съемку за него. Права на использование цифрового аватара клиент может оставить у себя или передать их нам. Может быть так, что клиенту не принципиальна уникальность использования собственного аватара, или, например, клиент очень хочет собственного аватара, но у него недостаточно средств, чтобы это осуществить. В этом случаем мы также можем договориться — мы сделаем клиенту аватар с возможностью использования его в нашей общей библиотеке.

Почему подобные технологии вроде цифровых аватаров набирают популярность?

Интерес к «Виртуальному диктору» действительно есть и растет. Если раньше цифровые аватары и проявление подобных технологий вызывали у людей негативные чувства, то сейчас мы наблюдаем другую тенденцию. В основе нашего решения лежит технология text-to-video, которая уже стала популярна во всем мире. В своем общем значении она направлена на генерацию видео по предоставленному текстовому описанию. По данным аналитиков Global Market Insights за 2022 год, рынок text-to-video оценивают в 122,5 млн долларов. Почти одна пятая часть (19%) приходится на сферу образования. Другие популярные направления — мода и красота, медиа и развлечения. Ожидается, что объем рынка к 2032 году вырастет до 2 млрд долларов.

Я вижу несколько причин спроса на подобные технологии.

Во-первых, вырос уровень технологий. Есть такой термин — эффект «зловещей долины». Он появился на старте новых технологий, связанных с нейросетями и искусственным интеллектом в Кремниевой долине, когда первые цифровые персонажи были хоть и похожи на людей, но выглядели неестественно. Человеческий глаз улавливал это, и возникал диссонанс, что вроде бы персонаж выглядит как человек, но при этом, очевидно, неживой. Сейчас же уровень таких технологий вырос, и мы стремимся делать наших аватаров максимально естественными; начали использовать 3D-анимацию, когда человека для цифрового аватара снимают не только анфас, а в движении и разных ракурсах. Мы добились того, что цифровые аватары могут выглядеть натурально, и в результате быть нейтральными или даже приятными для восприятия пользователя.
Второй момент. Искусственный интеллект стал активнее и проще входить в жизнь людей. За последний год стали очень популярны генеративные модели. Люди активно их используют для различных задач: как для рабочих, так и бытовых. Отношение к искусственному интеллекту меняется, и мы видим, что он действительно может нам экономить время, помогает эффективнее работать, и развивать свой бизнес. «Виртуальный диктор» также создан в помощь людям, чтобы не только разнообразить контент и усовершенствовать подачу той или иной информации, но и освободить время и ресурсы своих клиентов в пользу более важных задач.
В-третьих, растет популярность визуального контента. Видео стало основным форматом передачи информации в эпоху соцсетей и распространения интернета. Через короткий ролик, например, можно быстрее и проще донести сообщение до аудитории, чем с помощью длинного поста. Мы вовлеченнее реагируем на видео, чем на текст.

Развивайтесь вместе с технологиями. Знакомьтесь с новыми решениями, чтобы сделать свои жизнь и работу эффективнее, интереснее и проще. И приходите в CDNvideo за своим цифровым аватаром!

Искусственный интеллект

Новые разработки