Генерация видео и цифровые аватары. Почему растет популярность подобных технологий

В начале этого года после удачного тестирования мы в CDNvideo запустили новый продукт — «Виртуальный диктор». Так, на телеканале «ГТРК Чувашия» появился новый сотрудник — НейроЕлена. Ее создали с помощью нашей модели нейросети на основе видеоматериалов телеканала. Прототипом для цифрового сотрудника стала ведущая Елена Михайлова. НейроЕлену можно увидеть в утренних блоках телеканала. Она ведет прогноз погоды.

«Виртуальный диктор». Как устроен реалистичный аватар, созданный искусственным интеллектом

Пилот был запущен совсем недавно, и мы уже видим интерес к продукту среди различных клиентов. Это представители образовательного и культурного сектора, новостные издания, информационные и технологичные компании. Сейчас у нас есть уже несколько заказчиков. Они намерены использовать возможности «Виртуального диктора» для развития своих продуктов и бизнеса.

Интерес к подобным технологиям действительно есть и растет. Если раньше цифровые аватары и проявление подобных технологий вызывали у людей негативные чувства, то сейчас мы наблюдаем другую тенденцию.

В основе нашего решения лежит технология text-to-video, которая уже стала популярна во всем мире. В своем общем значении она направлена на генерацию видео по предоставленному текстовому описанию. Для этой цели программы используют нейросети. Они анализируют запрос и определяют контекст и прочие параметры, заложенные автором описания. Затем нейросеть создает видео со спецэффектами и другими особенностями. Некоторые программы даже добавляют подходящий саундтрек, чтобы вызвать у зрителя дополнительный эмоциональный отклик. И все это создается умными алгоритмами, то есть автоматически, без дополнительного участия человека. По данным аналитиков Global Market Insights за 2022 год, рынок text-to-video оценивают в 122,5 млн долларов. Почти одна пятая часть (19%) приходится на сферу образования. Другие популярные направления — мода и красота, медиа и развлечения. Ожидается, что объем рынка к 2032 году вырастет до 2 млрд долларов.

Я вижу три основные причины спроса на подобные технологии (а если точнее — три условия, при которых данная тенденция стала возможной). Давайте по порядку.

Важность визуального контента

Видео стало основным форматом передачи информации в эпоху соцсетей и распространения интернета. Через короткий ролик, например, можно быстрее и проще донести сообщение до аудитории, чем с помощью длинного поста. Мы вовлеченнее реагируем на картинку, анимацию или видео, чем на текст.

Визуальный контент — это язык впечатлений, эмоций. Общение с аудиторией сейчас завязано в основном на социальных сетях. И там, в свою очередь, преобладает визуальный контент. Выделиться текстовым постом или обычной картинкой из интернета уже не так-то просто.

Вместе с необходимостью в визуальном контенте растут и темпы по его созданию. Снимать и выпускать ролики требуется все чаще, а ресурсов на это затрачивается все больше и больше. Естественным образом человек ищет решения, способные сократить время и сэкономить деньги на создание подобного контента. «Виртуальный диктор» — одно из них.

Искусственный интеллект повсюду

Искусственный интеллект стал активнее и проще входить в жизнь людей. За последний год стал очень популярен генеративный ИИ. Мы то восхищаемся новыми версиями текстовых моделей, то ругаем Midjourney за лишнюю пару рук. Ясно одно — про искусственный интеллект слышно из каждого рупора.

Почему Midjourney некорректно генерирует руки и должны ли нейросети обучаться на своих же изображениях?

Мы все чаще взаимодействуем с технологиями, основанных на ИИ. Их внедряют различные компании и государственные сервисы. Определенную роль в этом играет ускорение инвестиций в сферу ИИ, переход от планирования к реальным разработкам, заинтересованность во внедрении и развитии ИИ на уровне государства, и законодательные изменения. По данным АНО «Цифровая экономика», российский рынок ИИ стабильно растет: его общий объем в 2021 году составил более 550 млрд рублей, а в 2022 году он вырос до 650 млрд рублей.

Уже сейчас люди стали самостоятельно знакомиться с возможностями ИИ, пробовать разные модели, выбирать из них лучшие и активнее использовать их для различных задач: как для рабочих, так и бытовых. Отношение к искусственному интеллекту меняется, и мы видим, что он действительно может нам экономить время, помогает эффективнее работать и развивать свой бизнес. «Виртуальный диктор» также создан в помощь людям, чтобы не только разнообразить контент и усовершенствовать подачу той или иной информации, но и освободить время и ресурсы своих клиентов в пользу более важных задач.

Вырос уровень технологий

За последние годы развитие искусственного интеллекта и внедрение отдельных практик в различных сферах экономики начали приобретать повсеместный характер. ИИ прошел долгий путь развития от простых логических алгоритмов и экспертных систем до современных нейросетевых моделей. Но в последние годы эти технологии сделали огромный шаг вперед, произошел настоящий бум ИИ.

Помимо тренда на цифровизацию, есть несколько факторов, которые, как мне кажется, повлияли на это:

увеличение вычислительных мощностей;
доступность данных;
прогресс в области машинного обучения;
признание значимости и увеличение интереса к ИИ.

Например, в 2022 году, когда компания OpenAI представила ChatGPT (чат-бот, генерирующий текстовые ответы на запросы пользователей), то сначала он путал по смыслу слова в предложениях и не мог построить логический текст. Человек сразу видел, что с текстом что-то не так. А уже через год с помощью этого же сервиса российский студент защитил свой диплом, который написал ему ChatGPT.

Теперь про генерацию видео. Есть такой термин — эффект «зловещей долины». Он появился на старте новых технологий, связанных с нейросетями и искусственным интеллектом в Кремниевой долине, когда первые цифровые персонажи были хоть и похожи на людей, но выглядели неестественно. Человеческий глаз улавливал это, и возникал диссонанс, что вроде бы персонаж выглядит как человек, но при этом, очевидно, неживой. Сейчас же уровень в этом направлении также вырос.

Мы в CDNvideo стремимся делать наших аватаров максимально естественными: начали использовать 3D-анимацию, когда человека для цифрового аватара снимают не только анфас, а в движении и разных ракурсах. В результате мы добились того, что цифровые аватары могут выглядеть натурально и восприниматься пользователями нейтрально или даже положительно. Останавливаться на достигнутом не собираемся. Мы продолжим совершенствовать наш продукт и двигать развитие и уровень подобных технологий вперед.

Искусственный интеллект