В начале недели билайн совместно с Brand Analytics представили рейтинг компаний и институтов, занимающихся искусственным интеллектом в России, который составила нейросеть. Ознакомиться с рейтингом ИИ можно на сайте проекта. Всего было проанализировано более 1 млн материалов, а по итогу в рейтинг в контексте интересующих нас номинаций попали 248 компаний. 

Подробности о внутренней «кухне» проекта рассказывают руководитель по развитию машинного обучения и искусственного интеллекта Александр Авилов и эксперт по машинному обучению и искусственному интеллекту Владимир Ловцов, которые занимались разметкой датасета и обучением нейросети.

Расскажите про идею этого рейтинга: как она появилась, сколько в целом времени заняла подготовка?

Александр Авилов: Идея рейтинга пришла от коллег из PR-отдела еще в прошлом ноябре. У ребят возникла немного утопическая на тот момент идея – собрать российские компании и определить, какие из них лучше с точки зрения работы с искусственным интеллектом. 


То есть, если говорить верхнеуровнево, то наш рейтинг отражает вклад компаний в развитие ИИ в России по разным направлениям или номинациям. За основу рейтинга бралась информация из открытых источников, под каждую номинацию собиралась база «полезной информации». Если приводить простой пример, у нас есть номинация «Инвестиции в искусственный интеллект»: в ней «полезной» можно считать информацию об объеме инвестиций. 


Если говорить про сроки, то подготовка рейтинга в общей сложности у нас заняла где-то около полугода. 

Расскажите, как собирали данные для рейтинга?

Александр Авилов: В какой-то момент у нас появился принципиально важный партнер, который помог нам с массивом данных для исследования и составления рейтинга – это компания Brand Analytics. В моем понимании, без них никакого рейтинга и не было бы, потому что любое машинное обучение строится на нескольких столпах, один из которых – это, собственно, данные, которые у тебя есть на входе.

Владимир Ловцов: Нам предоставили очень большой массив: суммарно более миллиона новостей и сообщений из Telegram-каналов. 


Сами данные были довольно высокого качества. Тем не менее мы сначала провели очистку информации: убрали какие-то битые тексты, убрали повторяющиеся новости, чтобы не оценивать одно и то же событие несколько раз и оценивать именно уникальные события. 


В результате этой работы массив сократился почти в два раза и составил примерно 500 тыс. сообщений. На их основе мы и выстраивали свой рейтинг. 

Какие были ключевые критерии, которые нейросеть использовала для составления этого рейтинга?

Александр Авилов: Ребята из PR-отдела сразу обозначили список номинаций, которые были бы им интересны. В качестве примера таких номинаций можно привести инвестиции в искусственный интеллект, социальный искусственный интеллект, различные технологические решения, а также вклад в развитие искусственного интеллекта в целом. 


Каждая из этих номинаций разбивается на несколько категорий, что помогает определить более конкретную информацию. Например, в рамках номинации «Инвестиции» мы можем рассматривать вклад в искусственный интеллект в денежном эквиваленте, покупку компаний, занимающихся искусственным интеллектом, или приобретение конкретных технологических решений. 


С другой стороны, номинация «Социальный искусственный интеллект» может включать менее конкретные категории, такие как количество социально значимых проектов, участие в государственных программах по искусственному интеллекту, наличие бесплатных продуктов, а также вклад в безопасное и этичное использование искусственного интеллекта. 


Эти номинации и категории в них стали основой нашей рейтинговой системы. Вы можете ознакомиться с ними на нашем сайте.

Если говорить о номинации «Социальный ИИ», расскажите подробнее о том, как вы оценивали критерии?

Александр Авилов: В данном случае, большинство критериев было проще оценивать количественно или фактически. К примеру, одним из критериев является количество социально значимых проектов. Разумеется, можно долго обсуждать, что именно является социально значимым проектом: понимание этого термина может варьироваться от человека к человеку. 


Мы пришли к обобщенному пониманию того, что такое социально значимый проект, и на его основе подсчитывали количество таких проектов. То есть, важную роль играли именно количественные показатели. На качество нашего понимания значимости проекта указывали эксперты, которые в дальнейшем комментировали результаты.

В чем заключается вклад нейросети в составлении этого рейтинга по сравнению с традиционными методами?

Александр Авилов: Прежде всего, стоит отметить, что понятие «искусственный интеллект» сейчас довольно широкое. По сути, любая модель независимо от ее архитектуры попадает под это определение, будь это модель машинного обучения, нейросеть или что-то другое. 


Традиционные методы составления рейтинга, вероятно, подразумевают ситуации, когда эксперты анализируют данные и проводят аналитическую работу. В этом контексте нейросеть выполняет, по сути, ту же функцию, не имея при этом серьезных отличий. Однако есть некоторые преимущества использования искусственного интеллекта. 


Во-первых, нейросеть абсолютно объективна и беспристрастна. Она анализирует данные, которые мы получаем из открытых источников, и делает это без каких-либо субъективных суждений или предвзятостей. Это, вероятно, самое важное преимущество. 


Во-вторых, нейросети значительно быстрее людей, что позволяет нам сэкономить время и обрабатывать большие объемы данных. Например, вместо того чтобы тратить целый год на подсчет рейтингов, нейросеть может справиться с этой задачей гораздо быстрее. 


Третье преимущество, хоть и менее значимое, но тем не менее важное, это возможность переиспользовать результаты предыдущих работ. То есть, в следующем году мы сможем использовать данные из прошлого года для улучшения и доработки нашей системы. Именно искусственный интеллект позволяет нам это делать.

То есть планируется сделать этот рейтинг регулярным?

Александр Авилов: Да, мы планируем обновлять его раз в год. При этом дорабатывая модель, которую мы для него использовали. Всегда есть к чему стремиться: мы уже разработали определенный план действий. В частности, мы хотим расширить список номинаций и категорий, которые мы будем использовать и рассматривать. 


Также мы планируем использовать информацию и обратную связь, которую получим после публикации рейтинга. Очень важно будет оценить реакцию рынка и экспертного сообщества и на основе этой информации провести необходимые доработки. Эти пункты уже заложены в наших планах.

Владимир Ловцов: Да, возможно, мы проведем новый анализ, выявим новые паттерны и немного перестроим архитектуру моделей. В машинном обучении это нормальная практика: у нас сначала есть определенный набор данных; затем, например, мы расширяем список источников, добавляем новые данные или расширяем период для анализа. В целом​ обучение модели всегда связано с изменением истории данных. Невозможно просто создать модель один раз и постоянно ее использовать без изменений, потому что меняются тенденции, зависимости, показатели.

Давайте поговорим про результаты. Какие новые тенденции и закономерности вы обнаружили в процессе создания рейтинга?

Владимир Ловцов: Из того, что меня особенно порадовало, было замечено, что техногиганты активно вкладываются в развитие социальных проектов, которые улучшают общую жизнь граждан и развивают сферу медицины, а также поддерживают порядок в обществе. Был отмечен высокий уровень вовлеченности компаний в подготовку кадров и сотрудничество с другими организациями.


Активно развивается практическое партнерство между ведущими университетами и компаниями, что выражается в форме технопарков, совместных образовательных программ, в том числе магистратур, а также хакатонов, которые проводятся компаниями на базе вузов. 


В целом остальные выводы довольно предсказуемы: банки активно зарабатывают и инвестируют в различные проекты, университеты активно работают над подготовкой кадров и так далее.

Александр Авилов: Соглашусь, действительно, важно отметить роль университетов и их вовлеченность, которая оказалась неожиданно высокой во многих категориях. 


Вывод, который, наверное, был очевиден даже до составления этого рейтинга, но стал еще более очевидным после его публикации, — ​это то, что успешная компания, работающая над важными и инновационными проектами, должна также активно привлекать к себе внимание. Если никто не знает о ваших замечательных проектах, это становится большой проблемой. В конечном итоге важно уделять время и усилия на медиапиар: не только​ чтобы попасть в подобные рейтинги, но и чтобы быть полезным и заметным на рынке. 


Рейтинг подтвердил, что компании, которые не только занимаются значимыми проектами, но и активно информируют общественность о своих достижениях, попадают в топ и выигрывают в различных параметрах. Поэтому развитие социальных медиа и активное присутствие в них в XXI веке кажется важной составляющей успешности и видимости компании.

Если говорить про импортозамещение (одну из номинаций рейтинга), можно ли сказать, что российское ИИ хорошо чувствует себя в условиях санкций? 

Александр Авилов: Мое личное мнение такое: в контексте технологий, ресурсов и умов у России никогда не было проблем в области искусственного интеллекта. Мы обладаем большим количеством высококвалифицированных специалистов и сильной математической базой, которая является основой для развития машинного обучения. 


Но есть проблемы технического характера. С учетом введения санкций возникли сложности с «железом» или ресурсами. Задачи машинного обучения требуют значительных вычислительных мощностей, и в этом плане у нас, к сожалению, возникли определенные проблемы. 


Но, несмотря на это, разработка решений продолжается. В свете текущей ситуации СМИ начали уделять больше внимания российским решениям в области ИИ, делая акцент на них. Это хорошая история, потому что она показывает, что искусственный интеллект в России жив и развивается.​


Расскажите про идею этого рейтинга: как она появилась, сколько в целом времени заняла подготовка? Расскажите, как собирали данные для рейтинга? Какие были ключевые критерии, которые нейросеть использовала для составления этого рейтинга? Если говорить о номинации «Социальный ИИ», расскажите подробнее о том, как вы оценивали критерии? В чем заключается вклад нейросети в составлении этого рейтинга по сравнению с традиционными методами? То есть планируется сделать этот рейтинг регулярным? Давайте поговорим про результаты. Какие новые тенденции и закономерности вы обнаружили в процессе создания рейтинга? Если говорить про импортозамещение (одну из номинаций рейтинга), можно ли сказать, что российское ИИ хорошо чувствует себя в условиях санкций?