Машинное обучение, искусственный интеллект, Big Data — за этими словами стоит сложная наука ​​— Data science. Что это такое и чем занимаются дата-сайентисты в билайне, в проекте «Как это работает?» рассказывает руководитель департамента машинного обучения и искусственного интеллекта дирекции по искусственному интеллекту и цифровым продуктам Дмитрий Ермилов.

Что такое Data science?

В мире ежедневно появляется огромное количество неструктурированной и сырой информации, которая может быть полезна людям, в частности бизнесу. Data science — это набор инструментов и алгоритмов, которые позволяют эти знания доставать и использовать.

Это молодая наука. Сам термин «Data science» появился в 70-х годах, но тот вид, который эта наука приобрела сейчас, начал формироваться не так давно. Это можно связать с огромным ростом трафика, который случился в 2010-х годах. Те алгоритмы, которые были раньше, просто перестали справляться с объемом информации. Так случился технологический прорыв как в области обработки данных, так и в области их анализа. Например, в области нейронных сетей появились новые архитектуры, которые позволяли очень быстро и эффективно обрабатывать входной поток изображений. Это позволило автоматизировать многие задачи.

Если подвести итог, то в широком смысле Data science — это совокупность методов и инструментов по получению знаний из данных.

Зачем Data science нужна людям?

Благодаря обработке огромного количества информации мы можем создавать продукты. Практически любые сайты и приложения так или иначе используют рекомендательные системы. Это тоже Data science. Мы можем использовать видеоаналитику практически везде — на производствах, фабриках, в офисах. Аудиоинформация также содержит полезные знания. Обработка аудиосигналов сейчас сильно развивается. Она позволяет выявлять мошенников и фродов.

Зачем Data science в телеком-компании?

Телеком-операторы — лидеры рынка по объему информации, который через них проходит ежедневно. В билайне около 50 млн абонентов — это большая база. Ежедневно мы получаем огромное количество обезличенной информации: биллинги, звонки, смс, интернет-трафик, действия в приложении. Это ценнейшая информация, которую телеком-операторы стараются монетизировать. Например, в билайне мы фокусируемся на следующих продуктах — антифрод, сегментация клиентов и скоринговые продукты. Кроме того, в билайне есть продукты на основе компьютерного зрения и анализа аудиосигнала с помощью нейронных сетей. Поэтому Data science и билайн — это уже фактически одно целое.

Что такое антифрод и зачем он нужен?

Сейчас повышается активность различных схем мошенников. Основной канал воздействия на людей — это звонки. Часто злоумышленники преследуют цель каким-то образом обмануть, завладеть персональными данными, например, данными банковской карты. Антифрод — это направление, которое нужно для противодействия мошенникам на ранней стадии. В билайне развивается антифрод-продукт, работающий как некий барьер, который предупреждает абонента о потенциальной угрозе от звонка.

Какие проекты реализует команда Data science в билайне?

билайн обладает большим количеством обезличенной информации о клиентах. Это наше конкурентное преимущество. На основе этой информации мы можем создавать различные продукты, например тот же антифрод или рекомендательные системы. То есть мы можем подбирать под своих клиентов те продукты, которые алгоритмы машинного обучения сочли для них наиболее приемлемыми. Если мы говорим про внешний рынок и B2B-клиентов билайна, то здесь спектр очень большой: от продуктов по компьютерному зрению до обработки аудиосигналов.

Что нужно сделать, чтобы стать дата-сайентистом и попасть на работу в билайн?

Расскажу по категориям.

  • Интерны — это люди, начинающие свою профессию. Желательно, но необязательно, профильное образование. Интернами могут быть и студенты. Интерны должны обладать базовыми знаниями в таких областях, как теория вероятностей, линейная алгебра, машинное обучение, знать язык программирования Python или какой-то аналог и иметь представление о технологиях, которые применяются для обработки данных.
  • Junior — здесь добавляются требования к знанию стека технологий. Нужно уметь в них что-то делать.

  • Middle — это уже зрелый специалист. Он умеет решать задачи самостоятельно. То есть тут повышаются требования к знаниям именно в предметной области, к знанию стека технологий. Необходимо владеть инструментами из используемого стека на уровне уверенного пользователя.

  • Senior — это тот человек, который двигает продукт, он должен не только знать стек и предметную область как эксперт, но и уметь менторить людей, начинающих профессию. От него ждут энергии, драйва. Он должен уметь декомпозировать задачу и видеть продукт в целом.

Вакансии в блоке IT смотри здесь.

Может ли студент попасть к вам в команду?

В большинстве своем в нашу команду могут попасть студенты старших курсов. У нас есть сотрудники на позиции Junior, которые сейчас обучаются в магистратуре. Младшим курсам стоит обратить внимание на стажировки, которые проводятся в билайне. У нас сложившаяся практика по набору интернов, то есть вы можете прийти в билайн, параллельно с учебой, вырасти за определенное время до Junior и стать специалистом уже с промышленным опытом.

Какое будущее у Data science?

Сейчас начинают появляться программы, которые позволяют дата-сайентистам автоматизированно подготавливать данные и обучать модели. Это только зарождается, но я уверен, что вскоре мы сможем увидеть сервис, которому мы будем предоставлять данные, а на выходе получать готовые ML-продукты. Это не значит, что отпадает необходимость в дата-сайентистах. Это означает, что некоторые процессы будут автоматизированы и, наверное, будет чуть-чуть больше порог входа в профессию.

Если говорить о том, куда движутся продукты, — то здесь, конечно, автоматизация рутинных процессов. Мы будем наблюдать это в различных профессиях и областях. Будет происходить замена рутинных действий на алгоритмы и их автоматизация. Если мы говорим о будущем data science в билайне, — у нас есть большая экспертиза в направлениях антифрода, скоринге и таргетированной рекламы. Наша экспертиза растет вместе с ростом рынков, на которых билайн будет предоставлять передовые решения.