Такое понятие, как Big Data, быстро вошло в нашу жизнь и теперь встречается буквально повсюду. Голосовые помощники, агрегаторы такси, поиск информации в интернете и многое другое. Несмотря на то что сервисы, без которых мы не можем представить сейчас свою жизнь, стали доступны именно благодаря Big Data, далеко не все понимают, что это такое. Руководитель департамента по внедрению системы управления на основе анализа данных билайна Николай Безносов в новом выпуске проекта билайна «Как это работает» ответил на ключевые вопросы о Big Data.
Что такое Big Data? Сколько это?
Когда человек впервые слышит словосочетание Big Data, он думает только про объем этих самых данных. Само собой, объем важен, но той самой границы, после которой данные становятся «большими», сейчас просто не существует. Можно сказать так: если вы работаете с данными, которые не помещаются на один сервер и для их обработки требуется уже серьезная инфраструктура (например, кластер из нескольких машин), то у вас Big Data. Это десятки и сотни терабайт. Хотя через лет 5-10, думаю, со мной уже многие не согласятся. Объем и количество — это важно, но если вы будете разговаривать с экспертами в этой теме, то, скорее всего, под Big Data они будут подразумевать инструменты и методы для хранения и обработки данных большого объема. Потому что какими большими бы данные ни были, они никому не будут интересны, если непонятно, как и где их хранить, с помощью чего обрабатывать и как монетизировать. Когда эти условия выполняются, то можно говорить, что мы имеем дело с Big Data.
Откуда берутся большие данные?
Отовсюду вокруг нас. Если говорить конкретно про источники больших данных, то я бы выделил три основных. Первый — самый неочевидный, но, наверное, самый большой — это машинные данные с различных устройств и девайсов. Возьмем, к примеру, смартфон. Когда вы просто гуляете по улице, ваш телефон обменивается огромным количеством информации с окружающим миром. Он подключается к разным вышкам сотовой связи, чтобы у вас был интернет, получает пуш-уведомления от различных приложений, если вы включили геолокацию, он отслеживает и корректирует ваше месторасположение, чтобы вы не потерялись. Второй источник — данные социальных сетей. Это и личная информация пользователей, и поведенческая — лайки, репосты и другие взаимодействия. Третий — это транзакционные данные, банковские операции и информация о покупках.
Зачем социальные сети собирают персональные данные?
Ответ на этот вопрос достаточно прозаичный — чтобы зарабатывать на этом деньги. Сейчас говорят, что данные — это новая нефть. С нефтью действительно можно провести аналогию — вот можно продавать сырье, а можно делать нефтепродукты с большей стоимостью. С данными то же самое. Самый простой и плохой способ — продавать данные. Есть компании, которые этим промышляют, но все же более продвинутые стараются из этих данных создавать продукты для своих клиентов и получать на этом дополнительную прибыль. Если говорить конкретно, то социальные сети зарабатывают на рекламе. Но нельзя же всем пользователям показывать одно и то же, хочется учитывать их индивидуальные предпочтения. Социальная сеть может догадываться об интересах того или иного пользователя и показывать ориентированную рекламу. Персонализация предложений сейчас, пожалуй, является самым популярным способом использования Big Data. При таком, казалось бы, «меркантильном» подходе стоит понимать, что для самого пользователя поиск необходимой информации был бы невозможен, если социальные сети не собирали бы наши данные и не помогали нам ориентироваться по своим потребностям в этом потоке.
Правда, что смартфоны нас прослушивают? Это опасно?
Однажды наткнулся на комментарий, как какой-то человек пришел домой, увидел, что у него закончилась зубная паста, громко об этом воскликнул, и потом ему в интернете пошла реклама с доставкой зубной пасты на дом. В рамках этой истории можно сказать, что если в этот момент человек не общался с голосовым помощником, если у него не были включены умные устройства и другие девайсы, то я склонен считать, что это простое совпадение. Если он общался в этот момент, например, с голосовым помощником, то это в целом подтвержденная история, в том числе и самими компаниями. Они используют такие данные, чтобы улучшать качество своего сервиса. Опасно ли это? Я бы относился к этому так — если это мне не вредит, если это направлено на то, чтобы сделать мой клиентский путь проще, сделать сервисы лучше, а не дополнить мое «личное дело», то ничего плохого в этом нет.
Какие задачи у Big Data?
Big Data — это про то, как хранить и обрабатывать данные большого объема. Задача здесь достаточно понятная: сделать этот процесс максимально эффективным. Но компаниям неинтересно просто хранить и обрабатывать данные. Нужно принимать на основе этих данных какие-то решения и разрабатывать продукты. Вот этим занимается уже другая область — анализ данных и машинное обучение: то, что сейчас называется Data Science. Я уже приводил несколько примеров применения машинного обучения — поиск и персонализированные предложения, но, конечно, их существенно больше. Это и динамическое ценообразование, оптимизация производства, антифрод, маркетинг. Распознавание изображений в вашем смартфоне на самом деле тоже происходит с помощью машинного обучения. Да и такси сегодня уже не нужно искать с вытянутой рукой, машина к вам приезжает за пару минут. Благодаря анализу миллионов поездок алгоритмы понимают, что в таком-то районе в такое-то время обычно большой пассажиропоток, поэтому туда нужно направить больше водителей. Вот такие задачи у Big Data — делать нашу жизнь удобнее.
Какие данные собирает билайн и где хранит?
У нас есть свой дата-центр в Ярославле. Это сотни серверов, на которых мы храним и обрабатываем данные. Если говорить про сами данные, то они очень разнообразные. Представим, что вы, например, заходите на наш интернет-сайт, приходите в наш офис продаж, покупаете смартфон или оформляете сим-карту, общаетесь с нашим кол-центром и так далее. В целом все ваше поведение в обезличенном виде складируется на наши сервера, это первое. Второе — информация с нашего оборудования и базовых станций. Кто, где, когда подключился, сколько трафика потратил. Само собой, это не все данные, но если судить по объему, то существенная его часть.
Что билайн делает с помощью больших данных?
Мы в билайне используем аналитику, данные, машинное обучение во всех ключевых бизнес-процессах. Персональные предложения для наших абонентов, антифрод и антиспам, оптимизация качества нашей сети, аудио- и видеоаналитика, дистрибуция, логистика, маркетинг. Но еще более интересно то, что данные позволяют не только оптимизировать существующие бизнес-процессы в компании, но и создавать совершенно новые бизнесы, новые сферы, которые выходят за рамки привычного нам телекома. И это то, куда сейчас стремятся ключевые диджитал-игроки на рынке, и то, куда в том числе идет билайн.