Еще несколько лет назад память мобильных устройств не превышала и одного гигабайта, а сегодня смартфон с объемом встроенного накопителя четыре или восемь гигабайт даже не может претендовать на звание флагмана. Новые технологии вносят изменение в привычные для нас вещи. Лет десять назад фразу “мой телефон делает тяжелые фотографии” мало бы кто понял, а сегодня возможность расширения памяти в смартфонах воспринимается как обыденная функция. С каждым днем новые технологии увеличивают объем контента, который нам приходится хранить в цифровом виде, и это своего рода маленькая “Big Data” в жизни каждого из нас.
Необходимость хранения больших объемов данных приводит к развитию “облачных” сервисов для хранения информации. Для рядового пользователя такой сервис ни что иное, как передача по воздуху фотографий, музыкальных и других файлов, которые при необходимости можно загрузить обратно на свое устройство. Но мало кто задумывался, а где эти данные хранятся и какой объем занимают на сервере того или иного сервиса. И это лишь один из немногих примеров, который поможет составить приблизительную картину применения Big Data ("большие данные").
В качестве другого примера использования big data можно назвать заказ детализации звонков у оператора сотовой связи. Независимо от того, услугами какого оператора вы пользуетесь (Билайн, МТС или Мегафон), “биг дата” хранят всю информацию о совершенных вами звонках, отправке сообщений, использования других услуг. Сегодня, когда на дворе 2017 год, а впервые термин “биг дата” появился в 2008 году, дата центры по обработке данных в течение считанных секунд способны обработать ваш запрос, сформировать ответ и направить его вам. Аналогичная практика применяется и в сфере банков, где также есть необходимость сбора и хранения данных.
Если продолжать рассматривать применение big data на примере мобильных операторов, то при совершении звонков в колл-центр, разговоры с оператором записываются для дальнейшего анализа работы специалистов компании.
Обработка больших данных
Говоря об обработке big data, стоит отметить, что любой дата центр хранит в себе огромный объем абсолютно разнообразной информации, которую необходимо анализировать в кратчайшие сроки. Для понимания скорости обработки можно привести пример работы сервиса новостей Yandex. Поисковый алгоритм способен в доли секунды анализировать и структурировать полученную информацию группируя ее на тематические блоки. Схожий алгоритм используется в маркетинге и аналитике при составлении статистических отчетов или макроэкономических показателях на основе “больших данных”.
В прошлом году Сбербанк представил новый проект “Открытых данных” на основе “big data”. В открытую часть банковских данных вошла обезличенная информация о суммах и размерах потребительских и ипотечных кредитов, депозитов, а также динамика зарплат и пенсий. Использование “открытых”, хоть и обезличенных данных, позволяет партнерам банка анализировать и прогнозировать поведение потенциальных клиентов в любом бизнесе - от продуктового супермакета до авиакомпаний, чтобы выводить на рынок новые и главное востребованные услуги или продукты.
Сегодня, когда объемы данных растут в геометрической прогрессии, необходимо максимально быстро анализировать их. Понятно, что человек не способен на такую работу, поэтому для работы с большими данными применяется программирование вычислительных систем, которое еще называют “машинным обучением”. Это отнюдь не супер-разум и не искусственный интеллект. Машины применяют методы на которые их программирует человек при анализе “больших данных”.
Перспективы больших данных
Всего за несколько лет технологии использования баз данных сделали колоссальный рывок в своем развитии, и это только начало. Сегодня практически во всех сферах нашей жизни мы сталкиваемся с хранением информации с возможностью ее анализа и дальнейшего применения. Основной проблемой остается сложность хранения все большего объема данных, и нехватка вычислительных мощностей.
Специалисты констатируют, что невозможно хранить абсолютно все данные, но и сложно спрогнозировать на каком своем промежутке собранная информация представляет особую ценность для анализа. В перспективе появится возможность высокоскоростного анализа данных, что позволит использовать их в режиме реального времени. Пока же это не представляется возможным учитывая скорость и частоту их обновления. Со временем человек научится использовать “большие данные” по трем определяющих их характеристикам: объему, скорости и многообразии с максимальной для себя пользой. И учитывая скорость развития отрасли произойдет это в ближайшем будущем.