Кто такой аналитик баз данных. Наиболее полный список инструментов для анализа данных и машинного обучения

Кто такой аналитик баз данных. Наиболее полный список инструментов для анализа данных и машинного обучения


Результаты опроса работодателей свидетельствуют о том, что специалисты по обработке больших данных (Big Data) работают в 6% компаний. Основной спрос на аналитиков Big Data формируют IT и телеком-компании, банки и крупные розничные сети.

Вопрос: «Работают ли в вашей компании специалисты по анализу больших массивов данных (Big Data, Data Scientist)?»

Вариант ответа Все сферы деятельности ИТ / Телеком Банки Ритейл
Да 6% 21% 17% 13%
Нет 75% 60% 50% 45%
Затрудняюсь ответить 19% 19% 33% 42%

В своих комментариях представители крупных компаний отмечали, что аналитика больших данных является важным направлением бизнеса.

«Big Data аналитики входят в подразделение Digital. Это стратегическое для нас направление, оно подчиняется напрямую генеральному директору. Создано подразделение в таком формате меньше года назад. Наш бизнес связан с получением огромного количество данных, поэтому аналитика для нас очень важна. У нас очень сильная команда и очень амбициозные задачи», - говорит представитель оператора связи.

«У нас около 15 направлений/проектов по банку, где такие специалисты востребованы. Каждому проекту нужны свои специалисты, и они могут разные данные анализировать», - комментирует рекрутер крупного коммерческого банка.

Специалисты по подбору персонала отмечали ряд сложностей в подборе аналитиков больших данных, вызванных дефицитом квалифицированных кадров и отсутствием критериев по оценке компетенций: «Сложно оценивать уровень квалификации и экспертизы. У нас очень высокие требования. Мы проводим многоступенчатый отбор, с несколькими этапами интервьюирования, с тестами, проверяющими аналитические способности. Очень большое количество кандидатов отсеивается».

«Все мы хотим уже состоявшихся специалистов, реализовавших успешные кейсы, но их мало на рынке. Сложно определить уровень человека, потому как задачи разные, не совсем понятно, будет ли адекватен его опыт для нас», - добавляет представитель крупного коммерческого банка.

Проблемы с поиском кадров увеличиваются из-за отсутствия общепринятого названия должности специалистов, занимающихся анализом больших данных, и пула стандартных должностных обязанностей.

Вакансии, подразумевающие работу с большими данными, могут носить совершенно различные названия, например: аналитик big data; математик/математик-программист; менеджер по анализу систем; архитектор big data; бизнес-аналитик; BI-аналитик; информационный аналитик; специалист Data Mining; инженер по машинному обучению.

Специалистов по работе с Big Data можно разделить на 2 направления:
инженеры Big Data - в большей степени отвечают за хранение, преобразование данных и быстрый доступ к ним;
аналитики Big Data - отвечают за анализ больших данных, выявление взаимосвязей и построение моделей.

В должностные обязанности аналитика Big Data входит:

Построение процесса сбора данных для возможности их последующей оперативной обработки;
анализ и прогнозирование потребительского поведения, сегментация клиентской базы (кластеризация, классификация, моделирование, прогнозирование);
персонализация продуктовых предложений;
анализ эффективности внутренних процессов и операционной деятельности;
выработка решений по оптимизации текущих процессов на основании результатов анализа;
анализ рисков, подозрительных операций, выявление мошенничества;
обеспечение полноты и взаимосвязанности данных из разных источников (многоканальные продажи, маркетинг, интернет);
формирование периодических отчетов для оценки результатов, визуализация и презентация данных.

Заработные платы аналитиков Big Data и требования к их профессиональным навыкам

Зарплатный диапазон Требования и пожелания к профессиональным навыкам
- Высшее образование (математика, математическая статистика)
- Знание методов математической статистики, алгоритмов анализа данных и математического моделирования
- Знание современных технологий обработки больших данных
- Знание основ реляционных БД и языка SQL
- Знание английского языка на уровне чтения технической документации
80 000 - 110 000 руб. - Отличные аналитические навыки, способность видеть новые пути решения задач
- Владение статистическими инструментами SPSS, R, MATLAB, SAS Data Miner, Tableau
- Глубокие знания методов статистического анализа данных, построения математических моделей (нейронные сети, байесовские сети, кластеризация, регрессионный, факторный, дисперсионный и корреляционный анализы и т.п.)
- Опыт работы с большими массивами данных, реляционными БД
- Опыт анализа больших массивов данных с выявлением зависимостей и закономерностей
- Опыт работы с инструментами визуализации данных (в т.ч. для построения графов)
- Опыт работы аналитиком Big Data от 1 года
- Знание скриптовых языков программирования Python/Ruby/Perl
- Опыт машинного обучения
- Опыт использования Hadoop, Google big table
- Опыт работы аналитиком Big Data от 2 лет

Возможное пожелание: знание английского языка на свободном или разговорном уровне

- Опыт построения коммерчески успешных сложных моделей поведения целевой аудитории помощью data mining инструментов
- Опыт работы аналитиком Big Data от 3 лет

Возможные пожелания:
- наличие научных публикаций в области Big Data;
- опыт внедрения систем по работе с Big Data

Код для вставки в блог

Аналитик Big Data

Исследовательский центр портала Superjob изучил предложения работодателей и ожидания претендентов на позицию «Аналитик Big Data» в Москве.

Перед нами таблица с неструктурированными данными. Мы можем их систематизировать и настроить отображение тех данных, которые есть у нас в таблице. «Сумму заказов» отправляем в «Значения», а «Продавцов», «Дату продажи» - в «Строки». По данным разных продавцов за разные годы тут же посчитались суммы. При необходимости можно развернуть каждый год, квартал или месяц - получим более детальную информацию за конкретный период.

Набор опций будет зависеть от количества столбцов. Например, у нас пять столбцов. Их нужно просто правильно расположить и выбрать, что мы хотим показать. Скажем, сумму.

Можно её детализировать, например, по странам. Переносим «Страны».

Можно посмотреть результаты по продавцам. Меняем «Страну» на «Продавцов». По продавцам результаты будут такие.

Этот способ визуализации данных с географической привязкой позволяет анализировать данные, находить закономерности, имеющие региональное происхождение.

Полезное дополнение. Координаты нигде прописывать не нужно - достаточно лишь корректно указать географическое название в таблице.

Как работать

  1. Откройте файл с таблицей, данные которой нужно визуализировать. Например, с информацией по разным городам и странам.
  2. Подготовьте данные для отображения на карте: «Главная» → «Форматировать как таблицу».
  3. Выделите диапазон данных для анализа.
  4. На вкладке «Вставка» есть кнопка 3D-карта.

Точки на карте - это наши города. Но просто города нам не очень интересны - интересно увидеть информацию, привязанную к этим городам. Например, суммы, которые можно отобразить через высоту столбика. При наведении курсора на столбик показывается сумма.

Также достаточно информативной является круговая диаграмма по годам. Размер круга задаётся суммой.

3. Лист прогнозов

Зачастую в бизнес-процессах наблюдаются сезонные закономерности, которые необходимо учитывать при планировании. Лист прогноза - наиболее точный инструмент для прогнозирования в Excel, чем все функции, которые были до этого и есть сейчас. Его можно использовать для планирования деятельности коммерческих, финансовых, маркетинговых и других служб.

Полезное дополнение. Для расчёта прогноза потребуются данные за более ранние периоды. Точность прогнозирования зависит от количества данных по периодам - лучше не меньше, чем за год. Вам требуются одинаковые интервалы между точками данных (например, месяц или равное количество дней).

Как работать

  1. Откройте таблицу с данными за период и соответствующими ему показателями, например, от года.
  2. Выделите два ряда данных.
  3. На вкладке «Данные» в группе нажмите кнопку «Лист прогноза».
  4. В окне «Создание листа прогноза» выберите график или гистограмму для визуального представления прогноза.
  5. Выберите дату окончания прогноза.

В примере ниже у нас есть данные за 2011, 2012 и 2013 годы. Важно указывать не числа, а именно временные периоды (то есть не 5 марта 2013 года, а март 2013-го).

Для прогноза на 2014 год вам потребуются два ряда данных: даты и соответствующие им значения показателей. Выделяем оба ряда данных.

На вкладке «Данные» в группе «Прогноз» нажимаем на «Лист прогноза». В появившемся окне «Создание листа прогноза» выбираем формат представления прогноза - график или гистограмму. В поле «Завершение прогноза» выбираем дату окончания, а затем нажимаем кнопку «Создать». Оранжевая линия - это и есть прогноз.

4. Быстрый анализ

Эта функциональность, пожалуй, первый шаг к тому, что можно назвать бизнес-анализом. Приятно, что эта функциональность реализована наиболее дружественным по отношению к пользователю способом: желаемый результат достигается буквально в несколько кликов. Ничего не нужно считать, не надо записывать никаких формул. Достаточно выделить нужный диапазон и выбрать, какой результат вы хотите получить.

Полезное дополнение. Мгновенно можно создавать различные типы диаграмм или спарклайны (микрографики прямо в ячейке).

Как работать

  1. Откройте таблицу с данными для анализа.
  2. Выделите нужный для анализа диапазон.
  3. При выделении диапазона внизу всегда появляется кнопка «Быстрый анализ». Она сразу предлагает совершить с данными несколько возможных действий. Например, найти итоги. Мы можем узнать суммы, они проставляются внизу.

В быстром анализе также есть несколько вариантов форматирования. Посмотреть, какие значения больше, а какие меньше, можно в самих ячейках гистограммы.

Также можно проставить в ячейках разноцветные значки: зелёные - наибольшие значения, красные - наименьшие.

Надеемся, что эти приёмы помогут ускорить работу с анализом данных в Microsoft Excel и быстрее покорить вершины этого сложного, но такого полезного с точки зрения работы с цифрами приложения.

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

Почему все молятся на биг дату

Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты. Тем не менее в науке о данных большие данные занимают важное место. Чем больше массив, тем интересней будут результаты, извлеченные из глубоких недр большой кучи данных.

Преимущества больших данных:
  • С ними интересно работать.
  • Чем больше массив данных, тем меньше вероятность того, что исследователь примет неверное решение.
  • Точные исследования поведения интернет-пользователей без большого количества данных практически невозможны.
  • Хранилища данных стали дешевле и доступнее, поэтому хранить и анализировать большие данные гораздо выгоднее, чем строить заведомо неверные прогнозы.

Наука о данных

Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.

Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.

Примеры применения науки о данных:
  • Тактическая оптимизация - улучшение маркетинговых кампаний, бизнес-процессов.
  • Прогнозируемая аналитика - прогноз спросов и событий.
  • Рекомендательные системы - Amazon, Netflix.
  • Системы автоматического принятия решений - например распознавание лиц или даже беспилотники.
  • Социальные исследования - обработка анкет или данных, полученных любым другим способом.
Если говорить простым языком, то наука о данных вмещает в себя все перечисленные в заголовке понятия.

Аналитика

Аналитика - это наука об анализе, применении анализа данных для принятия решений.

Аналитика данных предназначена для внедрения инсайтов в массив данных и предполагает использование информационных запросов и процедур объединения данных. Она представляет различные зависимости между входными параметрами. Например, автоматически выявленные, не очевидные связи между покупками.

В науке о данных для построения прогнозируемой модели используются сырые данные. В аналитике зачастую данные уже подготовлены, а отчеты может интерпретировать практически любой юзер. Аналитику не нужны глубокие знания высшей математики, достаточно хорошо оперировать данными и строить удачные прогнозы.

Анализ данных

Анализ данных - это деятельность специалиста, которая направлена на получение информации о массиве данных. Аналитик может использовать различные инструменты для анализа, а может строить умозаключения и прогнозы полагаясь на накопленный опыт. Например, трейдер Forex может открывать и закрывать трейдерские позиции, основываясь на простых наблюдениях и интуиции.

Машинное обучение

Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.

При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.

Примеры алгоритмов:
  • Модели, которые могут прогнозировать поведение пользователя.
  • Классификационные модели, которые могут узнать и отфильтровать спам.
  • Рекомендательные системы - изучают предпочтения пользователя и пытаются угадать, что ему может понадобиться.
  • Нейронные сети - не только распознают образы, но и сами могут их создавать.
Исследователи применяют техники машинного обучения, чтобы автоматизировать решение некоторых задач. Эти системы очень нужны для работы с некоторыми очень сложными проектами. Например, чтобы узнать в какой стране живут самые счастливые люди, ученые определяли улыбки на фотографиях, загруженных в Instagram.

Отбор данных

Сырые данные изначально беспорядочны и запутаны, собраны из различных источников и непроверенных записей. Не очищенные данные могут скрыть правду, зарытую глубоко в биг дате, и ввести в заблуждение аналитика.

Дата майнинг - это процесс очистки больших данных и подготовки их последующему анализу или использованию в алгоритмах машинного обучения. Дата майнеру нужно обладать исключительными распознавательными качествами, чудесной интуицией и техническими умениями для объединения и трансформирования огромного количества данных.

Конспект

  1. Чем больше данных, тем сложнее их анализ.
  2. Наука о данных - это знания о выводимых данных, отбор, подготовка и анализ.
  3. Машинное обучение применяется для сбора и анализа массивов данных.
  4. Дата майнинг - это процесс очистки больших данных и подготовки их к последующему анализу.

Базы данных уже сегодня входят в нашу жизнь как незаменимая частичка бизнеса, производства или учета. Однако, что такое в разрезе эта база данных и кто такой аналитик баз данных? В этой статье мы и узнаем это.

Информационные технологии не стоят на месте, и уже сегодня они имеют такой большой вес в бизнесе, что бывает даже сложно себе представить. Информация – везде. В производстве, торговле, обучении, интернете – буквально повсеместно. С вхождением информационных технологий в нашу повседневность остро стала потребность и хранить информацию, а как это сделать максимально комфортно и рационально? Для этой цели и были придуманы базы данных.

Что такое база данных?

База данных – это совокупность самостоятельных материалов (таких как, например, статья, статистические данные, расчеты, графики, документы и т.д.), максимально систематизированных для удобства использования этих данных. Как пример можно привести картотеку в любой поликлинике – это тоже база данных, отсортированная по первой букве фамилии, а также по году рождения посетителя. Кстати, стоит сказать, что гос. учреждения уже отходят от этой бумажной работы и переходят к электронным базам данных ради максимальной скорости обработки этой информации.

Но базы данных могут быть гораздо сложнее, чем электронная картотека в лечебнице. В более профессиональном понимании база данных – совокупность математических данных, систематизированных таким образом, чтобы их можно было обработать с помощью электронно-вычислительной машины (ЭВМ), в современном понимании – ПК.

Такие базы данных очень часто играют огромную роль в ведении бизнеса. Например, в такой отрасли как интернет-маркетинг, обойтись без сетевой базы данных попросту невозможно, ведь это – та самая структурная часть маркетинга, которая регулирует его полностью, в которой хранятся все жизненно-важные данные для продавца.

Вообще, отраслей, в которых используются базы данных больше, чем вы можете себе представить:

  • Интернет-маркетинг
  • Веб-порталы
  • Разработка программного обеспечения
  • Торговля
  • Производство
  • Государственный учет (налоги, выплаты и т.д.)
  • Сервисы хранения данных

Вход баз данных в нашу жизнь вполне понятен и был неизбежен. Но неужели такой базе данных не нужен обслуживающий персонал? Конечно нужен, ведь она делается именно для людей, и, что самое важное, помогает не просто записывать и сохранять какие-то данные, она еще и помогает делать выводы, создавать статистику и выяснять необходимую информацию на основе имеющихся данных.

Кто работает с базой данных?

Очевидно, с ней работают специалисты, однако какие? Для того, чтобы умело анализировать ряд данных в определенной базе часто требуется больше одного человека, то бишь, целая команда, в которой каждое звено отвечает за определенную стадию в анализе данных. В целом, отдельного такого специалиста можно назвать аналитик базы данных.

Быть аналитиком базы данных – дело, которое требует нешуточной образованности специалиста в абсолютно разных отраслях (статистика, информатика, математика). Даже более того – аналитик должен быть не просто образованным, но еще и коммуникативным и открытым – такой человек должен креативно подходить к своей работе, чтобы максимально эффективно провести анализ, а после этого показать заказчику информацию, которую получилось собрать и структурировать таким образом, чтобы это было понятно и полезно.

В целом, если описывать специалиста по аналитике базы данных, можно выделить такие важные черты:

  • Умение понять данные так, чтобы они могли представлять собой не просто статистику, а какую-то по-настоящему важную информацию.
  • Креативность – человек должен любить свою работу, уметь перебирать максимум информации, ставить новые вопросы перед конкретной базой данных, которые помогут дать заказчику ту самую полную информацию, которую он ожидает увидеть.
  • Любой заказчик будет только рад, чтобы аналитик базы данных будет иметь познания в программировании на таких языках, как Java, Python и так далее, ведь это только расширяет возможности специалиста.
  • Правильная подача данных также является важным аспектом – специалист по сбору и обработке данных обязан подать информацию так, чтобы она была понятна широкой аудитории
  • Познания в сфере бизнеса крайне важны, ведь человек, проводящий анализ в этой отрасли, должен понимать, каким образом работает вся та система, которую он анализирует, какие данные максимально важны и из каких данных можно получить максимальную пользу
  • И, само собой, умение правильно проводить аналитику – ключевое умение, потом у что видеть то, что не увидит простой человек в базе данных – ключевое умение любого специалиста по аналитике баз данных

Подведя черту, можно отметить, что основное требование к такому специалисту (кроме, естественно, ключевых знаний) является многонаправленность, ведь аналитик баз данных это разносторонность во всех ее самых изощренных пониманиях. Человек должен уметь общаться с людьми, предоставлять им информацию и показывать, что проведенные ним исследования были не напрасны. Именно такого аналитика баз данных можно назвать успешным и именно такого работника захочет увидеть у себя абсолютно каждый заказчик.

Аналитик больших данных - это универсальный специалист, который обладает знаниями в математике, статистике, информактике, компьютерных науках, бизнесе и экономике. Аналитик Big Data изучает большие массивы данных, содержащие разрозненную информацию, например, результаты исследований, рыночные тенденции, предпочтения клиентов и пр. Исследование и анализ такой информации может привести к новым научным открытиям, повышению эффективности работы компании, новым возможностям получения дохода, улучшению обслуживания клиентов и т.д. Основное умение специалистов по изучению данных – это видеть логические связи в системе собранной информации и на основании этого разрабатывать те или иные бизнес-решения, модели.

Аналитики Больших данных должны уметь извлекать нужную информацию из всевозможных источников, включая информационные потоки в режиме реального времени, и анализировать ее для дальнейшего принятия бизнес-решений. Дело не только в объеме обрабатываемой информации, но также в ее разнородности и скорости обновления.

Сегодня термин Big Data, как правило, используется для обозначения не только самих массивов данных, но также инструментов для их обработки и потенциальной пользы, которая может быть получена в результате кропотливого анализа. Главные характеристики, отличающие Big Data от другого рода данных – три V: volume (большие объемы), velocity (необходимость быстрой обработки), variety (разнообразие).

Есть две основные специализации для людей, которые хотят работать с большими данными:

  • инженеры Big Data - в большей степени отвечают за хранение, преобразование данных и быстрый доступ к ним;
  • аналитики Big Data - отвечают за анализ больших данных, выявление взаимосвязей и построение моделей.

Основной спрос на аналитиков Big Data формируют IT и телеком-компании и крупные розничные сети. В последнее время к Big Data все чаще прибегают в банковском секторе, государственном управлении, сельском хозяйстве. Привлечение специалиста по Big Data - это возможность посмотреть на имеющиеся данные с разных углов зрения.

Другие названия профессии: Специалист по исследованию данных, Data Scientist, BI, Business intelligence специалист, Big Data специалист.

Обязанности

Сбор данных

Любой аналитик больших данных имеет дело с разрозненной информацией, которую нужно правильно структурировать, а именно провести:

  • построение процесса сбора данных для возможности их последующей оперативной обработки;
  • обеспечение полноты и взаимосвязанности данных из разных источников;
  • выработка решений по оптимизации текущих процессов на основании результатов анализа.

Анализ данных

Структурировав данные аналитик должен на их основе провести анализ и получить ответы на ранее поставленные вопросы. Для этого аналитик делает:

  • анализ и прогнозирование потребительского поведения, сегментацию клиентской базы, статистических показателей;
  • анализ эффективности внутренних процессов и операционной деятельности;
  • анализ различных рисков;
  • составление периодических отчетов с прогнозами и презентацией данных.

Разработка эффективных бизнес-решений

В современном конкурентном и быстро меняющемся мире, в постоянно растущем потоке информации Data Scientist незаменим для руководства в плане принятия правильных бизнес-решений:

  • составление отчётов, заключение выводов;
  • презентация результатов.

Что нужно знать и уметь

    Личные качества
  • Быстрая обучаемость;
  • Критическое мышление;
  • Аналитический склад ума;
  • Внимание к мелочам;
  • Ответственность;
  • Широкий кругозор;
  • Cпособность доводить исследования до конца, несмотря на неудачные промежуточные результаты;
  • Умение объяснить сложные вещи простыми словами;
  • Бизнес-интуиция.
    Основные навыки
  • Основательное знание отрасли, в которой происходит работа;
  • Владение статистическими инструментами SPSS, R, MATLAB, SAS Data Miner, Tableau;
  • Глубокие знания методов статистического анализа данных, построения математических моделей (нейронные сети, байесовские сети, кластеризация, регрессионный, факторный, дисперсионный и корреляционный анализы и т.п.);
  • ETL (Extraction, Transformation, Loading) – извлечение данных из различных источников, их преобразование для анализа, загрузка в аналитическую базу данных;
  • Умение ставить задачу специалистам по базам данных;
  • Свободное владение SQL;
  • Знание английского языка на уровне чтения технической документации;
  • Знание скриптовых языков программирования Python/Ruby/Perl;
  • Навык машинного обучения;
  • Умение работать в Hadoop, Google big table.


просмотров