Наиболее полный список инструментов для анализа данных и машинного обучения. Кто такой аналитик баз данных

Наиболее полный список инструментов для анализа данных и машинного обучения. Кто такой аналитик баз данных

Подборка сайтов с бесплатными уроками по изучению больших данных.

В закладки

Средняя зарплата дата-аналитика, по данным HeadHunter, - 120 тысяч рублей. В материале выделены основные требования в вакансиях дата-аналитиков и места, где можно получить навыки в этой области бесплатно.

Кто такие дата-аналитики

Специалисты по работе с большими данными умеют извлекать полезную информацию из всевозможных источников и анализировать её для принятия бизнес-решений. Как правило, аналитики сталкиваются с разрозненной информацией, поэтому важно уметь извлекать нужные данные.

Сейчас профессия дата-аналитика считается одной из самых привлекательных и перспективных в мире. Чтобы стать хорошим аналитиком, нужно больше разбираться в статистике, чем в программировании. Потому что во время работы приходится строить математические модели, которые опишут проблему и фактические данные.

Дата-аналитик работает со случайными величинами и вероятностными моделями, его задача - найти неожиданные закономерности. Поэтому знание теории вероятностей и математической статистики - одно из главных требований к соискателям.

Также необходимо знать языки программирования R или Python и иметь представление о технологиях обработки больших данных. Этих знаний достаточно, чтобы претендовать на начальную позицию дата-аналитика.

Чтобы стать хорошим аналитиком, надо не только разбираться в программировании или статистике, но и отлично знать продукт, а главное, уметь проверять и предлагать гипотезы. Большие данные при правильном применении содержат огромное количество классных инсайтов и идей, как улучшить продукт или определить, что важно.

Но у большинства задач нет однозначного решения или алгоритма: в этом плане анализ данных - работа очень творческая. Важно и умение выбрать правильную визуализацию. Одни и те же данные могут выглядеть случайным набором точек или же рассказать много интересного при правильном подходе.

Во «ВКонтакте» мы работаем с огромными объёмами данных - более 20 млрд измерений в сутки. Информацию собираем на кластер Hadoop и используем различные инструменты для обработки: ответы на простые вопросы нам даёт Hive, а более сложную аналитику помогают осуществлять Spark, Pandas, Sklearn.

Для анализа продуктовых и технических метрик и A/B-экспериментов также используем разработанную нашей командой систему сбора данных, агрегации и визуализации. Благодаря анализу данных мы ежедневно проверяем десятки продуктовых гипотез и проводим сотни экспериментов, которые позволяют нам постоянно совершенствовать продукт, делать наши сервисы более удобными и персонализированными.

Например, в 2015 году мы начали анализировать активность пользователей в ленте новостей и смотреть, что можно улучшить. После большого количества исследований мы пришли к выводу, что можем сделать всё существенно удобнее, и в 2016 году запустили «умную» ленту, максимально интересную и полезную для каждого пользователя.

Мы постоянно продолжаем анализировать активность аудитории. В какой-то момент мы на практике обнаружили, что пользователям хочется расширять свой круг интересов и знакомиться с новыми авторами. Поэтому в 2017 году был запущен раздел «Рекомендации». И сейчас, анализируя растущую активность в новом сервисе, мы видим, что это было правильное решение.

Андрей Законов

Директор по росту и исследованиям «ВКонтакте»

Знание Python и R

Курс «Изучение Python »

Язык : английский.

Уровень : начальный.

Интерфейс Codecademy

Онлайн-платформа Codecademy предлагает интерактивное изучение Python: на одной странице объясняется краткая теоретическая информация и интерпретатор кода. Курс рассчитан на начинающих пользователей и рассказывает о базовых командах языка программирования.

Курс предоставляется условно-бесплатно: получить доступ к контрольным заданиям и работе над проектами можно только по платной подписке. Бесплатные уроки подойдут, чтобы изучить простые конструкции и разобраться в синтаксисе языка.

Самоучитель «Python 3 для начинающих »

Язык : русский.

Уровень : начальный.

Самоучитель Мусина - одна из крупных баз знаний про Python на русском языке. На сайте находится информация о модулях, материалы про анализ данных с помощью библиотеки Pandas, теоретическая информация, примеры задач и полезные ссылки. Также на основе опубликованных статей подготовлен самоучитель в PDF-формате.

Курс «Программирование на Python »

Язык : русский.

Уровень : начальный.

На курсе преподаватели знакомят с базовыми понятиями программирования. В качестве домашних заданий предлагается большой объём практических задач - все решения проверяет автоматическая система. При этом преподаватели не дают индивидуальные консультации. В курс также вошли задачи повышенной сложности, которые необязательно решать, чтобы пройти курс.

Курс «Python: основы и применение »

Язык : русский.

Уровень : средний.

Требования : базовые навыки программирования на Python или других языках программирования.

Студенты курса изучают фундаментальные основы языка: как интерпретатор исполняет код, где он хранит переменные и данные, как определяются собственные типы данных и функции. Курс рассчитан на пользователей, которые знакомы с базовыми навыками программирования.

Проверочные задачи в курсе разделены на два типа: на закрепление материала и поиск способов для применения изученных навыков. Решения проверяются системой.

Курс «Основы программирования на Python »

Язык : английский.

Уровень : начальный.

Слушатели изучают три базовые темы: использование функций, создание и использование классов. Последний урок посвящён созданию собственных проектов. Обучение строится на работе над мини-проектами и изучении важных концепций. Курс нацелен на тех, кто хочет стать программистом или планирует с ними работать.

Курс «Основы программирования на R »

Язык : русский.

Уровень : начальный.

В этом курсе преподаватели рассматривают R как язык программирования, а не как инструмент решения конкретных задач. Слушатели изучают основные типы данных и универсальные семантические правила, а также темы, связанные с анализом и обработкой данных.

Курс «Анализ данных в R »

Язык : русский.

Уровень : средний.

Требования : базовые знания в области статистики.

Преподаватели объясняют основные этапы анализа данных с помощью языка R. Студентам расскажут об основных этапах статистического анализа R, считывании и предварительной обработке данных, применении основных статистических методов и визуализации результатов.

Курс «Программирование на R в науке о данных »

Язык : английский.

Уровень : средний.

Требования : курс ориентирован на аналитиков, которым необходимо знание R для работы над статистическими проектами.

Курс разработан Microsoft вместе с Техническим университетом Дании. В курсе рассказывают про основы R, учат читать и записывать данные, работать с ними и получать результаты. Также преподаватели объясняют, как выполнять интеллектуальную аналитику с помощью R и визуализировать данные.

Проект DataCamp

Язык : английский.

Уровень : начальный.

Интерфейс системы обучения DataCamp

DataCamp предлагает интерактивные курсы изучения R и Python по темам в области науки, статистики и машинного обучения. Проект делает упор на работу с данными. DataCamp сотрудничает с RStudio, Continuum Analytics, Microsoft, привлекает преподавателей из компаний-лидеров Pfizer, Liberty Mutual, H2O, DataRobot и других.

Бесплатная подписка открывает доступ к базовым курсам и первой главе платных. Чтобы получить неограниченный доступ, нужно купить подписку за $29 в месяц или за $300 в год.

Знания в области статистики и машинного обучения

Курс «Основы статистики »

Язык : русский.

Уровень : начальный.

На курсе изучают подходы к описанию данных, полученных в ходе исследований, базовые понятия статистического анализа, интерпретацию и визуализацию полученных данных. Основной акцент делается на математических идеях, интуиции и логике, которые обуславливают методы и расчётные формулы.

Курс «Алгоритмы: теория и практика. Методы »

Язык : русский.

Уровень : средний.

Требования : знания в области одного из языков программирования: циклы, массивы, списки, очереди.

В курсе разбираются базовые алгоритмические методы: «жадные» алгоритмы, метод «разделяй и властвуй», динамическое программирование. Для всех методов преподаватели показывают математическое доказательство корректности и оценки времени работы.

Также на курсе рассказывают об особенностях реализации алгоритмов на C++, Java и Python. Большинство алгоритмов, которые рассматриваются на курсе, необходимо запрограммировать в рамках выполнения заданий.

Курс «Введение в описательную статистику »

Язык : английский.

Уровень : начальный.

Слушатели курса познакомятся с основными понятиями, используемыми для описания данных. Преподаватели расскажут о методах исследований, научат вычислять и интерпретировать статистические значения, вычислять простые вероятности. Студенты изучат законы распределения и научатся управлять ими для создания вероятностных прогнозов данных.

Курс «Введение в статистический вывод »

Язык : английский.

Уровень : начальный.

Требования : прохождение курса «Введение в описательную статистику».

Курс посвящён изучению вывода неочевидных данных. Студенты изучат оценку параметров с использованием выборочной статистики, научатся тестировать гипотезы и доверительные интервалы. Преподаватели объяснят работу t-критерия и дисперсионный анализ, корреляцию и регрессию, а также другие методы проверки статистических гипотез.

Курс «Введение в науку о данных »

Язык : английский.

Уровень : средний.

Требования : базовые навыки программирования на Python.

Слушатели курса изучат основные понятия науки о данных: управление данными, анализ данных с помощью методов статистики и машинного обучения, передача и визуализация информации, работа с большими данными.

Курс «Введение в машинное обучение »

Язык : русский.

Уровень : средний.

Требования : знание основ математики (функции, производные, векторы, матрицы), навыки программирования на Python.

На курсе рассматриваются основные типы задач, решаемых с помощью машинного обучения: классификация, регрессия и кластеризация. Слушатели научатся оценивать качество моделей и решать, подходит ли модель для решения конкретной задачи. Преподаватели расскажут о современных библиотеках, в которых реализованы изучаемые модели и методы оценки их качества.

Курс «Науки о данных: визуализация »

Язык : английский.

Уровень : начальный.

В курсе изучаются основы визуализации данных и анализа поисковых данных. Слушатели научатся использовать пакет R ggplot2 для создания пользовательских графиков. Также преподаватель расскажет об основных ошибках, которые допускаются при работе с данными.

Курс «Введение в искусственный интеллект »

Язык : английский.

Уровень : начальный.

Требования : практические задания основаны на Microsoft Azure и требуют подписки Azure.

Слушатели курса узнают, как использовать машинное обучение для построения прогностических моделей. Преподаватели курса расскажут, какое программное обеспечение необходимо для обработки и анализа естественного языка, изображений и видео. Также студенты научатся создавать интеллектуальных чат-ботов.

Курс «Машинное обучение »

Язык : английский.

Уровень : начальный.

Слушатели курса узнают об эффективных методах машинного обучения и получат практические навыки их реализации. Также преподаватели расскажут о лучших практиках Кремниевой долины в области машинного обучения и искусственного интеллекта.

Курс даёт широкое введение в машинное обучение, интеллектуальный анализ данных и распознавание статистических моделей. Курс основывается на тематических исследованиях и практическом опыте - студенты узнают, как использовать алгоритмы обучения для построения «умных» роботов, анализировать текст, получат навыки в области компьютерного зрения, медицинской информатики, аудио, интеллектуального анализа баз данных и других областей.

Обработка больших данных

Курс «Hadoop. Система для обработки больших объёмов данных »

Язык : русский.

Уровень : средний.

Hadoop - одна из популярных open-source систем для обработки больших объёмов данных. Среди пользователей системы - Facebook, Twitter, Yahoo!, Bing, Mail.ru. Слушатели изучат основные способы хранения и методы обработки больших объёмов данных. Также студенты курса научатся разрабатывать приложения, используя программную модель MapReduce.

Курс «Введение в Hadoop и MapReduce »

Язык : английский.

Уровень : средний.

Особые требования

Слушатели курса изучат основы работы с Hadoop и узнают, как его использовать для работы с большими данными. Преподаватели расскажут, какие проблемы решает Hadoop, объяснят концепции HDFS и MapReduce. По итогам курса студенты научатся писать программы с использованием MapReduce и получат опыт самостоятельного решения проблем.

Курс «Преобразование данных с помощью MongoDB »

Язык : английский.

Уровень : средний.

Особые требования : базовые навыки программирования в Python.

Преобразование данных - это процесс очистки данных для облегчения дальнейшей работы с ними. До сих пор некоторые учёные тратят на это большую часть времени. Студенты курса узнают, как собирать и извлекать данные из широко используемых форматов. Слушатели научатся оценивать качество данных и изучат лучшие методы очистки данных с помощью MongoDB - одной из ведущих баз данных NoSQL.

Работа с большими данными

UCI Machine Learning

Ресурс поддерживает 425 наборов данных для сообщества по машинному обучению. Сервис предлагает качественные, реальные и понятные наборы данных машинного обучения, которые можно использовать для практического изучения методов машинного обучения.

Kaggle

Платформа предлагает соревнования для исследователей разного уровня подготовки, где они могут опробовать свои модели на серьёзных и актуальных данных. Kaggle предусматривает денежное вознаграждение за лучшее решение.

Список KDnuggets

KDnuggets - один из ведущих сайтов по бизнес-аналитике, большим данным, интеллектуальному анализу, науке о данных и машинному обучению. Авторы проекта собрали на одной странице 78 источников открытых данных для обработки.

Список Джо Рикерта

Джо Рикер - один из постоянных участников R-сообщества. Он собрал список сайтов, на которых можно найти открытые данные для анализа в системе R.

Мы попросили ИТ-инженера Центра компетенций по супермассивам данных в «Сбербанк-Технологиях» Диану Борисову прокомментировать список и рассказать о других понравившихся курсах.

Самоучитель «Python 3 для начинающих» - отличные уроки. Материал разложен кратко и по теме. К этому сайту обращаются не только начинающие программисты, но также опытные ребята.

Курс «Программирование на Python» подойдёт людям, начинающим изучать Python. Имеет место, но не самый лучший. Основы рассказываются долго - лучше обратиться к самоучителю.

Из плюсов - задачи развивают алгоритмическое мышление, минус - не самое оптимальное решение некоторых задач (зная определённые функции можно решить в две строчки вместо 15).

О «Python: основы и применение» слышала много хороших отзывов. Для начинающих будет сложно. Поэтому он больше подойдёт тем, кто знаком с основами.

«Основы программирования на R» - неплохой курс для тех, кто начинает изучать R. Понятное и структурированное изложение, есть практические задания, обращают внимание на важные мелочи.

Курс «Анализ данных в R» ведёт крутой преподаватель, и курс тоже отличный. После изучения математической статистики и основ программирования на R этот курс нужно пройти обязательно

«Основы статистики» - отличный курс для начинающих. Теория изложена на простых и понятных примерах без погружения в доказательства и без огромного количества формул. Практика помогает закрепить теорию.

Курс «Алгоритмы: теория и практика. Методы» организован Computer Science Center, известным своим хорошим изложением теории программирования. Александр - один из лучших преподавателей центра.

Курс подходит для тех, кто уже имеет какое-то представление об алгоритмах. Практические задания помогают закрепить материал, над некоторыми задачами придётся посидеть подольше.

Лучше Андрея Райгородского - преподавателя курса - никто не объяснит эту тему. Разжёвывает всё, даёт понятные примеры. Курс однозначно стоит внимания.

После основ статистики можно продолжить углублять знания в данной теме и пройти второй курс. Анатолий Карпов излагает материал максимально понятно и просто.

Очередной отличный курс от Института биоинформатики. Для начинающих, возможно, будет немного сложно. Но курс в любом случае стоит внимания.

Сайт поможет изучить основы программирования на Python. Работа проходит прямо в браузере. Сначала читаешь статью, затем решаешь много практических задач от легкого уровня к сложному.

Курс с хорошими отзывами. Думаю, что для тех, у кого хромает математический аппарат, курс обязателен к изучению. Ничего лучше теории в сочетании с практикой придумать нельзя.

Диана Борисова

ИТ-инженер в Центре компетенций по супермассивам данных «Сбербанк-Технологий»

Рассказываем о тех, кто работает с большими данными, и знаниях, которые для этого необходимы.

Существует стереотип, что с большими данными работают исключительно IT-департаменты, программисты и математики. На деле эта молодая индустрия включает в себя довольно много профессий: от инженера до специалиста по data storytelling. В рамках спецпроекта совместно с IE Business School T&P поговорили с Джозепом Курто, аналитиком, бизнес-консультантом и предпринимателем, о мультифункциональности, возможности влиять на глобальные процессы и больших данных в сельском хозяйстве.

Джозеп Курто

управляющий независимой консалтинговой компанией Delfos Research, ассоциированный профессор IE School of Social, Behavioral & Data Sciences

- Специалист по Big Data - кто это?

Есть мнение, что специалист по Big Data - это суперпрофессионал, сверхчеловек с огромным количеством разных навыков. В какой-то степени это правда, ведь, помимо всего прочего, он должен неплохо разбираться в бизнесе. Безусловно, одному человеку сложно знать вообще все, так что мы чаще всего работаем в командах - это гораздо продуктивнее. Например, одна моя коллега - специалист только по визуализации данных и data storytelling. Она создает потрясающую инфографику, с помощью которой может рассказать любую историю в цифрах. Главное - иметь 360-градусный угол зрения, который появляется с опытом. Мне самому потребовалось на это почти 15 лет.

- Какой бэкграунд лучше иметь, если вы хотите работать с большими данными?

В Big Data существует очень много разных ролей: например, вы можете быть Big Data Engineer (то есть инженером) или аналитиком, и это совсем разные функции. Базовые вещи - это знание математики, статистики и информатики.

- Опишите основные этапы работы специалиста по Big Data?

Мы работаем с самыми разными направлениями: финансы, ретейл, правовые отрасли. Одна из важнейших ролей - это стратег: на первом этапе большинство компаний просто не знают, как начать работать с большими данными. Более того, иногда очень сложно понять, какая именно проблема в компании связана с этими данными и как ее решить.

Для начала самое главное - определить проблему, с которой столкнулась компания. Мы проводим воркшопы, на которых рассказываем о возможностях Big Data. В процессе работы мы должны трансформировать работу в компании, но наша первоочередная задача - решить проблему. Мы беседуем с клиентом, задаем множество вопросов о всех сферах деятельности. В процессе этих бесед появляются огромные списки пунктов и задач, которые мы будем учитывать и над которыми будем работать. Основная цель, которую мы преследуем, работая с Big Data, - возможность лучше понимать потребителя, продукт, сотрудников, поставщиков. Big Data охватывает все сферы деятельности компании.

После сбора информации мы обсуждаем все проблемные моменты и понимаем, связаны ли они с большими данными. Некоторые проблемы могут быть связаны с чем-то другим - например, с недостаточной мотивацией сотрудников. Так что мы должны сократить весь список и оставить в нем только проблемы, которые касаются нашей компетенции. Если вы хотите узнать больше о ваших продажах, это значит, что вы должны иметь возможность вести их учет. Иногда это довольно трудно. К примеру, в магазинах вы должны иметь возможность учитывать каждую покупку. Но это не проблема Big Data. Это значит, что вы должны просто приобрести систему для учета покупок. Иногда в компании должен произойти ряд существенных изменений для того, чтобы специалист по Big Data мог начать работу.

Следующий шаг - составление списка рекомендаций. После этого мы обсуждаем дальнейшую стратегию компании, какой ее хотят видеть управляющие. Внедрение Big Data - это не просто привлечение одного специалиста, это изменение мышления всех сотрудников. Очень важно, чтобы все понимали, что делает тот парень, который называет себя специалистом по Big Data. Очень важно развеять миф о том, что Big Data - это просто какая-то часть IT-департамента. После определения стратегии мы предлагаем пути ее внедрения.

- Какими основными навыками должен обладать специалист по Big Data?

Главное - это умение работать с большим объемом информации и знание технологий: их уже сотни, и каждый месяц появляются новые. В то же время он должен обладать научным мышлением, быть очень любознательным. Очень важно уметь мыслить в терминах бизнеса. Напомню, что можно быть узким специалистом в чем-либо и быть полезным членом команды, отвечая за свою часть процесса.

- Где чаще всего работают такие специалисты?

Нас очень часто привлекают в качестве экспертов; очень многие мои коллеги совмещают научную работу с преподавательской деятельностью.

- Какие отрасли больше всего нуждаются в Big Data?

Я считаю, что абсолютно все. В последнее время к Big Data все чаще прибегают в банковском секторе, государственном управлении, сельском хозяйстве. Привлечение специалиста по Big Data - это возможность посмотреть на имеющиеся данные с разных углов зрения. Иногда со студентами мы рассматриваем очень простые наборы данных - например, таблицы, состоящие всего из трех столбцов (дата, номер покупателя и сумма покупки). Несмотря на то что это может показаться примитивным, я показываю студентам, как много новой информации они могут из этого получить. Даже если у вас не так много данных, вы можете делать прогнозы и выводы.

- Как должно измениться образование для подготовки специалистов по Big Data?

Главное - это подготовка мультифункциональных специалистов. Важно уделять достаточно внимания математике и информатике, изучать новые технологии, подходы (например, NoSQL). Самое важное - аналитическое мышление. Это первое, чему я учу своих студентов. Специалист по Big Data знает математику, технологии и критически мыслит. Важно помнить - вы никогда не сможете знать все, это невозможно, но вы должны уметь искать и анализировать информацию.

- В какой самой необычной области вам приходилось работать?

Без сомнения, это сельское хозяйство. В этой отрасли множество самых разнообразных процессов, при этом они совершенно не готовы к новым технологиям. Нужно научиться говорить на их языке и понять, какие задачи стоят перед компаниями. Например, очень часто встречается задача снизить потребление воды, которая используется в сельском хозяйстве каждый день в огромных количествах. Иметь возможность помочь в решении таких задач - это потрясающе. Сельскохозяйственные организации вынуждены быть прагматичными, в этом им помогает Big Data.

Специалисты по Big Data - это новый тип профессионалов. Вы должны понимать, что самое потрясающее в этой работе - это возможность очень сильно влиять на глобальные процессы. Это что-то вроде работы детектива. Вы определяете, что произошло, где и почему. Вы можете помочь компаниям понять, почему они теряют деньги и клиентов, как в дальнейшем этого избежать и увеличить прибыль.

Юрий Котиков

консультант по стратегии в Ericsson, выпускник программы Master in Management IE Business School

Не могу не согласиться с коллегой. Действительно, Big Data в организациях начинается прежде всего не с закупки дорогостоящего оборудования, программных решений или анализа массивов данных, а с определения целей, которых можно достигнуть средствами аналитики, а также с правильного подхода к процессам их реализации.

Например, практически все ведущие мировые мобильные операторы создают под Big Data выделенные подразделения, имеющие свободный доступ к данным внутри компании, а также поддержку топ-менеджмента и акционеров. Это является одним из ключевых факторов успеха в Big Data проектах, которые затрагивают множество функций и влекут значительные изменения в процессах компаний.

Методологически важным фактором является так называемый Lean Startup Approach - гибкий подход к решению задач бизнеса с помощью Big Data. Вместо длительного процесса разработки конечной сложной модели или продукта, основанного на больших данных, необходимо двигаться маленькими итерациями и быстрыми победами, получая регулярную обратную связь от ключевых заказчиков решения. Например, компания Telefonica, разрабатывая свое решение Smart Steps с использованием агрегированных данных о местоположении абонентов, изначально ориентировалась на компании розничной торговли. Оператор планировал предоставлять клиентам данные о перемещении людей на определенных улицах города. Благодаря регулярной обратной связи Telefonica смогла принять решение о необходимом стратегическом вираже, изменив фокус продукта на анализ пассажиропотоков для транспортного сектора.

Если говорить про специалистов в области Big Data, то, на наш взгляд, ключевым качеством как для технических, так и для управленческих специалистов является кроссфункциональность. Обладать полным спектром навыков в области анализа данных практически невозможно. Однако технические специалисты должны иметь общее представление о функционировании бизнеса, а менеджеры - понимание базовых принципов аналитики. Поэтому образовательные программы в области больших данных, совмещающие как техническую часть, так и бизнес-аспекты и погружение в определенные индустрии, имеют хорошие шансы подготовить востребованные рынком кадры.

Рекомендованная учебная программа: Master in Business Analytics and Big Data

Магистратура Business Analytics and Big Data - современная программа, направленная на погружение в четыре области знаний, связанных со сферами бизнес-аналитики и больших данных: Big Data Technologies, Data Science, Business Transformation, Professional Skills. Программа состоит из трех триместров, каждый из которых заканчивается практическим проектом, среди которых - Big Data стартап и консалтинговый проект.

Компании ищут динамичных профессионалов с разным бэкграундом - опытом работы в бизнесе, IT, знающих экономику, математику и смежные науки и способных работать с информацией: собирать, анализировать и интерпретировать данные.

Большие данные (или Big Data) - это совокупность методов работы с огромными объёмами структурированной или неструктурированной информации. Специалисты по работе с большими данными занимаются её обработкой и анализом для получения наглядных, воспринимаемых человеком результатов. Look At Me поговорил с профессионалами и выяснил, какова ситуация с обработкой больших данных в России, где и чему лучше учиться тем, кто хочет работать в этой сфере.

Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел

Я учился в Московском институте электронной техники. Главное, что мне удалось оттуда вынести, - это фундаментальные знания по физике и математике. Одновременно с учёбой я работал в R&D-центре, где занимался разработкой и внедрением алгоритмов помехоустойчивого кодирования для средств защищённой передачи данных. После окончания бакалавриата я поступил в магистратуру бизнес-информатики Высшей школы экономики. После этого я захотел работать в IBS. Мне повезло, что в то время в связи с большим количеством проектов шёл дополнительный набор стажёров, и после нескольких собеседований я начал работать в IBS, одной из крупнейших российских компаний этой области. За три года я прошёл путь от стажёра до архитектора корпоративных решений. Сейчас занимаюсь развитием экспертизы технологий Big Data для компаний-заказчиков из финансового и телекоммуникационного сектора.

Есть две основные специализации для людей, которые хотят работать с большими данными: аналитики и ИТ-консультанты, которые создают технологии для работы с большими данными. Кроме того, можно также говорить о профессии Big Data Analyst, т. е. людях, которые непосредственно работают с данными, с ИТ-платформой у заказчика. Раньше это были обычные аналитики-математики, которые знали статистику и математику и с помощью статистического ПО решали задачи по анализу данных. Сегодня, помимо знания статистики и математики, необходимо также понимание технологий и жизненного цикла данных. В этом, на мой взгляд, и заключается отличие современных Data Analyst от тех аналитиков, которые были прежде.

Моя специализация - ИТ-консалтинг, то есть я придумываю и предлагаю заказчикам способы решения бизнес-задач с помощью ИТ-технологий. В консалтинг приходят люди с различным опытом, но самые важные качества для этой профессии - это умение понимать потребности клиента, стремление помогать людям и организациям, хорошие коммуникационные и командные навыки (поскольку это всегда работа с клиентом и в команде), хорошие аналитические способности. Очень важна внутренняя мотивация: мы работаем в конкурентной среде, и заказчик ждёт необычных решений и заинтересованности в работе.

Большая часть времени у меня уходит на общение с заказчиками, формализацию их бизнес-потребностей и помощь в разработке наиболее подходящей технологической архитектуры. Критерии выбора здесь имеют свою особенность: помимо функциональных возможностей и ТСО (Total cost of ownership - общая стоимость владения) очень важны нефункциональные требования к системе, чаще всего это время отклика, время обработки информации. Чтобы убедить заказчика, мы часто используем подход proof of concept - предлагаем бесплатно «протестировать» технологию на какой-то задаче, на узком наборе данных, чтобы убедиться, что технология работает. Решение должно создавать для заказчика конкурентное преимущество за счёт получения дополнительных выгод (например, x-sell , кросс-продажи) или решать какую-то проблему в бизнесе, скажем, снизить высокий уровень мошенничества по кредитам.

Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет

С какими проблемами приходится сталкиваться? Рынок пока не готов использовать технологии «больших данных». Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет. Именно поэтому мы, по сути, работаем в режиме стартапа - не просто продаём технологии, но и каждый раз убеждаем клиентов, что нужно в эти решения инвестировать. Это такая позиция визионеров - мы показываем заказчикам, как можно поменять свой бизнес с привлечением данных и ИТ. Мы создаем этот новый рынок - рынок коммерческого ИТ-консалтинга в области Big Data.

Если человек хочет заниматься дата-анализом или ИТ-консалтингом в сфере Big Data, то первое, что важно, - это математическое или техническое образование с хорошей математической подготовкой. Также полезно освоить конкретные технологии, допустим SAS , Hadoop , язык R или решения IBM. Кроме того, нужно активно интересоваться прикладными задачами для Big Data - например, как их можно использовать для улучшенного кредитного скоринга в банке или управления жизненным циклом клиента. Эти и другие знания могут быть получены из доступных источников: например, Coursera и Big Data University . Также есть Customer Analytics Initiative в Wharton University of Pennsylvania, где опубликовано очень много интересных материалов.

Серьёзная проблема для тех, кто хочет работать в нашей области, - это явный недостаток информации о Big Data. Ты не можешь пойти в книжный магазин или в на какой-то сайт и получить, например, исчерпывающий сборник кейсов по всем применениям технологий Big Data в банках. Таких справочников не существует. Часть информации находится в книгах, ещё часть собирается на конференциях, а до чего-то приходится доходить самим.

Ещё одна проблема заключается в том, что аналитики хорошо чувствуют себя в мире чисел, но им не всегда комфортно в бизнесе. Такие люди часто интровертны, им трудно общаться, и поэтому им сложно убедительно доносить до клиентов информацию о результатах исследований. Для развития этих навыков я бы рекомендовал такие книги, как «Принцип пирамиды», «Говори на языке диаграмм». Они помогают развить презентационные навыки, лаконично и понятно излагать свои мысли.

Мне очень помогло участие в разных кейс-чемпионатах во время учебы в НИУ ВШЭ. Кейс-чемпионаты - это интеллектуальные соревнования для студентов, где нужно изучать бизнес-проблемы и предлагать их решение. Они бывают двух видов: кейс-чемпионаты консалтинговых фирм, например, McKinsey, BCG, Accenture, а также независимые кейс-чемпионаты типа Changellenge . Во время участия в них я научился видеть и решать сложные задачи - от идентификации проблемы и её структурирования до защиты рекомендаций по её решению.

Олег Михальский о российском рынке и специфике создания нового продукта в сфере больших данных

До прихода в Acronis я уже занимался запуском новых продуктов на рынок в других компаниях. Это всегда интересно и сложно одновременно, поэтому меня сразу заинтересовала возможность работы над облачными сервисами и решениями для хранения данных. В этой сфере пригодился весь мой предыдущий опыт работы в ИТ-отрасли, включая собственный стартап-проект I-accelerator . Помогло также и наличие бизнес-образования (MBA) в дополнение к базовому инженерному.

В России у крупных компаний - банков, мобильных операторов и т. д. - есть потребность в анализе больших данных, поэтому в нашей стране есть перспективы для тех, кто хочет работать в этой области. Правда, многие проекты сейчас являются интеграционными, то есть сделанными на основе зарубежных наработок или open source-технологий. В таких проектах не создаются принципиально новые подходы и технологии, а скорее адаптируются уже имеющиеся наработки. В Acronis мы пошли другим путём и, проанализировав имеющиеся альтернативы, решили вложиться в собственную разработку, создав в результате систему надёжного хранения для больших данных, которая по себестоимости не уступает, например, Amazon S3 , но работает надёжно и эффективно и на существенно меньших масштабах. Собственные разработки по большим данным есть и у крупных интернет-компаний, но они скорее ориентированы на внутренние нужды, чем удовлетворение потребностей внешних клиентов.

Важно понимать тренды и экономические силы, которые влияют на область обработки больших данных. Для этого нужно много читать, слушать выступления авторитетных специалистов в ИТ-индустрии, посещать тематические конференции. Сейчас почти каждая конференция имеет секцию про Big Data, но все они рассказывают об этом под разным углом: с точки зрения технологий, бизнеса или маркетинга. Можно пойти на проектную работу или стажировку в компанию, которая уже ведёт проекты по данной тематике. Если вы уверены в своих силах, то ещё не поздно организовать стартап в сфере Big Data.

Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной

Правда, когда вы отвечаете за новый продукт, много времени уходит на аналитику рынка и общение с потенциальными клиентами, партнёрами, профессиональными аналитиками, которые знают много о клиентах и их потребностях. Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной. Всегда есть много неопределённостей: вы должны понять, кто станут первыми пользователями (early adopters), что у вас есть для них ценного и как затем привлечь массовую аудиторию. Вторая по важности задача - это сформировать и донести до разработчиков чёткое и целостное видение конечного продукта, чтобы мотивировать их на работу в таких условиях, когда некоторые требования ещё могут меняться, а приоритеты зависят от обратной связи, поступающей от первых клиентов. Поэтому важная задача - это управление ожиданиями клиентов с одной стороны и разработчиков с другой. Так, чтобы ни те ни другие не потеряли интерес и довели проект до завершения. После первого успешного проекта становится проще, и главной задачей будет найти правильную модель роста для нового бизнеса.

В последнее время слово big data звучит отовсюду и в некотором роде это понятие стало мейнстримом. С большими данными тесно связаны такие термины как наука о данных (data science), анализ данных (data analysis), аналитика данных (data analytics), сбор данных (data mining) и машинное обучение (machine learning).

Почему все стали так помешаны на больших данных и что значат все эти слова?

Почему все молятся на биг дату

Чем больше данных, тем сложнее с ними работать и анализировать. Математические модели, применимые к небольшим массивам данных скорее всего не сработают при анализе биг даты. Тем не менее в науке о данных большие данные занимают важное место. Чем больше массив, тем интересней будут результаты, извлеченные из глубоких недр большой кучи данных.

Преимущества больших данных:
  • С ними интересно работать.
  • Чем больше массив данных, тем меньше вероятность того, что исследователь примет неверное решение.
  • Точные исследования поведения интернет-пользователей без большого количества данных практически невозможны.
  • Хранилища данных стали дешевле и доступнее, поэтому хранить и анализировать большие данные гораздо выгоднее, чем строить заведомо неверные прогнозы.

Наука о данных

Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.

Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.

Примеры применения науки о данных:
  • Тактическая оптимизация - улучшение маркетинговых кампаний, бизнес-процессов.
  • Прогнозируемая аналитика - прогноз спросов и событий.
  • Рекомендательные системы - Amazon, Netflix.
  • Системы автоматического принятия решений - например распознавание лиц или даже беспилотники.
  • Социальные исследования - обработка анкет или данных, полученных любым другим способом.
Если говорить простым языком, то наука о данных вмещает в себя все перечисленные в заголовке понятия.

Аналитика

Аналитика - это наука об анализе, применении анализа данных для принятия решений.

Аналитика данных предназначена для внедрения инсайтов в массив данных и предполагает использование информационных запросов и процедур объединения данных. Она представляет различные зависимости между входными параметрами. Например, автоматически выявленные, не очевидные связи между покупками.

В науке о данных для построения прогнозируемой модели используются сырые данные. В аналитике зачастую данные уже подготовлены, а отчеты может интерпретировать практически любой юзер. Аналитику не нужны глубокие знания высшей математики, достаточно хорошо оперировать данными и строить удачные прогнозы.

Анализ данных

Анализ данных - это деятельность специалиста, которая направлена на получение информации о массиве данных. Аналитик может использовать различные инструменты для анализа, а может строить умозаключения и прогнозы полагаясь на накопленный опыт. Например, трейдер Forex может открывать и закрывать трейдерские позиции, основываясь на простых наблюдениях и интуиции.

Машинное обучение

Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.

При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.

Примеры алгоритмов:
  • Модели, которые могут прогнозировать поведение пользователя.
  • Классификационные модели, которые могут узнать и отфильтровать спам.
  • Рекомендательные системы - изучают предпочтения пользователя и пытаются угадать, что ему может понадобиться.
  • Нейронные сети - не только распознают образы, но и сами могут их создавать.
Исследователи применяют техники машинного обучения, чтобы автоматизировать решение некоторых задач. Эти системы очень нужны для работы с некоторыми очень сложными проектами. Например, чтобы узнать в какой стране живут самые счастливые люди, ученые определяли улыбки на фотографиях, загруженных в Instagram.

Отбор данных

Сырые данные изначально беспорядочны и запутаны, собраны из различных источников и непроверенных записей. Не очищенные данные могут скрыть правду, зарытую глубоко в биг дате, и ввести в заблуждение аналитика.

Дата майнинг - это процесс очистки больших данных и подготовки их последующему анализу или использованию в алгоритмах машинного обучения. Дата майнеру нужно обладать исключительными распознавательными качествами, чудесной интуицией и техническими умениями для объединения и трансформирования огромного количества данных.

Конспект

  1. Чем больше данных, тем сложнее их анализ.
  2. Наука о данных - это знания о выводимых данных, отбор, подготовка и анализ.
  3. Машинное обучение применяется для сбора и анализа массивов данных.
  4. Дата майнинг - это процесс очистки больших данных и подготовки их к последующему анализу.

Базы данных уже сегодня входят в нашу жизнь как незаменимая частичка бизнеса, производства или учета. Однако, что такое в разрезе эта база данных и кто такой аналитик баз данных? В этой статье мы и узнаем это.

Информационные технологии не стоят на месте, и уже сегодня они имеют такой большой вес в бизнесе, что бывает даже сложно себе представить. Информация – везде. В производстве, торговле, обучении, интернете – буквально повсеместно. С вхождением информационных технологий в нашу повседневность остро стала потребность и хранить информацию, а как это сделать максимально комфортно и рационально? Для этой цели и были придуманы базы данных.

Что такое база данных?

База данных – это совокупность самостоятельных материалов (таких как, например, статья, статистические данные, расчеты, графики, документы и т.д.), максимально систематизированных для удобства использования этих данных. Как пример можно привести картотеку в любой поликлинике – это тоже база данных, отсортированная по первой букве фамилии, а также по году рождения посетителя. Кстати, стоит сказать, что гос. учреждения уже отходят от этой бумажной работы и переходят к электронным базам данных ради максимальной скорости обработки этой информации.

Но базы данных могут быть гораздо сложнее, чем электронная картотека в лечебнице. В более профессиональном понимании база данных – совокупность математических данных, систематизированных таким образом, чтобы их можно было обработать с помощью электронно-вычислительной машины (ЭВМ), в современном понимании – ПК.

Такие базы данных очень часто играют огромную роль в ведении бизнеса. Например, в такой отрасли как интернет-маркетинг, обойтись без сетевой базы данных попросту невозможно, ведь это – та самая структурная часть маркетинга, которая регулирует его полностью, в которой хранятся все жизненно-важные данные для продавца.

Вообще, отраслей, в которых используются базы данных больше, чем вы можете себе представить:

  • Интернет-маркетинг
  • Веб-порталы
  • Разработка программного обеспечения
  • Торговля
  • Производство
  • Государственный учет (налоги, выплаты и т.д.)
  • Сервисы хранения данных

Вход баз данных в нашу жизнь вполне понятен и был неизбежен. Но неужели такой базе данных не нужен обслуживающий персонал? Конечно нужен, ведь она делается именно для людей, и, что самое важное, помогает не просто записывать и сохранять какие-то данные, она еще и помогает делать выводы, создавать статистику и выяснять необходимую информацию на основе имеющихся данных.

Кто работает с базой данных?

Очевидно, с ней работают специалисты, однако какие? Для того, чтобы умело анализировать ряд данных в определенной базе часто требуется больше одного человека, то бишь, целая команда, в которой каждое звено отвечает за определенную стадию в анализе данных. В целом, отдельного такого специалиста можно назвать аналитик базы данных.

Быть аналитиком базы данных – дело, которое требует нешуточной образованности специалиста в абсолютно разных отраслях (статистика, информатика, математика). Даже более того – аналитик должен быть не просто образованным, но еще и коммуникативным и открытым – такой человек должен креативно подходить к своей работе, чтобы максимально эффективно провести анализ, а после этого показать заказчику информацию, которую получилось собрать и структурировать таким образом, чтобы это было понятно и полезно.

В целом, если описывать специалиста по аналитике базы данных, можно выделить такие важные черты:

  • Умение понять данные так, чтобы они могли представлять собой не просто статистику, а какую-то по-настоящему важную информацию.
  • Креативность – человек должен любить свою работу, уметь перебирать максимум информации, ставить новые вопросы перед конкретной базой данных, которые помогут дать заказчику ту самую полную информацию, которую он ожидает увидеть.
  • Любой заказчик будет только рад, чтобы аналитик базы данных будет иметь познания в программировании на таких языках, как Java, Python и так далее, ведь это только расширяет возможности специалиста.
  • Правильная подача данных также является важным аспектом – специалист по сбору и обработке данных обязан подать информацию так, чтобы она была понятна широкой аудитории
  • Познания в сфере бизнеса крайне важны, ведь человек, проводящий анализ в этой отрасли, должен понимать, каким образом работает вся та система, которую он анализирует, какие данные максимально важны и из каких данных можно получить максимальную пользу
  • И, само собой, умение правильно проводить аналитику – ключевое умение, потом у что видеть то, что не увидит простой человек в базе данных – ключевое умение любого специалиста по аналитике баз данных

Подведя черту, можно отметить, что основное требование к такому специалисту (кроме, естественно, ключевых знаний) является многонаправленность, ведь аналитик баз данных это разносторонность во всех ее самых изощренных пониманиях. Человек должен уметь общаться с людьми, предоставлять им информацию и показывать, что проведенные ним исследования были не напрасны. Именно такого аналитика баз данных можно назвать успешным и именно такого работника захочет увидеть у себя абсолютно каждый заказчик.



просмотров