Data science, machine learning и data analysis — эти направления в IT стали передовыми и с каждым днем набирают все большую популярность. Специалистов, работающих с большими данными, нанимают очень активно и в следующие несколько лет эта тенденция будет расти. В этой статье мы простыми словами расскажем о том, что такое наука о данных, машинное обучение и анализ данных.
Наука о данных
Понятие «наука о данных» чаще всего используется в связи с работой с большими данными (big data) и включает в себя несколько этапов: сбор, подготовка, очистка и анализ данных.
Вот такое определение дает нам Википедия:
«Наука о данных (англ. data science; иногда даталогия — datalogy) — раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме. Объединяет методы по обработке данных в условиях больших объёмов и высокого уровня параллелизма, статистические методы, методы интеллектуального анализа данных и приложения искусственного интеллекта для работы с данными, а также методы проектирования и разработки баз данных».
Специализация «ученого по данным» находится в числе высокооплачиваемых и перспективных профессий в IT. Основная задача специалиста по data science — получить из разрозненных данных ценную информацию, на основе которой принимаются решения в бизнесе, научных исследованиях и других сферах жизни. К основным методам Data Science относятся: методы классификации, моделирования и прогнозирования, которые основаны на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, а также статистические методы и др.
Знание основ программирования и аналитики станет хорошим подспорьем для тех, кто решил освоить новую профессию data scientist с нуля. Помимо этого, потребуются профильные знания:
- умение программировать на Python;
- знание баз данных SQL;
- базовые знания в машинном обучении;
- знание аналитических функций;
Машинное обучение
Вот уже несколько лет машинное обучение стало притчей во языцех, многие технологические компании называют этот метод работы будущей заменой людского ресурса, а кто-то даже именует machine learning искусственным интеллектом. Но как конкретно работает машинное обучение простыми словами не рассказывает почти никто.
Начнем с определения из Википедии:
«Машинное обучение (англ. machine learning, ML) — класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач. Для построения таких методов используются средства математической статистики, численных методов, методов оптимизации, теории вероятностей, теории графов, различные техники работы с данными в цифровой форме».
Другими словами, машинное обучение — это процесс детального исследования больших данных и получение из них осмысленной информации с использованием алгоритмов для предсказания неизвестных данных на основе известных. Машинное обучение тесно связано с наукой о данных, ниже обсудим, в чем разница между этими понятиями.
Примеров использования машинного обучения в жизни, с которыми вы имеете дело каждый день, достаточно много. Сюда относятся алгоритмы работы Facebook и Instagram (умная лента), рекомендации от Amazon и Netflix. Все рекомендации этих сервисов основаны на предыдущем опыте пользователя.
Чтобы стать специалистом по машинному обучению, следует овладеть сразу несколькими нужными навыками (на стыке информационных технологий, математики и статистики):
- навыки программирования;
- знание компьютерных систем;
- построение моделей машинного обучения для обработки неструктурированных данных: рекомендательные сервисы, text mining, web mining, social mining, multimedia mining, кластеризация, нейронные сети;
- построение скоринговых карт на основе нескольких источников данных;
- разработка промышленной архитектуры с использованием Python, Hadoop, Spark;
- внедрение технологий анализа больших данных;
- самостоятельное построение и оценка качества математических моделей;
Отличия науки о данных от машинного обучения
Считается, что наука о данных – это широкое понятие, в которое входят сразу несколько дисциплин (анализ данных, большие данные, аналитика данных и дата майнинг). Машинное обучение также попадает под определение науки о данных.
Если говорить простым языком, то:
- Наука о данных — это знания о выводимых данных, их отбор, подготовка и анализ;
- Машинное обучение – это класс алгоритмов, обучающихся предсказывать неизвестные данные на основе известных;
Анализ данных
В анализ данных входит следующий стандартный перечень задач:
- сбор информации;
- подготовка полученных сведений к проведению анализа (сортировка, фильтрация, выборка);
- поиск закономерностей;
- визуализация данных;
- поиск тенденций;
- формирование выводов;
- подготовка гипотез для повышения эффективности;.
Определение из Википедии:
«Анализ данных — область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных».
Специалист аналитик данных занимается извлечением необходимых сведений и поиском шаблонов в полученных наборах данных. Он проводит описательный анализ данных, интерпретирует их и представляет отчет заинтересованным лицам.
Что должен уметь такой специалист:
- отлично знать профильное направление (банковский сектор, нефтегаз, финтех, е-коммерс и другое);
- знание средств визуализации данных;
- веб-аналитика;
- знание языков программирования как преимущество;
В некоторых компаниях в перечень задач аналитика данных входит также моделирование данных, такие специалисты разрабатывают и тестируют модели machine learning.