Подробный список навыков для специалистов по данным

Мы не хотим быть исчерпывающим списком навыков для специалистов по данным, потому что эта область движется со звездной скоростью (а инструмент, который актуален сегодня, может оказаться не актуальным через шесть месяцев). Скорее, это попытка предоставить обширный список навыков и инструментов, которые могут быть полезны при разработке проектов в области науки о данных, и, конечно же, отсутствие одного из этих навыков не исключает возможности идентифицировать специалиста по данным как такового.

Программирование: R, Python, Scala, JavaScript, Java, Ruby, C ++, C #.

Статистика и эконометрика: теория вероятностей, ANOVA, MLE, регрессии, временные ряды, пространственная статистика, байесовская статистика (MCMC, выборка Гиббса, алгоритм MH, скрытая марковская модель), моделирование (Монте-Карло, агентная моделирование и др.)

Научный подход: экспериментальный план, A / B-тестирование, навыки технического письма, рандомизированное контролируемое испытание.

Машинное обучение: контролируемое и неконтролируемое обучение, CART, алгоритмы (Support vector Machine, PCA, GMM, K-means, Deep Learning, Neural Networks), пакеты машинного обучения (Pandas, NumPy, SciPy и т. д. ) и пакеты искусственного интеллекта (Tensorflow, H2O и др.)

Математика: матричная алгебра, реляционная алгебра, исчисление, оптимизация (линейная, целочисленная, выпуклая, глобальная).

Платформы для больших данных: Hadoop, Map / Reduce, Hive, Pig, Spark, Storm, Cassandra.

Анализ текста: обработка естественного языка, LDA, LSA, теги части речи, синтаксический анализ, машинный перевод

Визуализация: анализ графиков, анализ социальных сетей, Tableau, ggplot, D3, Gephi, Neo4j, Alteryx

Бизнес: разработка бизнеса и продуктов, составление бюджета и финансирование, управление проектами, маркетинговые опросы, знание предметной области / сектора.

Архитектура и администрирование системы: администратор баз данных, SAN, облако, Apache, СУБД.

Управление набором данных:

Структурированный набор данных: SQL, JSON, BigTable
Неструктурированный набор данных: текст, аудио, видео, BSON, noSQL, MongoDB, CouchDB
Многофункциональный набор данных: Интернет вещей, M2M

Анализ данных: извлечение признаков, стратифицированная выборка, интеграция данных, нормализация, извлечение веб-страниц, распознавание образов.

Примечание. Это адаптированный отрывок из моей книги «Аналитика больших данных: перспектива управления» (Springer, 2016).