Каков объем работы и роль специалиста по данным.

Мы все чаще слышим об этом «новом» ремесле, называемом Data Science, и его профессионале, Data Scientist. Но, в конце концов, что делает Data Scientist? Будет ли человек действительно работать в белом халате и очках? Чтобы проанализировать это, мы можем сначала понять, что это наука, что изменилось за последнее десятилетие, чтобы узаконить эту новую концепцию, и как эта новая область и профессия соотносятся с остальными новыми и старыми функциями?

Сначала давайте разберемся, что такое наука.

Какая область исследований должна считаться наукой? В конце концов, что такое наука? Многие разные авторы дали разные определения этому понятию. Для наших наиболее практических целей давайте рассмотрим концепцию науки Карла Поппера (1902–1994), философа науки. Для него наука - это все, что может быть фальсифицировано и / или правдоподобно или фальсифицируемо, в противном случае это было бы сферой убеждений и мнений. Это звучит просто, но позволяет разрешить тупиковые ситуации многих великих философов прошлого, таких как Юм и Кант.

Давайте рассмотрим примеры: до Магеллана в 15 веке утверждение, что Земля плоская, имеет отношение к науке, как только мы сможем проверить эту гипотезу. Закон всемирного тяготения Ньютона также является частью науки, потому что мы можем проверить и попытаться доказать, что он ложен. Итак, если моральное решение лучше или хуже, оно не входит в сферу науки, поскольку мы не можем его проверить, или, если я верю в ту или иную религию, это тоже не входит в сферу науки, опять же, потому что это проверить это невозможно.

Если область науки пытается опровергнуть гипотезы, а модели проходят испытания на опровержимость с течением времени, мы верим в теории как в научные факты, поскольку законы Ньютона выжили в течение двух столетий испытаний, пока не появятся еще более совершенные теории и модели. как Эйнштейн в 1915 году поступил с гравитацией, а наука все еще продолжается. Следовательно, наряду с этим определением наука не доказывает, что модель верна, но не ложна.

И какое это имеет отношение к науке о данных?
Что ж, если наука скептически относится к фактам, создание моделей, которые пытаются объяснить реальность, или проверка гипотез с помощью жесткой методологии для других людей, возможно, попытаются воспроизвести и фальсифицировать , Data Science в основном делает это с данными, верно? Да! Но это называется Статистика.

В чем разница между статистикой и наукой о данных.

Очевидно, что это довольно связанные области, которые часто опираются на одни и те же источники. Но в чем его отличия? Кстати, а есть разница? Для многих нет. Пойдем немного глубже. Статистика была бы для науки о данных, как математика для инженерии, то есть она создает теоретическую основу для науки о данных для решения реальных проблем, как это делает инженерия. Специалисту по анализу данных нужно больше, чем просто ручка и бумага, чтобы решить эти реальные проблемы, используя множество методов программирования для работы с постоянно увеличивающимся объемом данных, и тогда начинаются различия.

Наука о данных - это мультидисциплинарная область, где одной из дисциплин (возможно, самой важной) является статистика, из которой все заслуги науки о данных исходят таким образом, что без статистики это было бы просто приложением научного содержания, как та же старая инженерия. . В любом случае, пока нет консенсуса относительно того, где начинается одна область, а где заканчивается другая, так что между ними существует много совпадений, таким образом, создается несколько инициатив по объединению этих областей. 50 лет Data Science, MIT.

Что изменилось за последние годы, чтобы повысить популярность науки о данных?

За последние годы многое изменилось в связи с совместной ответственностью за бум Data Science. Опять же, нет очевидного способа объяснить его быстрый рост. Статистические теории довольно старые - например, регрессия относится к концу девятнадцатого века. Нейронные сети начали изучать в 1950-х годах. Итак, что же произошло в 2010 году, что положило начало этому быстрому росту? Игровая индустрия!

Инвестиции в исследования оборудования чрезвычайно дороги, и, хотя наука о данных и машинное обучение чрезвычайно полезны, они не были достаточно безопасными и надежными, чтобы поддерживать миллиарды долларов каждый год для все более мощного оборудования. Но игровая индустрия, которая недавно превзошла музыкальный и кинобизнес (вместе!), Достаточно прибыльна, чтобы поддерживать все необходимые инвестиции для разработки мощного оборудования для непрерывного совершенствования реалистичных игр. Хитрость заключалась в том, чтобы адаптировать это суперсовременное оборудование, которое выполняет миллионы вычислений в секунду, для запуска алгоритмов машинного обучения - это началось только в последние годы (~ 2012 г.), вместе с большим объемом собираемых данных, что объясняет недавний анализ данных. бум во всем мире.

Специалист по анализу данных - это работа, которая использует только машинное обучение?

Краткий ответ: нет. Запуск алгоритмов машинного обучения не превращает кого-либо в какой-либо области в специалиста по данным (и в этом нет ничего плохого) - опять же, то, что определяет науку, - это методология, а не моделирование. Если кого-то интересует только прогноз, например, если на фотографии есть собака, без проблем, «.fit (X, y)», «.predict (X)» и habemus praedicere! Запуск регрессии может быть наукой, а может и нет, это зависит от методологии. То есть Data Scientist использует машинное обучение, но использование машинного обучения не определяет специалиста по данным.

Есть инженерные науки? А как насчет инженера по машинному обучению?

Конечно, инженерия использует много науки и научных методологий, но основное внимание инженерии уделяется не доказательству фальсификации допущений или созданию новых моделей для описания общества, а решению реальных проблем. Таким образом, в то время как подход ученого заключается в скептическом размышлении о том, как доказать причинный эффект или как найти пример, противоречащий предыдущей теории / модели, инженерия более прагматична для применения знаний, например, для повышения эффективности процесса. Очевидно, что нет лучше или хуже, значит, это разные понятия.

Итак, в чем разница в объеме работы специалиста по данным и инженера по машинному обучению? Ученый будет заниматься созданием моделей, наилучшим образом отражающих реальность, экспериментируя с проверкой гипотез, а инженер будет заниматься оптимизацией процессов, поддержанием наилучшей возможной архитектуры и оптимизацией затрат. Обратите внимание, что оба профессионала (такие как администратор баз данных, аналитик данных, аналитик бизнес-аналитики и т. Д.) Могут / должны создавать прогнозные модели.

Эти идеи и определения о Data Science и Data Scientist еще не консолидированы, и этот текст представляет собой попытку систематизировать эти знания, но он представляет мою идею, учитывая мой опыт по этому вопросу и, как и в науке, все еще может проходить через обзоры, поскольку они столкнулся с реальностью, данными и новыми парадигмами.

Наконец, видео от одного из величайших сторонников науки, астробиолога НАСА Карла Сагана (1934–96), объясняет, что такое скептический и скромный образ мышления.

Https://www.youtube.com/watch?v=otZzznkXhjo

А как насчет вашей компании? Как определяется сфера деятельности специалиста по данным? Они там занимаются наукой или техникой? Оставляйте свои комментарии!

См. Также наши Интерпретируемость машинного обучения и нашу серию статей История статистики.

См. тоже: