Аргумент, который утверждает, что область науки о данных действительно следует рассматривать как фундаментальную науку.

Что такое наука?

По сути, вся фундаментальная наука строит прогнозы в форме экспериментов: точные, поддающиеся количественной оценке, опровергающие прогнозы . Как сказал Ричард П. Фейнман:

«Фундаментальный принцип науки, почти определение, таково: единственный критерий достоверности любой идеи - это эксперимент».

Итак, если наука занимается предсказаниями, чем они отличаются от предсказаний астрологов? Основное различие заключается в типах прогнозов, которые делает каждый. Например, большинство гороскопов дадут вам общие прогнозы. В этих гороскопах обычно говорится что-то вроде: «У тебя сегодня будет отличный день». С другой стороны, научные прогнозы - это точные, количественные прогнозы; они не говорят, что у вас будет хороший день, а вместо этого говорят, что вы выйдете за дверь ровно в 15.07 и попадете под метеор!

По общему признанию, большинство прогнозов не столь уж ужасны и обычно носят более прозаический характер. Но само предсказание, которое мы также можем назвать экспериментом, лежит в основе фундаментальной науки. Мы можем думать о фундаментальной науке как о той, которая сосредотачивается на наиболее фундаментальных аспектах Вселенной, материи и энергии. Изучение фундаментальной науки выявило тесную связь между такой фундаментальной наукой и вычислениями.

Фактически, мы можем думать о вычислении как о некотором процессе, который преобразует одно представление мира, наш вход, в какое-то другое представление мира, наш результат, как можно увидеть здесь. Например, входными данными может быть список температур на каждом из датчиков, распределенных по университетскому городку в 6 утра, а выходным - среднее значение температуры всех датчиков. Процесс или метод, преобразующий входные данные в выходные, будет вычислением самого среднего. Таким образом, можно сказать, что проблема вычисления средней температуры всех датчиков в 6 часов утра является вычислимой проблемой.

Так получилось, что важный компонент фундаментальной науки имеет дело с проблемами Вселенной, которые вычислимы. Как говорит Дэвид Дойч в [Zenil 2012] ¹, «законы физики относятся только к вычислимым функциям». Это означает, что в самом реальном смысле все законы физики принадлежат этому набору вычислимых функций, хотя сами вычислимые функции являются лишь небольшим подмножеством всех возможных математических функции!

Итак, как это связано с наукой о данных?

Прежде чем мы займемся вопросом о том, является ли Data Science наукой или нет, что, похоже, не имеет однозначного ответа, давайте сделаем шаг назад и посмотрим на идею доказательства. Этим словом часто злоупотребляют, так как существует много различных видов доказательства: например, есть научные доказательства, юридические доказательства, и математические доказательства.

В математике доказательство - это выводимый аргумент, который показывает, что утверждение истинно, что подтверждается аксиомами, определениями, теоремами и постулатами. Математики обычно используют дедуктивное рассуждение, чтобы показать, что посылки, также называемые утверждениями, в доказательстве истинны. Прямое доказательство - это доказательство, которое показывает, что данное утверждение всегда истинно, и доказательство обычно записывается на символическом языке. В косвенном доказательстве математики обычно используют доказательство от противоречия, когда они предполагают, что противоположное утверждение истинно, и в конечном итоге приходят к противоречию, показывающему ложное предположение.

В науке, которая по своей сути является индуктивным предприятием, ² мы не можем доказать, что какая-либо гипотеза верна, поскольку для этого потребовалось бы бесконечное количество наблюдений, поэтому лучшее, на что мы можем надеяться, - это использовать индуктивные рассуждения в качестве основы наших обобщение и считать его истинным временно. Как заметил Ли Ловингер о Карле Поппере: «С этой точки зрения, которая довольно широко принята, гипотеза может быть опровергнута или опровергнута, но не может быть проверена или доказана». После того, как она подтверждена всесторонне и последовательно, и мы сочтем ее достаточно обоснованной, мы называем ее теорией.

По закону юридическое доказательство - это процесс установления факта с использованием доказательств. В науке мы могли бы назвать это подтверждением некоторой теории, поскольку это обычно также принимает форму аргумента, когда вы представляете серию предпосылок в поддержку некоторого вывода. Как и юридическое доказательство, научное доказательство обычно ограничивается доказательством фактов в смысле использования данных для установления действительности фактов. Это подробно обсуждает Д. Х. Кай в [Kaye 1991] ³, который показывает, что использование количественных наблюдений-утверждений дает свидетельства для доказательства или, как мы бы сказали в науке, демонстрации достоверности фактов. Таким образом, мы могли бы в некотором смысле сказать, что юридические аргументы используют доказательства, чтобы показать обоснованность теории, тогда как наука использует данные, чтобы опровергнуть теорию.

Например, следуя [Kaye 1991] ³, сбор поддающихся количественной оценке данных об интенсивности и поляризации излучения на различных частотах с радиотелескопа, направленного на Крабовидную туманность, является доказательством того, что показывает (по закону, доказывает) что-то в направлении Крабовидной туманности, является радиоисточником, факт. Такие факты могут быть выведены или выведены из утверждений наблюдений, свидетельств. Таким образом, факт основан на некотором повторяющемся наблюдении или измерении, которые, по общему мнению, могут повторяться с тем же значением или таким же образом при одних и тех же обстоятельствах.

Эти факты затем используются для индуктивного обоснования гипотезы или модели изучаемой системы. прогнозы, сделанные этой моделью, дополнительно проверяются, и, когда достаточное количество прогнозов проверяется независимо, гипотеза или набор гипотез считаются достаточно подтвержденными, чтобы их можно было назвать теория.

Если это выглядит как наука и звучит как наука ...

Этот процесс, этот научный метод - именно то, что мы используем, когда используем наши модели машинного обучения, такие как проверка гипотез или деревья решений, в рамках науки о данных и используем данные для итеративно тестируйте и улучшайте наши модели. Я мог бы также возразить, следуя формулировке Фейнмана, что если вы используете систематическую модель для прогнозов, а затем проверяете эти прогнозы с помощью данные и используя эти результаты для проверки или улучшения вашей модели итеративно, вы занимаетесь наукой.

Применение этих научных моделей к конкретным проблемам без итеративного изменения или дальнейшего развития этих моделей приводит к принципам инженерии и технологии. Таким образом, я мог бы быть склонен классифицировать анализ данных как инженерную дисциплину, а исследовательский анализ данных как технологическое приложение, как видно здесь.

[1] Х. Зенил, Вычислимая Вселенная: понимание и исследование природы как вычислений. Ривер Эдж, Нью-Джерси, США: World Scientific Publishing Co., Inc., 2012 г.

[2] Индуктивным, по крайней мере в той степени, в которой такие мыслители, как Ричард Фейнман и Карл Поппер сочли это так, Фейнман в своем изложении Ключ к науке и Поппер в его формулировках предположений и критики.

[3] Д. Х. Кэй, Доказательство в законе и науке, Jurimetrics J., том 32, стр. 313, 1991 г.