Серия специализаций John Hopkins DS

Краткое введение в науку о данных

Наука о данных, большие данные, данные и процесс Data Science.

Full series
Part 1 - What is Data Science, Big data and the Data Science process
Part 2 - The origin of R, why use R, R vs Python and resources to learn
Part 3 - Version Control, Git & GitHub and best practices for sharing code.
Part 4 - The 6 types of Data Analysis
Part 5 - The ability to design experiments to answer your Ds questions
Part 6 - P-value & P-hacking
Part 7 - Big Data, it's benefits, challenges, and future

Эта серия основана на Специализации по науке о данных, предлагаемой Университетом Джона Хопкинса на Coursera. Статьи в этой серии представляют собой заметки, основанные на курсе, с дополнительными исследованиями и темами для моих собственных учебных целей. Для первого курса Data Scientist Toolbox примечания будут разделены на 7 частей. Заметки о сериале также можно найти здесь.

Вступление

Специалисты по анализу данных обладают способностью находить закономерности и идеи в океанах данных, как если бы астроном смотрел в глубокий космос с помощью телескопов, чтобы найти новые планеты, галактики и черные дыры среди миллиардов звезд и других галактик. Наука о данных, в основном как наука, используется для ответа на вопросы о мире путем объединения различных областей, например, математики, информатики, философии и т. Д., Наряду с различными методологиями и новыми технологиями, чтобы расширить и улучшить нашу способность отвечать на них хорошо.

Независимо от того, являетесь ли вы новичком в области науки о данных или работающим специалистом по анализу данных, всегда полезно вернуться к центральной теме науки о данных. Легко отвлечься или отвлечься на новые инструменты или монотонность работы из-за того, что мы забываем основное понятие науки о данных и удивительные возможности, которые она создает. Таким образом, эта статья может служить введением в науку о данных, а также может быть ее обновлением. Тем не менее, я надеюсь, что вы научитесь чему-то из этого и получите удовольствие от чтения.

Что такое Data Science?

В широком смысле наука о данных - это использование данных для ответа на вопросы. И чтобы ответить на эти вопросы, специалист по данным использует совокупность навыков - статистики, математики, информатики, обработки данных, очистки, визуализации, анализа и т. Д.

На основе отчета The Economist Special:

Специалист по анализу данных в широком смысле определяется как человек, который сочетает в себе навыки программиста, статистика и рассказчика / художников для извлечения золотых самородков, скрытых под горами данных.

Именно владение всеми этими навыками делает специалиста по обработке данных ценным в эпоху больших данных. Что еще более важно, то, что делает науку о данных решающей, так это ее способность выстраивать связь из чисел и цифр и превращать их в идеи, которые помогают в принятии основанных на фактах и ​​более быстрых решений. имеет решающее значение в этом быстро меняющемся мире. Подобно машине, которая превращает простой углерод в драгоценные алмазы, компании и предприятия теперь могут использовать данные, которые сами по себе были бесплодны, разными способами.

Помимо бизнеса, который вооружает специалистов по данным для получения прибыли и расширения, наука о данных (прогнозирование и логический вывод) также имеет множество применений, которые способствуют общественному благу с помощью прогнозов и умозаключений и рассказывают истории красивыми визуализации данных - например, для прогнозирования заболеваний, стихийных бедствий или преступности, а также для визуализации последних обновлений данных о COVID-19, медленного повышения глобальной температуры из-за последствий изменения климата или постепенного снижения бедность или голод в глобальном масштабе.

Диаграмма Венна для науки о данных

Согласно печально известной диаграмме Венна в области науки о данных Дрю Конвея, наука о данных может быть приравнена к:

Навыки взлома + знание математики и статистики + существенная экспертиза

Существенная экспертиза = правильный вопрос и правильная формулировка проблемы.

Хакерские навыки = извлечение и анализ данных, очистка и форматирование данных, визуализация и анализ данных, написание краткого кода машинного обучения и глубокого обучения с использованием инструментов и пакетов.

Математика и статистика = базовые знания для выполнения анализа и использования методов статистического обучения для преобразования информации во что-то полезное (прогнозирование и умозаключение) и принятия решений.

Почему наука о данных стала актуальной сейчас?

На самом деле наука о данных имеет долгую историю, уходящую корнями в 60-е годы. Но причина, по которой он так популярен сейчас, заключается в том, что (1) во-первых, из-за экспоненциального роста данных (большие данные) согласно закону Мура, и (2) из-за роста недорогих вычислений благодаря инновациям и достижениям в области технологий.

Обе эти причины были идеальным ингредиентом для создания наиболее существенной среды для обогащения данных, а также инструментов, используемых для их анализа, попутно обновляя компьютерную инфраструктуру (память, процессоры, программное обеспечение и т. Д.). То, что мы можем сделать сегодня, с возможной инфраструктурой и суперкомпьютерами, тогда было бы фантастикой, и мы все еще делаем прорывы и преодолеваем барьеры каждый день.

Наука о данных тесно связана с большими данными, поскольку чем больше у вас данных, тем точнее будет ваш вывод на основе анализа.

Что такое большие данные?

Объяснение того, почему наука о данных такова, было бы неполным без представления концепции больших данных.

Согласно Oxford Languages, большие данные определяются как:

Чрезвычайно большие наборы данных, которые можно анализировать с помощью вычислений для выявления закономерностей, тенденций и ассоциаций, особенно касающихся человеческого поведения и взаимодействий.

Другими словами, большие данные просто определяются как большой набор данных.

3 против больших данных

Есть 3 характеристики больших данных, также известные как 3V больших данных, которые могут помочь вам лучше понять этот термин.

1. Объем

  • Количество сгенерированных и сохраненных данных. Его размер определяет ценность и потенциальную информацию, а также классифицирует набор данных как большие данные.

2. Разнообразие

  • Тип и характер данных в виде структурированных или неструктурированных; качественные или количественные, т.е. изображения, текст, аудио, видео и т. д.

3. Скорость

  • Скорость, с которой данные генерируются и обрабатываются. Большие данные часто генерируются в режиме реального времени, например, видео на YouTube, просматриваемые каждый день во всем мире, или количество случаев COVID-19 во всем мире.

Теперь, когда у вас есть краткое представление о том, что такое Data Science и Big Data, давайте вернемся к основам и разберемся, что на самом деле представляют собой данные - центральный ингредиент всей магии.

Что такое данные?

Данные являются составной частью процессов науки о данных, и понимание того, что такое данные, может помочь вам повысить эффективность и понять суть науки о данных.

1. Согласно Cambridge English Dictionary:

Информация, особенно факты или цифры, собираемая для изучения, рассмотрения и использования для принятия решений.

2. По данным Википедии

Набор значений качественных или количественных переменных.

Согласно определению Википедии, данные можно разбить на термины набор, переменные, качественный и количественный.

Установить

  • Население, из которого взяты данные

Переменные

  • Входная переменная (X, предиктор, независимая переменная)
  • Выходная переменная (Y, ответ, зависимая переменная)

Количественный

  • информация о количестве (можно посчитать и измерить)
  • возраст, рост, вес, количество заболевших и т. д.

Качественный

  • описательные переменные (можно наблюдать, но нельзя измерить)
  • цвет, группа крови, инфицирован или нет, адрес и т. д.

Пример

Взяв в качестве примера пандемию COVID-19, допустим, мы хотим визуализировать количество подтвержденных случаев в США с помощью простого графика разброса,

  • набор - подтвержденные случаи из США.
  • Независимая переменная, X - время (дни)
  • Зависимая переменная, Y - количество подтвержденных
  • И X, и Y - количественные переменные.

Результат графика также можно использовать для изображения отношения между X и Y, положительной или отрицательной корреляции. С помощью методов статистического обучения можно использовать такие алгоритмы, как линейная регрессия, для построения моделей для целей прогнозирования и вывода.

Данные беспорядочные и несовершенные

По мере продвижения в области науки о данных вы поймете, что данные беспорядочные и неструктурированные, и требуются навыки, терпение и время, чтобы очистить данные и структурировать их, чтобы они были готовы к использованию. Возьмем данные изображения, например, если вы должны были построить модель распознавания лиц, которая обнаруживает лицо, входные изображения могут быть темными, зернистыми, размытыми и т. Д. С этими беспорядочными данными изображения может быть трудно справиться. Другой аспект заключается в том, что отсутствующие данные, полученные данные или полученные из реального мира часто забрасываются недостающей информацией, и для их устранения используются несколько методов.

Источники данных

Данные поступают из многих мест, особенно в то время, когда использование смартфонов резко возросло из-за социальных сетей и роста потоковых сервисов, таких как Netflix и Spotify. Данные можно разделить на внутренние или внешние, где внутренние - это информация, созданная в рамках бизнеса, например, финансы, а внешние - это информация от клиентов, аналитика использования и т. Д. Хорошие данные также часто трудно найти. , в большинстве случаев вам придется добывать его из Интернета для выполнения анализа, и для того, чтобы он был полезен, требуется большая очистка.

Данные имеют второстепенное значение

Самое важное правило, которого должны придерживаться специалисты по данным, - всегда сначала задавать вопросы, а затем искать данные. Подобно тому, как научный метод начинается с гипотезы, наука о данных начинается с вопросов, которые имеют решающее значение для решения поставленной проблемы.

Как выразился Эйнштейн:

«Если бы у меня был час на решение проблемы, и моя жизнь зависела от решения, я бы потратил первые 55 минут на определение правильного вопроса, который нужно задать… хотя бы раз, когда я знаю правильный вопрос , я смогу решить проблему менее чем за пять минут ».

Процесс обработки данных

Подобно научному методу, в науке о данных есть процесс, который превращает данные в идеи.

Кратко этот процесс можно описать ниже.

Наука о данных начинается с (1) создания вопросов, которые помогают вам хорошо понять проблему. После того, как вопросы хорошо сформулированы, пора (2) собрать данные из соответствующих источники, использующие методы науки о данных. После сбора данных пора (3) очистить данные, которые форматируют данные и подготавливают их к следующему этапу, а именно (4) анализ и исследование, где статистические методы используются для обнаружения скрытых закономерностей и взаимосвязей. После этого идет (5) моделирование, где модели машинного обучения строятся для прогнозирования и вывода. Наконец, (5) результаты передаются для информирования других и используются для принятия решений.

Обобщить:

  1. Формулировка вопроса
  2. Сбор данных
  3. Очистка данных
  4. Анализ и исследование данных
  5. Моделирование данных
  6. Сообщение результатов

Чем занимаются специалисты по данным?

Специалисты по анализу данных имеют далеко идущие применения во многих областях. Но чтобы иметь представление о том, как Data Science способствует развитию общества, давайте взглянем на Нейта Сильвера, основателя и главного редактора FiveThirtyEight, который использует статистический анализ для передачи убедительных историй и тем, в основном о выборах и политике. , спорт, наука, экономика и др.

Одна из его самых заметных работ была посвящена выборам 2016 года, в которых были сделаны точные прогнозы, основанные на статистических методах. Вы также можете ознакомиться с прогнозом на выборы 2020 года для США.

Прогнозирование выборов, безусловно, непростая задача, и основная модель, используемая Сильвером, сложна, если цитировать:

Это связано с большой зависимостью от пути и большой нелинейностью, а выступления кандидатов могут довольно сложно взаимодействовать друг с другом. Как мы видим, у нас действительно нет особого выбора в этом вопросе. Наша первичная модель обязательно сложна, потому что сами по себе первичные выборы представляют собой сложный процесс.

Другими словами, существует множество факторов, которые не обязательно являются линейными (это не прямая связь между X и Y), и они взаимодействуют по-разному. Если вы хотите узнать больше о том, как работает его модель, нажмите здесь.

Один из важных уроков из этого примера заключается в том, что инструменты и методологии науки о данных просто повышают эффективность и скорость, но для их реального использования требуются знания и способность выбирать правильные факторы, устраняя при этом неправильные, чтобы сделать правильный вывод. А для этого нужно в первую очередь задавать правильные вопросы. Это то, что вам нужно понять, если вы решите заняться этой областью.

Резюме

Эта методология науки о данных - использование данных для ответа на вопросы - так же интуитивно понятна, как и принятие решений на основе уже имеющихся знаний. Все мы пытаемся ответить на вопросы в нашей жизни, большие или маленькие, на основе информации, которую мы храним, а когда совершаются ошибки, это происходит из-за отсутствия информации в данный момент. Вопросы, которые мы можем задать, также ограничиваются имеющейся у нас информацией.

Но теперь чистый размер и количество данных, создаваемых каждый день, перемещаясь от источника к источнику, являются астрономическими, и с появлением науки о данных и новых методов, созданных для использования данных, теперь у нас есть возможность находить ответы на вопросы, на которые раньше не было ответа, и даже порождать новые вопросы, которые тогда были немыслимы.

По мере того, как Data Science становится более доступной и демократизированной, возникает опасность дезинформации и ошибочных выводов. Таким образом, крайне важно начать с того, чтобы задавать вопросы, а также научиться задавать правильные.

Задавая правильные вопросы и получая соответствующие данные, наряду с мощью инструментов Data Science и алгоритмов машинного обучения, мы можем разгадывать скрытые закономерности мира и расшифровывать тайны, которые когда-то были непостижимыми.

Во второй части я напишу о том, зачем использовать R для науки о данных.

Спасибо за чтение, и я надеюсь, что эта статья была познавательной и полезной!

Если вы заинтересованы в изучении науки о данных, ознакомьтесь с этой серией статей о науке о данных «Ультра-обучение»!



Как« сверхобучиться науке о данных - часть 1
Это краткое руководство, основанное на книге Ультраобучение , в применении к науке о данных medium.com »



Прочтите эти другие статьи, чтобы узнать больше о Data Science.











Контакты

Если вы хотите быть в курсе моих последних статей, подписывайтесь на меня на Medium.

Следите также за другими моими профилями в социальных сетях!

Следите за моей следующей статьей и не забывайте оставаться в безопасности!