В школьные годы мы изучали историю, потому что история рассказывала нам о происхождении эволюции, древней цивилизации, сельском хозяйстве, урбанизации и многом другом. Данные подобны человеческому поведению, мы учимся друг у друга и ведем себя определенным образом, что помогает формировать закономерности, предполагать и предсказывать результаты.

Я обсуждал науку о данных с группой людей, которые зарабатывают на жизнь, тренируя спортсменов; ситуация в комнате была такова, что они не могли понять темы из-за слишком большого количества технического жаргона. Так как же объяснить их таким образом, что будет понятно?

Я буду обсуждать то же самое в следующих заголовках:

  • Данные
  • Исследовательский анализ данных
  • Групповой анализ
  • Кластеризация
  • Регрессия или классификация

Данные

Я просто начал с вопроса, что вы подразумеваете под данными? Чтобы узнать аудиторию, вы должны начать с запросов, большинство ответов были склонны только к числовым формам данных.

Я начал с того, что дал им понять, что данные повсюду, и в настоящий момент, что бы я ни говорил, это одна из форм данных. Далее я сказал им, что в этой комнате, если мы посчитаем, сколько человек присутствует, это одна из форм количественных данных, а если мы представим себя в таких категориях, как легкая атлетика, футбол, баскетбол, бадминтон и другие, то эти категории будут называться качественными данными. .

Очень важно объяснить аудитории на примерах, имеющих отношение к их жизни или работе.

Исследовательский анализ данных:

Теперь мы знаем, что такое данные, поэтому в этом разделе нам нужно больше узнать о данных, чтобы получить более глубокое представление о поведении, шаблонах, отношениях, ассоциациях. Итак, я начал с предыдущего примера нас самих: сколько всего участников в комнате, сколько принадлежит к каждой категории, средний возраст участников, присутствующих в комнате, полученная наивысшая квалификация и многое другое. Таким образом, в группе, если мы обнаружим, что кто-то не соответствует нашему шаблону, сегменту или поведению, это будет связано с выбросом, проще говоря, в нашей комнате, если присутствует человек с химическим образованием, он будет выбросом.

Если мы хотим установить какие-либо отношения или ассоциации между двумя точками данных, мы не можем просто сказать, что они есть, ребята, нам нужно иметь какое-то доказательство для установления того же самого, с точки зрения науки о данных мы должны сделать это с помощью статистической формулы с формулировкой гипотезы.

Групповой анализ

Я объяснил публике, что ты, мол, ивент-менеджер и должен выбрать, в каком месте лучше проводить мероприятие. Вы провели исследование и пришли к окончательному списку из трех ресторанов с названиями A, B и C. Теперь вы беспокоитесь о том, чтобы выбрать один из трех, как вы это сделаете, потому что администратор будет задавать соответствующие вопросы о том, почему вы выбрали этот ресторан, чтобы для этого вам необходимо сформулировать гипотезу и выполнить статистический тест, такой как Т-критерий Стьюдента (для двух групп) или ANOVA (если более двух групп) в случае параметрических данных (те данные, которые следуют нормальному распределению) и если данные является непараметрическим, то мы должны выполнить U-критерий Манна-Уитни, критерий знакового ранга Уилкоксона или критерий Крускала-Уоллиса. Я просто назвал этот тест, чтобы дать вам общее представление, но здесь возникает вопрос, что вы подразумеваете под параметрическими данными?

Приведенные выше два графика помогают понять распределение данных, если атрибут нормально распределен, он будет соответствовать рисунку 1 и может быть указан как параметрические данные, в противном случае рисунок 2 может быть указан как непараметрические данные.

Кластеризация

А вот и следующая тема кластеризации, кластеризация простыми словами означает группировку. Итак, вам всем будет интересно, почему мы обсуждаем здесь и как мы можем это сделать? Мы обсуждаем это, потому что кластеризация помогает лучше понять поведение или паттерн, таким образом, помогая в формулировании сегментов.

Один из распространенных примеров: в детстве мы привыкли видеть звезды и образовывать различные формы, не так ли? Давайте обсудим, как мы определяли форму, мы формировали изображение, визуализируя близлежащие звезды, потому что раньше это имело смысл. Итак, в науке о данных просто представьте точки данных в виде звезд, и мы формируем кластер с помощью математической формулы, например, путем вычисления евклидова расстояния, манхэттенского расстояния, Минковского и многих других. Далее, здесь есть одна загвоздка, сколько кластеров вы сформируете? Это может быть подтверждено визуально с помощью кривой локтя, коэффициента силуэта, оценки силуэта или оценки wss.

Регрессия или классификация

Чтобы объяснить регрессию всем вам, есть маленький мальчик, который голоден и пошел к своей матери за едой, этот мальчик печально известен и любит только вкусную и вкусную еду. Итак, мама пошла на кухню, чтобы начать готовить для него вкусняшку, она знает, что если в еде присутствуют ингредиенты х1, х2, х3, х4 и х5, то сыну понравится еда и он съест. Итак, она начала готовить еду из вышеупомянутых ингредиентов, чтобы приготовить блюдо Y. Итак, в этом примере x1,x2,x3,x4 и x5 являются независимыми переменными, а Y зависит от них. Таким образом, в будущем мы сможем предсказать вкус еды с помощью этих независимых переменных, а также предсказать, какие ингредиенты являются наиболее важными. В этом примере мы предсказываем два класса, понравится ли мальчику еда или нет, это пример алгоритма классификации, такого как логистическая регрессия, дерево решений, случайный лес, LDA и многие другие, и измеряем точность алгоритм через отчет о классификации, AUC и ROC.

Линейная регрессия — это одна из форм алгоритма для предсказания непрерывной переменной, так что вы помните того пресловутого мальчика, вы знаете, что он делал, когда ходил в школу, он ежедневно ходил по магазинам, чтобы купить конфеты, которых было в большом количестве, например, в один день 100, в другой день 66, 71,78,86,99,45 и т. д., чтобы были конфеты той же марки. Чтобы предсказать, сколько конфет он купит на следующий день, мы можем выполнить линейную регрессию, в которой Y_how_many будет зависимой переменной, зависящей от прошлой покупки (независимая переменная), а метрикой, используемой для измерения точности модели, является RMSE (среднеквадратичная ошибка). ), значение R-квадрата или значение R-скорректированного квадрата.

EndNote

Цель написания этой статьи — объяснить науку о данных упрощенным способом, потому что мы всегда будем предпочитать простоту, которая была прекрасно сформулирована с помощью бритвы Оккама, которая утверждает, что

«Принцип отдает предпочтение простоте: из двух конкурирующих теорий следует отдать предпочтение более простому объяснению объекта. Этот принцип также выражается в следующем: «Сущности не должны умножаться без необходимости».