5 концепций, которые должен знать каждый специалист по данным

Мнение

5 концепций, которые должен знать каждый специалист по данным

Мультиколлинеарность, кодирование, выборка, ошибка и повествование.

Вступление

Я написал об общих навыках, которые специалисты по анализу данных могут рассчитывать использовать в своей профессиональной карьере, поэтому теперь я хочу выделить некоторые ключевые концепции науки о данных, которые может быть полезно знать, а затем использовать. Я могу обсуждать некоторые из них, которые вы уже знаете, и некоторые, о которых вы не знаете; Моя цель - предоставить профессиональное объяснение того, почему эти концепции полезны, независимо от того, что вы знаете сейчас. Мультиколлинеарность, быстрое кодирование, недостаточная выборка и передискретизация, показатели ошибок и, наконец, повествование - вот ключевые концепции, о которых я думаю в первую очередь, когда думаю о профессиональном ученом данных в их повседневной работе. Последний пункт, возможно, представляет собой сочетание навыков и концепции, но, тем не менее, я хотел подчеркнуть его важность для вашей повседневной работы в качестве специалиста по данным. Я подробно расскажу обо всех этих концепциях ниже.

Мультиколлинеарность

Хотя это слово довольно длинное и трудно произносимое, если разбить его на части, мультиколлинеарность оказывается простой. Multi означает много, а коллинеарность означает линейно связанные. Мультиколлинеарность можно описать как ситуацию, когда две или более объясняющих переменных объясняют схожую информацию или сильно связаны в регрессионной модели. Есть несколько причин, по которым эта концепция может вызывать беспокойство.

Для некоторых методов моделирования это может привести к переобучению и, в конечном итоге, к снижению производительности модели.

Данные становятся избыточными, и не все функции или атрибуты необходимы в вашей модели. Следовательно, есть несколько способов узнать, какие функции, которые представляют собой мультиколлинеарность, вам следует удалить.

коэффициент инфляции дисперсии (VIF)
матрицы корреляции

Эти два метода обычно используются специалистами по анализу данных, особенно корреляционные матрицы и графики - обычно визуализируются с помощью какой-либо тепловой карты, в то время как VIF менее известен.

Чем выше значение VIF, тем менее пригодна функция для вашей регрессионной модели.

Отличный и простой ресурс для VIF - это [3]:

Фактор инфляции дисперсии - инструкции по статистике
Определения статистики› Фактор инфляции дисперсии Вы можете сначала прочитать эту статью: Что такое мультиколлинеарность… www.statisticshowto.com

Одно горячее кодирование

Эта форма преобразования функций в вашей модели называется горячим кодированием. Вы хотите представить свои категориальные особенности в числовом виде, закодировав их. В то время как категориальные признаки сами по себе имеют текстовые значения, однократное кодирование перемещает эту информацию так, что каждое значение становится признаком, а наблюдение в строке обозначается как 0 или 1. Например, если у нас есть категориальная переменная пол, числовое представление после однократного кодирования будет выглядеть так (пол до и мужской / женский после):

Это преобразование полезно, когда вы не просто работаете с числовыми функциями, и вам нужно создать это числовое представление с текстовыми / категориальными функциями.

Отбор проб

Если у вас недостаточно данных, в качестве компенсации может быть предложено передискретизация. Допустим, вы работаете над проблемой классификации и у вас есть класс меньшинства, как в примере ниже:

class_1 = 100 rows
class_2 = 1000 rows
class_3 = 1100 rows

Как видите, class_1 имеет небольшой объем данных для своего класса, что означает, что ваш набор данных несбалансирован и будет называться классом меньшинства. Есть несколько методов передискретизации. Один из них называется SMOTE [5], что означает Техника передискретизации синтетических меньшинств. Одним из способов работы SMOTE является использование метода K-соседа для поиска ближайшего соседа для создания синтетических выборок. Существуют аналогичные методы, использующие обратный метод для недостаточной выборки.

Эти методы полезны, когда у вас есть выбросы в вашем классе или даже данные регрессии, и вы хотите, чтобы ваша выборка была лучшим представлением данных, на которых ваша модель будет работать в будущем.

Показатели ошибок

В Data Science есть множество показателей ошибок, используемых как для моделей классификации, так и для регрессионных моделей. Согласно sklearn [6], вот некоторые из них, которые можно использовать специально для регрессионных моделей:

metrics.explained_variance_score

metrics.max_error

metrics.mean_absolute_error

metrics.mean_squared_error

metrics.mean_squared_log_error

metrics.median_absolute_error

metrics.r2_score

metrics.mean_poisson_deviance

metrics.mean_gamma_deviance

Две самые популярные метрики ошибок для регрессии сверху - это MSE и RMSE:

MSE: концепция → средняя абсолютная потеря регрессии ошибки (sklearn)

RMSE: концепция → среднеквадратичная ошибка регрессии (sklearn)

Для классификации вы можете рассчитывать оценить производительность вашей модели с точностью и AUC (площадь под кривой).

Рассказывание историй

Я хотел добавить уникальную концепцию Data Science - рассказывание историй. Я не могу не подчеркнуть, насколько важна эта концепция. Это можно рассматривать как концепцию или навык, но здесь не важен ярлык, а именно то, насколько хорошо вы формулируете свои методы решения проблем в деловой обстановке. Многие специалисты по данным сосредоточатся исключительно на точности модели, но тогда не смогут понять весь бизнес-процесс. Этот процесс включает:

чем занимается?
в чем проблема?
зачем нам Data Science?
какова здесь цель Data Science?
когда мы получим полезные результаты?
как мы можем применить наши результаты?
каково влияние наших результатов?
как мы делимся своими результатами и общим процессом?

Как видите, ни один из этих пунктов не является самой моделью / улучшением точности. Основное внимание здесь уделяется тому, как вы будете использовать данные для решения проблем своей компании. Полезно познакомиться с заинтересованными сторонами и вашими нетехническими коллегами, с которыми вы в конечном итоге будете работать. Вы также будете работать с менеджерами по продукту, которые будут работать вместе с вами над оценкой проблемы, и инженерами по обработке данных, чтобы собрать данные еще до запуска базовой модели. В конце процесса моделирования вы поделитесь своими результатами с ключевыми специалистами, которые, как правило, хотели бы видеть его влияние, скорее всего, в каком-либо визуальном представлении (Табло, презентация Google и т. Д.), так что возможность представлять и общаться также полезно.

Резюме

Существует множество ключевых концепций, которые следует знать специалистам по данным, а также инженерам по машинному обучению. В этой статье обсуждаются пять из них:

Multicollinearity
One-hot encoding
Sampling
Error
Storytelling

Не стесняйтесь комментировать ниже некоторые концепции Data Science, на которых вы сосредоточены ежедневно или о которых, по вашему мнению, должны знать другие. Спасибо, что прочитали мою статью, надеюсь, вам понравилось!

Ниже приведены некоторые ссылки и ссылки, которые могут предоставить дополнительную информацию по темам, обсуждаемым в этой статье.

Я также хочу выделить две другие написанные мною истории, относящиеся к этой статье, [8] и [9]:

5 общих навыков, которые должны знать специалисты по данным
Внимательный взгляд на популярные навыки, которые я использовал в качестве специалиста по данным. todatascience.com

5 профессиональных проектов, которые должен знать каждый специалист по данным
Сегментация клиентов, классификация текста, тональность, временные ряды и системы рекомендаций. todatascience.com

В этих двух статьях рассказывается о ключевых навыках и проектах, которые вам нужно будет знать или с которыми вам нужно будет ознакомиться и которые в конечном итоге вы планируете использовать в качестве профессионального специалиста по данным.

использованная литература

[1] Фотография Romson Preechawit на Unsplash, (2020)

[2] Фото The Creative Exchange на Unsplash, (2018)

[3] Statistics How To, Variance Inflation Factor, (2020).

[4] M.Przybyla, Снимок экрана с горячим кодированием, (2020)

[5] Дж. Леметр, Ф. Ногейра, Д. Оливейра, К. Аридас Версия 12b2e0d2, imblearn.over_sampling.SMOTE, (2016–2017)

[6] разработчики scikit-learn, 3.3. Метрики и скоринг: количественная оценка качества прогнозов , (2007–2020)

[7] Фото Nong Vang на Unsplash, (2018)

[8] М.Прибыла, 5 общих навыков, которые должен знать каждый специалист по данным, (2020)

[9] М.Прибыла, 5 профессиональных проектов, которые должен знать каждый специалист по данным, (2020)

5 концепций, которые должен знать каждый специалист по данным

Мнение