Мнение

5 концепций, которые должен знать каждый специалист по данным

Мультиколлинеарность, кодирование, выборка, ошибка и повествование.

Оглавление

  1. Вступление
  2. Мультиколлинеарность
  3. Одно горячее кодирование
  4. Отбор проб
  5. Показатели ошибок
  6. Рассказывание историй
  7. Резюме
  8. использованная литература

Вступление

Я написал об общих навыках, которые специалисты по анализу данных могут рассчитывать использовать в своей профессиональной карьере, поэтому теперь я хочу выделить некоторые ключевые концепции науки о данных, которые может быть полезно знать, а затем использовать. Я могу обсуждать некоторые из них, которые вы уже знаете, и некоторые, о которых вы не знаете; Моя цель - предоставить профессиональное объяснение того, почему эти концепции полезны, независимо от того, что вы знаете сейчас. Мультиколлинеарность, быстрое кодирование, недостаточная выборка и передискретизация, показатели ошибок и, наконец, повествование - вот ключевые концепции, о которых я думаю в первую очередь, когда думаю о профессиональном ученом данных в их повседневной работе. Последний пункт, возможно, представляет собой сочетание навыков и концепции, но, тем не менее, я хотел подчеркнуть его важность для вашей повседневной работы в качестве специалиста по данным. Я подробно расскажу обо всех этих концепциях ниже.

Мультиколлинеарность

Хотя это слово довольно длинное и трудно произносимое, если разбить его на части, мультиколлинеарность оказывается простой. Multi означает много, а коллинеарность означает линейно связанные. Мультиколлинеарность можно описать как ситуацию, когда две или более объясняющих переменных объясняют схожую информацию или сильно связаны в регрессионной модели. Есть несколько причин, по которым эта концепция может вызывать беспокойство.

Для некоторых методов моделирования это может привести к переобучению и, в конечном итоге, к снижению производительности модели.

Данные становятся избыточными, и не все функции или атрибуты необходимы в вашей модели. Следовательно, есть несколько способов узнать, какие функции, которые представляют собой мультиколлинеарность, вам следует удалить.

  • коэффициент инфляции дисперсии (VIF)
  • матрицы корреляции

Эти два метода обычно используются специалистами по анализу данных, особенно корреляционные матрицы и графики - обычно визуализируются с помощью какой-либо тепловой карты, в то время как VIF менее известен.

Чем выше значение VIF, тем менее пригодна функция для вашей регрессионной модели.

Отличный и простой ресурс для VIF - это [3]:



Одно горячее кодирование

Эта форма преобразования функций в вашей модели называется горячим кодированием. Вы хотите представить свои категориальные особенности в числовом виде, закодировав их. В то время как категориальные признаки сами по себе имеют текстовые значения, однократное кодирование перемещает эту информацию так, что каждое значение становится признаком, а наблюдение в строке обозначается как 0 или 1. Например, если у нас есть категориальная переменная пол, числовое представление после однократного кодирования будет выглядеть так (пол до и мужской / женский после):

Это преобразование полезно, когда вы не просто работаете с числовыми функциями, и вам нужно создать это числовое представление с текстовыми / категориальными функциями.

Отбор проб

Если у вас недостаточно данных, в качестве компенсации может быть предложено передискретизация. Допустим, вы работаете над проблемой классификации и у вас есть класс меньшинства, как в примере ниже:

class_1 = 100 rows
class_2 = 1000 rows
class_3 = 1100 rows

Как видите, class_1 имеет небольшой объем данных для своего класса, что означает, что ваш набор данных несбалансирован и будет называться классом меньшинства. Есть несколько методов передискретизации. Один из них называется SMOTE [5], что означает Техника передискретизации синтетических меньшинств. Одним из способов работы SMOTE является использование метода K-соседа для поиска ближайшего соседа для создания синтетических выборок. Существуют аналогичные методы, использующие обратный метод для недостаточной выборки.

Эти методы полезны, когда у вас есть выбросы в вашем классе или даже данные регрессии, и вы хотите, чтобы ваша выборка была лучшим представлением данных, на которых ваша модель будет работать в будущем.

Показатели ошибок

В Data Science есть множество показателей ошибок, используемых как для моделей классификации, так и для регрессионных моделей. Согласно sklearn [6], вот некоторые из них, которые можно использовать специально для регрессионных моделей:

metrics.explained_variance_score

metrics.max_error

metrics.mean_absolute_error

metrics.mean_squared_error

metrics.mean_squared_log_error

metrics.median_absolute_error

metrics.r2_score

metrics.mean_poisson_deviance

metrics.mean_gamma_deviance

Две самые популярные метрики ошибок для регрессии сверху - это MSE и RMSE:

MSE: концепция → средняя абсолютная потеря регрессии ошибки (sklearn)

RMSE: концепция → среднеквадратичная ошибка регрессии (sklearn)

Для классификации вы можете рассчитывать оценить производительность вашей модели с точностью и AUC (площадь под кривой).

Рассказывание историй

Я хотел добавить уникальную концепцию Data Science - рассказывание историй. Я не могу не подчеркнуть, насколько важна эта концепция. Это можно рассматривать как концепцию или навык, но здесь не важен ярлык, а именно то, насколько хорошо вы формулируете свои методы решения проблем в деловой обстановке. Многие специалисты по данным сосредоточатся исключительно на точности модели, но тогда не смогут понять весь бизнес-процесс. Этот процесс включает:

  • чем занимается?
  • в чем проблема?
  • зачем нам Data Science?
  • какова здесь цель Data Science?
  • когда мы получим полезные результаты?
  • как мы можем применить наши результаты?
  • каково влияние наших результатов?
  • как мы делимся своими результатами и общим процессом?

Как видите, ни один из этих пунктов не является самой моделью / улучшением точности. Основное внимание здесь уделяется тому, как вы будете использовать данные для решения проблем своей компании. Полезно познакомиться с заинтересованными сторонами и вашими нетехническими коллегами, с которыми вы в конечном итоге будете работать. Вы также будете работать с менеджерами по продукту, которые будут работать вместе с вами над оценкой проблемы, и инженерами по обработке данных, чтобы собрать данные еще до запуска базовой модели. В конце процесса моделирования вы поделитесь своими результатами с ключевыми специалистами, которые, как правило, хотели бы видеть его влияние, скорее всего, в каком-либо визуальном представлении (Табло, презентация Google и т. Д.), так что возможность представлять и общаться также полезно.

Резюме

Существует множество ключевых концепций, которые следует знать специалистам по данным, а также инженерам по машинному обучению. В этой статье обсуждаются пять из них:

Multicollinearity
One-hot encoding
Sampling
Error
Storytelling

Не стесняйтесь комментировать ниже некоторые концепции Data Science, на которых вы сосредоточены ежедневно или о которых, по вашему мнению, должны знать другие. Спасибо, что прочитали мою статью, надеюсь, вам понравилось!

Ниже приведены некоторые ссылки и ссылки, которые могут предоставить дополнительную информацию по темам, обсуждаемым в этой статье.

Я также хочу выделить две другие написанные мною истории, относящиеся к этой статье, [8] и [9]:





В этих двух статьях рассказывается о ключевых навыках и проектах, которые вам нужно будет знать или с которыми вам нужно будет ознакомиться и которые в конечном итоге вы планируете использовать в качестве профессионального специалиста по данным.

использованная литература

[1] Фотография Romson Preechawit на Unsplash, (2020)

[2] Фото The Creative Exchange на Unsplash, (2018)

[3] Statistics How To, Variance Inflation Factor, (2020).

[4] M.Przybyla, Снимок экрана с горячим кодированием, (2020)

[5] Дж. Леметр, Ф. Ногейра, Д. Оливейра, К. Аридас Версия 12b2e0d2, imblearn.over_sampling.SMOTE, (2016–2017)

[6] разработчики scikit-learn, 3.3. Метрики и скоринг: количественная оценка качества прогнозов , (2007–2020)

[7] Фото Nong Vang на Unsplash, (2018)

[8] М.Прибыла, 5 общих навыков, которые должен знать каждый специалист по данным, (2020)

[9] М.Прибыла, 5 профессиональных проектов, которые должен знать каждый специалист по данным, (2020)