Мнение
5 концепций, которые должен знать каждый специалист по данным
Мультиколлинеарность, кодирование, выборка, ошибка и повествование.
Оглавление
- Вступление
- Мультиколлинеарность
- Одно горячее кодирование
- Отбор проб
- Показатели ошибок
- Рассказывание историй
- Резюме
- использованная литература
Вступление
Я написал об общих навыках, которые специалисты по анализу данных могут рассчитывать использовать в своей профессиональной карьере, поэтому теперь я хочу выделить некоторые ключевые концепции науки о данных, которые может быть полезно знать, а затем использовать. Я могу обсуждать некоторые из них, которые вы уже знаете, и некоторые, о которых вы не знаете; Моя цель - предоставить профессиональное объяснение того, почему эти концепции полезны, независимо от того, что вы знаете сейчас. Мультиколлинеарность, быстрое кодирование, недостаточная выборка и передискретизация, показатели ошибок и, наконец, повествование - вот ключевые концепции, о которых я думаю в первую очередь, когда думаю о профессиональном ученом данных в их повседневной работе. Последний пункт, возможно, представляет собой сочетание навыков и концепции, но, тем не менее, я хотел подчеркнуть его важность для вашей повседневной работы в качестве специалиста по данным. Я подробно расскажу обо всех этих концепциях ниже.
Мультиколлинеарность
Хотя это слово довольно длинное и трудно произносимое, если разбить его на части, мультиколлинеарность оказывается простой. Multi означает много, а коллинеарность означает линейно связанные. Мультиколлинеарность можно описать как ситуацию, когда две или более объясняющих переменных объясняют схожую информацию или сильно связаны в регрессионной модели. Есть несколько причин, по которым эта концепция может вызывать беспокойство.
Для некоторых методов моделирования это может привести к переобучению и, в конечном итоге, к снижению производительности модели.
Данные становятся избыточными, и не все функции или атрибуты необходимы в вашей модели. Следовательно, есть несколько способов узнать, какие функции, которые представляют собой мультиколлинеарность, вам следует удалить.
- коэффициент инфляции дисперсии (VIF)
- матрицы корреляции
Эти два метода обычно используются специалистами по анализу данных, особенно корреляционные матрицы и графики - обычно визуализируются с помощью какой-либо тепловой карты, в то время как VIF менее известен.
Чем выше значение VIF, тем менее пригодна функция для вашей регрессионной модели.
Отличный и простой ресурс для VIF - это [3]:
Одно горячее кодирование
Эта форма преобразования функций в вашей модели называется горячим кодированием. Вы хотите представить свои категориальные особенности в числовом виде, закодировав их. В то время как категориальные признаки сами по себе имеют текстовые значения, однократное кодирование перемещает эту информацию так, что каждое значение становится признаком, а наблюдение в строке обозначается как 0 или 1. Например, если у нас есть категориальная переменная пол, числовое представление после однократного кодирования будет выглядеть так (пол до и мужской / женский после):
Это преобразование полезно, когда вы не просто работаете с числовыми функциями, и вам нужно создать это числовое представление с текстовыми / категориальными функциями.
Отбор проб
Если у вас недостаточно данных, в качестве компенсации может быть предложено передискретизация. Допустим, вы работаете над проблемой классификации и у вас есть класс меньшинства, как в примере ниже:
class_1 = 100 rows class_2 = 1000 rows class_3 = 1100 rows
Как видите, class_1 имеет небольшой объем данных для своего класса, что означает, что ваш набор данных несбалансирован и будет называться классом меньшинства. Есть несколько методов передискретизации. Один из них называется SMOTE [5], что означает Техника передискретизации синтетических меньшинств. Одним из способов работы SMOTE является использование метода K-соседа для поиска ближайшего соседа для создания синтетических выборок. Существуют аналогичные методы, использующие обратный метод для недостаточной выборки.
Эти методы полезны, когда у вас есть выбросы в вашем классе или даже данные регрессии, и вы хотите, чтобы ваша выборка была лучшим представлением данных, на которых ваша модель будет работать в будущем.
Показатели ошибок
В Data Science есть множество показателей ошибок, используемых как для моделей классификации, так и для регрессионных моделей. Согласно sklearn [6], вот некоторые из них, которые можно использовать специально для регрессионных моделей:
metrics.explained_variance_score
metrics.mean_squared_log_error
Две самые популярные метрики ошибок для регрессии сверху - это MSE и RMSE:
MSE: концепция → средняя абсолютная потеря регрессии ошибки (sklearn)
RMSE: концепция → среднеквадратичная ошибка регрессии (sklearn)
Для классификации вы можете рассчитывать оценить производительность вашей модели с точностью и AUC (площадь под кривой).
Рассказывание историй
Я хотел добавить уникальную концепцию Data Science - рассказывание историй. Я не могу не подчеркнуть, насколько важна эта концепция. Это можно рассматривать как концепцию или навык, но здесь не важен ярлык, а именно то, насколько хорошо вы формулируете свои методы решения проблем в деловой обстановке. Многие специалисты по данным сосредоточатся исключительно на точности модели, но тогда не смогут понять весь бизнес-процесс. Этот процесс включает:
- чем занимается?
- в чем проблема?
- зачем нам Data Science?
- какова здесь цель Data Science?
- когда мы получим полезные результаты?
- как мы можем применить наши результаты?
- каково влияние наших результатов?
- как мы делимся своими результатами и общим процессом?
Как видите, ни один из этих пунктов не является самой моделью / улучшением точности. Основное внимание здесь уделяется тому, как вы будете использовать данные для решения проблем своей компании. Полезно познакомиться с заинтересованными сторонами и вашими нетехническими коллегами, с которыми вы в конечном итоге будете работать. Вы также будете работать с менеджерами по продукту, которые будут работать вместе с вами над оценкой проблемы, и инженерами по обработке данных, чтобы собрать данные еще до запуска базовой модели. В конце процесса моделирования вы поделитесь своими результатами с ключевыми специалистами, которые, как правило, хотели бы видеть его влияние, скорее всего, в каком-либо визуальном представлении (Табло, презентация Google и т. Д.), так что возможность представлять и общаться также полезно.
Резюме
Существует множество ключевых концепций, которые следует знать специалистам по данным, а также инженерам по машинному обучению. В этой статье обсуждаются пять из них:
Multicollinearity One-hot encoding Sampling Error Storytelling
Не стесняйтесь комментировать ниже некоторые концепции Data Science, на которых вы сосредоточены ежедневно или о которых, по вашему мнению, должны знать другие. Спасибо, что прочитали мою статью, надеюсь, вам понравилось!
Ниже приведены некоторые ссылки и ссылки, которые могут предоставить дополнительную информацию по темам, обсуждаемым в этой статье.
Я также хочу выделить две другие написанные мною истории, относящиеся к этой статье, [8] и [9]:
В этих двух статьях рассказывается о ключевых навыках и проектах, которые вам нужно будет знать или с которыми вам нужно будет ознакомиться и которые в конечном итоге вы планируете использовать в качестве профессионального специалиста по данным.
использованная литература
[1] Фотография Romson Preechawit на Unsplash, (2020)
[2] Фото The Creative Exchange на Unsplash, (2018)
[3] Statistics How To, Variance Inflation Factor, (2020).
[4] M.Przybyla, Снимок экрана с горячим кодированием, (2020)
[5] Дж. Леметр, Ф. Ногейра, Д. Оливейра, К. Аридас Версия 12b2e0d2, imblearn.over_sampling.SMOTE, (2016–2017)
[6] разработчики scikit-learn, 3.3. Метрики и скоринг: количественная оценка качества прогнозов , (2007–2020)
[7] Фото Nong Vang на Unsplash, (2018)
[8] М.Прибыла, 5 общих навыков, которые должен знать каждый специалист по данным, (2020)
[9] М.Прибыла, 5 профессиональных проектов, которые должен знать каждый специалист по данным, (2020)