Расшифровка 10 лучших жаргонов науки о данных для начинающих (часто задаваемые в интервью)

Объяснение на простом английском языке со ссылками

Эта статья посвящена расшифровке некоторых популярных жаргонизмов, используемых в науке о данных. Важно лучше понимать эти понятия. Их обычно спрашивают на собеседованиях при приеме на работу в науке о данных. Перейдем к темам.

Зависимые и независимые переменные

Зависимая переменная (целевая переменная) управляется независимыми переменными в исследовании. Например, доход розничного магазина зависит от количества покупателей, заходящих в магазин. Здесь выручка магазина является зависимой переменной. Количество покупателей, заходящих в магазин, является независимой переменной. Зависимая переменная называется так потому, что ее значение зависит от независимой переменной. Кроме того, независимые переменные называются так потому, что они не зависят от других переменных, которые могут повлиять на зависимую переменную. Например, количество осадков (независимая переменная) не зависит от количества покупателей, заходящих в магазин. Обе эти независимые переменные помогают сделать более точный прогноз.

Во время работы над прогнозной проблемой науки о данных. Обычно это одна зависимая переменная и несколько независимых переменных. Ниже приведен очень хороший ресурс для лучшего понимания зависимых и независимых переменных.

Независимые и зависимые переменные
В исследованиях переменными называются любые характеристики, которые могут принимать различные значения, например рост, возраст, вид или экзамен…www. scribbr.com

Выбросы

Выброс — это значение, выходящее за пределы нормального диапазона для переменной. Например, средняя продолжительность жизни составляет около 70 лет. Человек в возрасте 119 лет считается исключением, поскольку его возраст значительно превышает нормальный диапазон. При работе над проблемой науки о данных общепринятой практикой является проверка наличия выбросов в наборе данных. Выбросы в данных могут повлиять на выбор алгоритма в случае проблемы прогнозирования.

Вот подробная статья, в которой рассказывается о методах, обычно используемых для обнаружения выбросов.

Краткий обзор методов обнаружения выбросов
Что такое выбросы и как с ними бороться?towardsdatascience.com

Порядковые данные

Когда категориальные данные имеют в себе предполагаемую последовательность, это порядковые данные. Например, класс авиабилета — это порядковые данные. Существует последовательность, подобная первому классу и второму классу.

Когда у нас есть порядковые категориальные данные, лучше всего использовать целочисленное кодирование. Просто преобразуйте их в целочисленное представление, выровненное с предполагаемой последовательностью. Таким образом, алгоритм сможет искать закономерности. Например, когда значение переменной увеличивается или уменьшается, как это влияет на результат.

Ниже приведена очень хорошая статья, чтобы узнать больше о лучших способах кодирования категориальных данных.

Умные способы кодирования категориальных данных для машинного обучения
Изучение кодировщиков категорийtowardsdatascience.com

Горячее кодирование

Горячее кодирование — это метод преобразования данных, который помогает преобразовать категориальный атрибут в числовое представление. Основное преимущество горячего кодирования заключается в том, что оно помогает избежать путаницы с моделью машинного обучения.

Проще говоря, такие атрибуты, как пол, город, страна, не являются порядковыми. Неординарность означает, что в них нет порядка, то есть все гендеры одинаковы. Когда мы преобразуем этот непорядковый атрибут в целые числа, многие алгоритмы предполагают, что более высокие значения являются более/менее важными. Пока таких отношений нет. Эта проблема решается с помощью одноразового кодирования для преобразования непорядковых атрибутов в двоичное представление.

Чтобы узнать больше о реализации кодирования On-Hot, читайте ниже.

Наука о данных за 5 минут: что такое «горячее кодирование?
Горячее кодирование — это процесс преобразования категориальных переменных данных в числовые значения. Узнайте, как сделать одну горячую…www.educative.io»

Асимметрия и эксцесс

Асимметрия — это мера для понимания распределения данных. Когда данные имеют асимметрию, близкую к 0, это означает, что данные близки к симметричному распределению. Распределение называется симметричным, если левая часть распределения точно такая же, как правая. Когда данные имеют отрицательную асимметрию, это означает, что большинство точек данных больше среднего. В данных с положительной асимметрией большинство точек данных меньше среднего значения.

Эксцесс также является мерой для лучшего понимания распределения данных. Когда данные имеют положительный эксцесс, это означает, что распределение имеет более высокий пик по сравнению с нормальным распределением. На самом деле это означает, что может быть много выбросов.

Ниже приведена очень хорошая статья с визуальным представлением, чтобы лучше понять асимметрию и эксцесс.

Асимметрия и эксцесс |Форма данных: асимметрия и эксцесс
Понимание формы данных является важным действием. Это помогает понять, где находится больше всего информации, и…www.analyticsvidhya.com

Несбалансированный набор данных

Несбалансированные наборы данных — это те, в которых целевой атрибут (предсказываемый атрибут) распределен неравномерно. Это определенно не редкость при работе над задачами по науке о данных. Например, прогнозирование мошеннических транзакций по кредитным картам — отличный пример несбалансированного набора данных. Потому что большинство транзакций по кредитным картам будут подлинными. Но есть и мошеннические операции.

Несбалансированные наборы данных требуют особого внимания, поскольку обычный подход к построению моделей или оценке производительности не сработает. Вот статья, в которой подробно рассказывается о несбалансированных наборах данных и лучших подходах к их обработке.

Обработка несбалансированных наборов данных в машинном обучении
Что следует и чего не следует делать при возникновении проблемы с несбалансированными классами?towardsdatascience.com

Масштабирование

Масштабирование признаков — это метод, обычно используемый для приведения всех признаков набора данных (независимых переменных) к согласованному масштабу. Чтобы объяснить эту концепцию на примере. Давайте возьмем задачу, в которой у нас есть такие характеристики, как возраст и зарплата. Возраст от 20 до 75 лет, зарплата от 50 до 500 тысяч. Когда мы используем алгоритмы, основанные на градиентном спуске или любом алгоритме, основанном на расстоянии. Важно масштабировать функции до согласованного диапазона, прежде чем передавать их алгоритму. Если функции не масштабируются, то на прогноз будут влиять функции более высокого масштаба.

Чтобы узнать больше о том, что такое масштабирование и почему оно важно, прочитайте статью ниже.

Что такое масштабирование функций и почему оно важно в машинном обучении?
MinMaxScaler, StandardScaler и RobustScalertowardsdatascience.com

Корреляция

Корреляция — это статистическая мера, объясняющая взаимосвязь между двумя признаками. Допустим, у нас есть две функции A и B. Если A и B положительно коррелируют друг с другом, это означает, что по мере увеличения A, B также имеет тенденцию к увеличению. Если А и В отрицательно коррелированы, то по мере увеличения одного из них другой уменьшается.

Корреляция обычно используется при выборе признаков при построении модели. Когда есть функции, которые сильно коррелируют друг с другом, это означает, что они зависят друг от друга. Они не являются по-настоящему независимыми, поэтому обычно один из них удаляется из списка функций при построении модели.

Чтобы узнать больше о корреляции и о том, как они используются при выборе функций, на рабочем примере. Читайте ниже статью,

Выбор функций — корреляция и P-значение
Часто, когда мы получаем набор данных, мы можем найти множество функций в наборе данных. Все функции, которые мы находим в…towardsdatascience.com

Доверительный интервал и доверительный уровень

Доверительный интервал и доверительный уровень легко спутать, особенно для новичков. Как только вы поймете концепцию, ее нельзя будет спутать.

Рассмотрим простой пример из реальной жизни. Компания электронной коммерции хочет знать среднее количество просмотренных товаров, прежде чем совершить окончательную покупку. Отследить данные о посещениях каждого отдельного пользователя непросто. Таким образом, лучший подход состоит в том, чтобы вычислить среднее значение для выборки и получить оценку. Когда мы анализируем образцы пользовательских данных, мы хотели бы получить приблизительный диапазон. Например, средний пользователь просматривает от 4 до 9 товаров, прежде чем совершить окончательную покупку. Этот интервал здесь является доверительным интервалом. Уверенность в количестве пользователей, попадающих в этот диапазон, на 100 пользователей является доверительным уровнем.

Чтобы узнать больше о расчете доверительного интервала и уровне достоверности, проверьте ниже статью.

Простое объяснение доверительных интервалов для специалистов по данным
Без сложной терминологииtowardsdatascience.com

Гомоскедастичность и гетероскедастичность

Гомоскедастичность является важным допущением линейной регрессии. Это распространенный вопрос на собеседовании при приеме на работу. Гомоскедастичность означает, что остаток между независимой переменной и зависимой переменной одинаков при различных значениях независимой переменной.

Возьмем простой пример: у нас есть независимая переменная «размер свойства», а зависимая переменная — «значение свойства». Это означает, что мы используем «размер свойства» для прогнозирования «значения свойства», а ошибка является остатком. Если ошибка не меняется при разных значениях «размера свойства», то она соответствует гомоскедастичности. Если остаток высок для свойств большего размера по сравнению со свойствами меньшего размера, то это гетероскедастичность.

Для лучшего понимания этого понятия. Кроме того, знать, почему гомоскедастичность является важным предположением для решения проблемы регрессии. Прочтите следующую статью,

Гомоскедастичность — статистические решения
Предположение о гомоскедастичности (что означает «одинаковая дисперсия) является центральным в моделях линейной регрессии. Гомоскедастичность…www.statisticssolutions.com»

Готовитесь к интервью по науке о данных?

Вот видео с моего канала YouTube о шагах, связанных с подготовкой к интервью по науке о данных. Речь идет не о подготовке накануне интервью, а о долгосрочной подготовке.

Оставаться на связи

Если вам понравилась эта статья и вас интересуют подобные, подпишитесь на меня на Medium. Станьте членом Medium, чтобы получить доступ к тысячам статей о карьере, деньгах и многом другом.
Я преподаю и рассказываю о различных темах науки о данных на своем канале YouTube. Подпишитесь на мой канал здесь.
Подпишитесь на мой список адресов электронной почты здесь, чтобы получать дополнительные советы по науке о данных и оставаться на связи с моей работой.