Глоссарий по науке о данных

Давайте поговорим о терминологии, используемой специалистами по анализу данных и инженерами по машинному обучению.

Начало работы в области науки о данных может быть потрясающим, особенно если учесть разнообразие теорий и методов, которые специалист по данным должен понимать, чтобы полностью выполнять свою работу. Даже термин «наука о данных» может быть несколько расплывчатым, и по мере того, как домен набирает популярность, кажется, что он теряет репрезентативность.

Чтобы помочь новичкам оставаться в курсе отраслевого жаргона и терминологии, мы составили этот глоссарий терминов в области науки о данных. Мы надеемся, что он послужит вам удобным кратким справочником, когда вы работаете над проектом или читаете статью и обнаруживаете, что не совсем можете вспомнить, что означает «ETL».

Алгоритмы

Алгоритм - это набор правил, которые мы даем компьютеру, чтобы он мог принимать значения и преобразовывать их в удобную для использования форму. Это может быть так же просто, как указать кому-то направление к вашей квартире, или так же сложно, как разработать уравнение, которое предсказывает, как заработная плата нового сотрудника.

Большое количество данных

Большие данные - это большой объем данных, имеющих ценность. Большие данные - это больше о стратегиях и инструментах, которые помогают компьютерам выполнять комплексный анализ очень больших (читай: 1+ ТБ) наборов данных. Проблемы, которые мы должны решать с большими данными, классифицируются по 4 V: объем, разнообразие, достоверность и скорость.

Классификация

Классификация имеет дело с категоризацией точки данных на основе ее сходства с другими точками данных. Это метод обучения с учителем. Вы берете набор данных, в котором каждый элемент уже имеет категорию, и смотрите на общие черты каждого элемента. Затем вы используете эти общие черты в качестве ориентира для определения категории нового предмета.

Регресс

Регрессия - это еще один подход с контролируемым машинным обучением, который фокусируется на том, как целевое значение изменяется при изменении других значений в наборе данных. Задачи регрессии обычно связаны с непрерывными переменными, такими как прогнозирование следующего покупателя, который купит товар.

Кластеризация

Методы кластеризации обычно собирают и классифицируют наборы точек данных в группы, которые «достаточно похожи» или «близки» друг к другу. «Близко» варьируется в зависимости от того, как вы решите измерить расстояние. Сложность увеличивается по мере того, как в проблемное пространство добавляется больше функций.

Машинное обучение с учителем

Используя технику контролируемого обучения, вы даете компьютеру четко определенный набор данных. Все столбцы помечены, и компьютер может описать, что ему нужно получить. Это похоже на то, как профессор вручает вам учебный план и говорит, чего ожидать от финала.

Неконтролируемое машинное обучение

Используя технику обучения без учителя, компьютер выстраивает собственную интуицию на основе набора немаркированных данных. неконтролируемое машинное обучение находит закономерности в данных и обычно занимается классификацией элементов на основе общих черт.

ETL (извлечение, преобразование, загрузка)

В нем объясняются три этапа вывода данных из множества мест в необработанном виде на экран, готовый для анализа. Системы ETL обычно дарят нам инженеры по обработке данных и работают за кулисами.

Сбор данных

Метод извлечения действенной информации из набора данных и ее правильного использования. Это включает в себя все: от очистки и организации данных; к его анализу, чтобы найти значимые закономерности и связи; чтобы донести полезную ценность до заинтересованных сторон.

Исследование данных

Это процесс, в ходе которого специалист по анализу данных задает основные вопросы, которые помогут ему понять контекст набора данных. при этом аналитик данных использует инструменты визуального исследования, чтобы понять, что находится в наборе данных, и характеристики данных, а не через традиционные системы управления данными.

Дисперсия

Дисперсия набора значений показывает, насколько разбросаны эти значения. Математически это средняя разница между отдельными значениями и средним значением для набора значений. Квадратный корень из дисперсии для набора дает нам стандартное отклонение, что более интуитивно полезно.

Корреляция

Корреляция - это мера того, насколько один набор значений зависит от другого. Если значения увеличиваются вместе, они положительно коррелируют. Если одно значение из одного набора увеличивается, а другое уменьшается, они имеют отрицательную корреляцию. Корреляции нет, если изменение в одном наборе не имеет ничего общего с изменением в другом.

Визуализация данных

Искусство визуальной передачи важных данных. Сюда входят инфографика, традиционные графики или даже полные информационные панели.

Журналистика данных

Это касается рассказывания увлекательных и значимых историй с использованием подхода, ориентированного на данные. Это произошло естественным образом, когда в виде данных стало доступно больше информации. История может быть о данных или основана на данных. Если хотите узнать больше, есть полный справочник.

Бизнес-аналитика (BI)

Подобно анализу данных, но более узко сфокусировано на бизнес-показателях. Техническая сторона бизнес-аналитики предполагает обучение эффективному использованию программного обеспечения для создания отчетов и выявления важных тенденций. Это скорее описательный, чем прогнозный характер.

Обучение и тестирование

Это связано с рабочим процессом машинного обучения. При построении прогнозной модели вы сначала предлагаете ей набор обучающих данных, чтобы она могла понять, затем вы передаете модели тестовый набор, где она применяет свое понимание и пытается предсказать целевое значение.

Переоснащение

Переобучение происходит, когда модель учитывает слишком много информации. Это все равно, что просить человека прочитать предложение, глядя на страницу в микроскоп. Паттерны, позволяющие понять, теряются в шуме.

Недостаточное оснащение

Недостаточное соответствие происходит, когда вы не предоставляете модели достаточно информации. Примером недостаточного оснащения может быть просьба кого-нибудь изобразить изменение температуры в течение дня и давать только высокие и низкие значения. Можно было бы ожидать, что вместо плавной кривой у вас достаточно информации, чтобы провести прямую линию.

Инженерия данных

Инженерия данных - это все, что связано с серверной частью. Это люди, которые создают системы, упрощающие анализ данных специалистами по данным. В небольших командах специалист по данным также может быть инженером по данным. В больших группах инженеры могут сосредоточиться исключительно на ускорении анализа и поддержании хорошей организации и легкости доступа к данным.

Количественный анализ:

В этой области большое внимание уделяется использованию алгоритмов для получения преимущества в финансовом секторе. Эти алгоритмы либо рекомендуют, либо принимают торговые решения на основе огромного количества данных, часто порядка пикосекунд. Количественных аналитиков часто называют квантами.

Среднее (среднее, ожидаемое значение)

Расчет, который дает нам ощущение «типичного» значения для группы чисел. Среднее - это сумма списка значений, деленная на количество значений в этом списке. Само по себе это может быть обманчиво, и на практике мы используем среднее значение с другими статистическими значениями, чтобы получить интуитивное представление о наших данных.

Сводные статистические данные

Сводная статистика - это меры, которые мы используем для простой передачи информации о наших данных. Примерами сводной статистики являются среднее значение, медиана и стандартное отклонение.

Временная последовательность

Временной ряд - это набор данных, упорядоченных по времени появления каждой точки данных. Подумайте о ценах на фондовом рынке в течение месяца или о температуре в течение дня.

Остаточный (ошибка)

Остаток - это мера того, насколько реальное значение отличается от некоторого статистического значения, которое мы рассчитали на основе набора данных. Итак, учитывая прогноз, что завтра в полдень будет 20 градусов по Фаренгейту, когда наступит полдень и будет всего 18 градусов, мы имеем ошибку в 2 градуса. Это часто используется взаимозаменяемо с термином «ошибка», хотя технически ошибка является чисто теоретическим значением.

Преодоление данных (Munging)

Процесс получения данных в их первоначальной форме и их «укрощения» до тех пор, пока они не станут лучше работать в более широком рабочем процессе или проекте. Приручение означает согласование значений с большим набором данных, замену или удаление значений, которые могут повлиять на анализ или производительность в дальнейшем, и т. Д. Преодоление и изменение значений используются как взаимозаменяемые.

Функциональная инженерия

Процесс преобразования знаний, которыми мы обладаем как люди, в количественную ценность, понятную компьютеру. Например, мы можем перевести наше визуальное представление об изображении кружки в представление интенсивности пикселей.

Выбор функции

Процесс определения того, какие характеристики набора данных будут наиболее ценными при построении модели. Это особенно полезно для больших наборов данных, поскольку использование меньшего количества функций сократит время и сложность обучения и тестирования модели. Процесс начинается с измерения того, насколько важна каждая функция в наборе данных для прогнозирования целевой переменной. Затем вы выбираете подмножество функций, которые приведут к высокопроизводительной модели.

коэффициент

Число или алгебраический символ с префиксом множителя к переменной или неизвестной величине (например: x in x (y + z), 6 in 6ab ”« [websters] При построении графика такого уравнения, как y = 3x + 4, коэффициент x определяет наклон линии При обсуждении статистики часто упоминаются специальные коэффициенты для конкретных задач, такие как коэффициент корреляции, коэффициент Крамера и коэффициент Джини.

перекрестная проверка

При использовании данных с алгоритмом машинного обучения «название было дано набору методов, которые разделяют набор данных на обучающие наборы и тестовые наборы. Обучающий набор передается алгоритму вместе с правильными ответами и становится набором, используемым для прогнозирования. Затем алгоритму предлагается сделать прогнозы для каждого элемента в тестовом наборе. Ответы, которые он дает, сравниваются с правильными ответами, и рассчитывается общая оценка того, насколько хорошо алгоритм работал.

Зависимая переменная и независимая переменная

Значение зависимой величины (y) «зависит» от значения независимой переменной (y). Если вы измеряете влияние различных размеров рекламного бюджета на общий объем продаж, то величина рекламного бюджета является независимой переменной, а общие продажи - зависимой переменной.

Уменьшение размеров

Уменьшение размерности - это средство уменьшения количества рассматриваемых случайных величин путем получения набора основных переменных. Его можно разделить на отбор признаков и извлечение признаков. «Мы можем использовать метод, называемый анализ главных компонентов, чтобы извлечь одно или несколько измерений, которые охватывают как можно больше вариаций в данных. Уменьшение размерности в основном полезно, когда ваш набор данных имеет большое количество измерений и вы хотите найти небольшое подмножество, которое улавливает большую часть вариации.

Модель

Спецификация математической (или вероятностной) связи, которая существует между различными переменными. [Grus] Поскольку моделирование может означать очень много вещей, термин статистическое моделирование часто используется для более точного описания типа моделирования. что делают специалисты по данным.

прогнозная аналитика

Анализ данных для прогнозирования будущих событий, как правило, для помощи в бизнес-планировании. Это включает в себя прогнозное моделирование и другие методы. Машинное обучение можно рассматривать как набор алгоритмов, помогающих реализовать прогнозную аналитику. «Предиктивная аналитика», более ориентированная на бизнес, делает ее популярной модной фразой в маркетинговой литературе.