Каждая концепция в Data 101

Сегодня я собираюсь дать обзор всех терминов данных в мире данных. Я разделю это на 3 разные части — Data Engineer, Data Scientist и Data Analyst.

В изобилии контента в Интернете легко потеряться и запутаться в практическом применении данных в реальном мире. Поэтому важно иметь полное представление об основах в области данных. Давай начнем!

1. Данные

Данные представлены в виде чисел, которые легко понимает компьютер. Данные включают фактические числа, текст, изображения, звук и т. д.

2. Структурированные данные

Данные должны быть каким-то образом структурированы. Когда мы можем структурировать данные в двумерной таблице, мы называем это структурированными данными. Думайте об этом как о листе Excel

3. CSV

Обычно в формате CSV (значения, разделенные запятыми) хранятся структурированные данные. Если мы откроем CSV в редакторе, каждое значение будет разделено запятой, а каждая строка будет разделена разрывом строки.

4. JSON

JSON — это пример неструктурированных данных, где данные хранятся в формате пары ключ-значение. Обычно они используются для хранения сложных данных. Например, ключ может иметь несколько значений или иметь иерархический формат.

5. Неструктурированные данные

К неструктурированным данным относятся изображения и звук, которые не могут быть в структурированном формате.

6. Инженер данных

Чтобы понять Data Engineer, давайте возьмем пример футбольного стадиона. В матче на стадионе появятся тысячи людей, и, скажем, владелец хочет просмотреть данные/статистику о том, какую дрочку люди покупают больше всего на стадионе, данные распознавания лиц — для гендерной статистики и многое другое, что состоит из 1000 гигабайт данных. Чтобы управлять, облегчать, преобразовывать и эффективно объединять специалистов по данным и аналитиков данных для анализа и построения моделей.

7. База данных

1000 гигабайт данных, таких как данные стадиона, базы данных, представляют собой компьютерные системы, которые используются для совместной работы и содержат данные в любых форматах.

8. Реляционная база данных

Реляционные базы данных — популярные базы данных в мире данных. Реляционная база данных хранит только структурированные данные, которые контролируются системой управления реляционной базой данных. Он разделяет структурированные данные на таблицы, которые связаны друг с другом через столбцы.

9. КИСЛОТНАЯ транзакция

Транзакции в реляционной базе данных являются атомарными, непротиворечивыми, изолированными и устойчивыми.

10. SQL

Язык структурированных запросов — это язык программирования, используемый для управления и манипулирования данными в реляционных базах данных.

11. Союз

Часто нужные вам данные могут быть разделены на две другие таблицы, чтобы объединить две таблицы, мы можем использовать союзы или соединения. Объединение означает объединение двух таблиц по вертикали или размещение этих двух таблиц друг над другом.

12. Присоединяется

Соединения относятся к объединению таблиц по горизонтали путем сопоставления значений из общих столбцов из обеих таблиц.

13. Базы данных NoSQL

Они используются для хранения неструктурированных данных, например MongoDB, которая является популярной базой данных NoSQL. Youtube и Facebook могут использовать эту базу данных.

14. Облачные сервисы

Облачные услуги — это группа услуг, обычно предоставляемых крупными технологическими компаниями, которые занимаются покупкой и питанием серверов, управлением физической безопасностью, а также добавлением и уменьшением электропитания в зависимости от того, какой объем трафика может иметь программное обеспечение. Облако AWS, Azure и Google — вот некоторые примеры облачных сервисов.

15. Снежинка

Snowflake похожа на большое виртуальное хранилище данных, где вы можете хранить все свои данные и управлять ими в одном месте. Он может обрабатывать самые разные типы и форматы данных и предоставляет мощные инструменты для запросов и анализа данных.

16. Хранилище данных

Хранилище данных - это просто база данных, используемая компаниями для хранения и управления большими объемами данных вне производства. Хранилище данных, такое как Snowflake, имеет копию всех транзакций и данных отдельно от фактической базы данных, которая предназначена для выполнения бизнес-операций.

17. Вертикальное/горизонтальное масштабирование

Если говорить о больших данных, то используется вертикальное/горизонтальное масштабирование. Например, скажем, для запуска программного обеспечения, требующего высокой вычислительной мощности, мы будем использовать эквивалентный вычислительный компьютер для запуска этого программного обеспечения, это называется вертикальным масштабированием. Вертикальное масштабирование не совсем оптимальное решение для масштабирования больших операций, вместо этого мы можем писать программное обеспечение и распределять файлы по более дешевой системе (называемой товарным оборудованием). Это называется горизонтальным масштабированием.

18. Он-Прем

В первые дни крупным компаниям приходилось покупать, включать и управлять базами данных, которые называются локальными или локальными базами данных.

19. Объектное хранилище

Одним из способов хранения больших объемов данных является Object Storage. Это форма хранения, которая дает ключ файла, который можно получить. Эти ключи используются для создания массивных озер данных, которые могут относительно дешево хранить безумное количество данных, чтобы справиться с безумным объемом данных.

20. Пакетные данные

В мире больших данных компаниям не нужно было перемещать данные с высокой скоростью, за исключением расширенных вариантов использования. В этом случае компаниям приходилось обрабатывать данные партиями, может быть, раз в день или раз в неделю.

21. Потоковые данные

Допустим, мы, как компания, хотим предоставлять данные пользователю в режиме реального времени и предоставлять сделки и предложения динамически в зависимости от их поведения, для этого нам необходимо передавать данные в нашу систему с потоковым конвейером, обрабатывать их и переносить данные обратно. пользователю.

22. Апач Кафка

Существует большое разнообразие данных, поступающих из разных систем, которые должны передаваться в другую другую систему, а количество масштабируемых подключений слишком быстрое, чтобы управлять ими. В игру вступает Apache Kafka. Kafka — это система обмена сообщениями с пропускной способностью, в которой она берет данные из системы ввода, обрабатывает их и координирует их транспортировку в систему вывода. Пример из реального мира для Kafka: Netflix предлагает показы уникальным пользователям в режиме реального времени.

23. Апач Хадуп

Apache Hadoop используется для распределенного хранения и обработки больших объемов данных. Он предоставляет способ хранения, управления и анализа больших данных на нескольких серверах или кластерах, что упрощает выполнение крупномасштабных задач обработки данных.

24. Специалист по данным

Проще говоря, специалисты по данным используют сложную математику (статистику) в данных, чтобы ответить на ранее оставшиеся без ответа вопросы.

25. Питон

Одним из инструментов Data Scientist является умение программировать. Python — это язык программирования общего назначения, который ценен своим простым и понятным синтаксисом, а также открытым исходным кодом.

26. Контроль версий

Контроль версий — это система, которая позволяет людям, пишущим код, иметь несколько версий, которые можно автоматически тестировать на наличие ошибок перед запуском. Это помогает большим командам работать вместе в безошибочной среде. Github и Gitlab — популярные системы управления версиями.

27. Блокнот Юпитера

Инженеры-программисты пишут код на чистом холсте, тогда как специалисты по данным пишут блоки кода как отдельные разделы каждого кода. Работа Data Scientist & Analyst — это итеративный процесс, Jupyter Notebook для Python помогает нам писать и запускать код итеративно.

28. Пип

Чтобы использовать внешнее программное обеспечение в виде библиотеки, мы используем менеджеры пакетов, такие как pip, для установки этого программного обеспечения в нашей локальной системе.

29. Нампи

Одной из наиболее часто используемых и популярных библиотек (в мире данных) является Numpy. Возможно, мы слышали, что python — медленный язык, Numpy использует предварительно скомпилированный код C в красивой и чистой оболочке python. Это позволяет нам выполнять любые операции с массивами, которые необходимы специалисту по данным для быстрого выполнения.

30. Панды

Панды, которые представляют собой панельные данные, были изобретены финансовой индустрией. Он добавляет функциональность фрейма данных в Python. Это очень полезно для импорта, реального, чистого, анализа и экспорта / понимания данных с помощью простого набора команд. Его также можно использовать для изучения данных.

31. Наука

Это еще одна библиотека, используемая для научных вычислений, она используется для решения задач оптимизации, линейной алгебры и т. д.

32. Scikit Learn

После анализа или обработки данных Data Scientist может захотеть, чтобы алгоритмы машинного обучения делали прогнозы. И Scikit Learn — это стандартная библиотека для достижения этой цели.

33. Машинное обучение

Поле, посвященное программированию машин, чтобы лучше научиться выполнять задачу после изучения данных.

34. КРИСП-ДМ

CRISP-DM расшифровывается как кросс-отраслевой стандартный процесс интеллектуального анализа данных. Это широко используемая и хорошо зарекомендовавшая себя платформа для разработки проектов интеллектуального анализа данных и машинного обучения. Платформа обеспечивает структурированный подход к интеллектуальному анализу данных, который включает шесть этапов: понимание бизнеса, понимание данных, подготовка данных, моделирование, оценка и развертывание. Процесс CRISP-DM является итеративным, а это означает, что он часто включает переходы между фазами по мере необходимости для уточнения и улучшения результатов.

35. ЭДА

Одним из способов понимания данных, с которыми вы работаете, является EDA (исследовательский анализ данных). Это означает сбор статистики ваших данных, проверку любых отсутствующих значений и общее количественное и качественное измерение, чтобы полностью понять данные.

36. Обработка данных

Инженеры данных придерживаются философии GIGO (мусор в мусоре). Допустим, данные, с которыми вы работаете, имеют пропущенные значения, неправильную точность, они не представляют совокупность, которую вы хотите проанализировать, тогда бесполезно анализировать или строить модели на основе этих данных, мы не сможем ничего получить. этих данных. Обработка данных — это самая трудоемкая часть работы Data Scientist, Data Engineer & Machine Learning, и, вероятно, 80% их работы уходит на это.

37. Экземпляр и функции

Если мы переведем наши данные в табличный формат, каждая строка будет называться экземпляром, а каждый столбец — функцией.

38. Вменение

Вменение — это метод предварительной обработки данных, используемый для оценки отсутствующего значения в наших данных. Наиболее распространенный метод замены этих отсутствующих значений — замена их средним и средним значением общих данных. В предварительных случаях мы можем обучить модели ML предсказывать, какими должны быть эти пропущенные значения.

39. Кодирование

Кодирование — это способ преобразования категориальных данных в числовые данные. Компьютеры в целом лучше понимают числовые данные, чем любые другие данные, такие как текст.

40. Разработка функций

Разработка функций — это процесс выбора и преобразования необработанных данных в набор функций, которые можно использовать для обучения модели машинного обучения. Целью разработки признаков является извлечение наиболее актуальной и информативной информации из данных и представление ее таким образом, чтобы модель могла учиться.

41. Поезд — тестовый сплит

Наиболее важным этапом предварительной обработки данных является разделение Train-Test. Мы разделяем наши данные как минимум на два раздела, один раздел данных (с метками) используется для обучения модели изучению закономерностей в этих данных, эти данные называются обучающими данными. Другой раздел данных (без меток) используется для тестирования модели с невидимыми данными, что наиболее важно, это поможет нам определить точность прогноза модели. И обычно обучающие данные имеют больший набор данных, чем набор тестовых данных.

42. Подходит

Процесс поиска закономерностей в данных известен как подгонка, так как мы подгоняем наш алгоритм к нашим данным.

43. ГПУ

Машинное обучение довольно сложное и требует большой вычислительной мощности для выполнения, это из-за огромных данных и сложного алгоритма, на котором мы тренируемся. GPU (Graphics Processing Unit) изначально создавался для выполнения большого количества математических вычислений. Оказывается, они также очень хороши в обучении моделей машинного обучения.

44. ТПУ

TPU (Tensor Processing Unit) выполняет гораздо лучшие и сложные математические операции, чем GPU. Проще говоря, они используются для ускорения рабочих нагрузок машинного обучения.

45. Гиперпараметр

Гиперпараметры — это параметр или настройка, управляющая способом обучения алгоритма для повышения производительности модели.

46. Уменьшение размерности

Этот алгоритм можно использовать для уплотнения шаблонов в данных, которые можно сгруппировать вместе, чтобы удалить функции или объединить функции, чтобы уменьшить общие функции, с которыми мы работаем.

47. Контролируемое обучение

В контролируемом обучении мы обучаем нашу модель на целевой переменной некоторых данных, которые у нас могут быть.

48. Целевая переменная

Целевая переменная — это переменная, которую нам нравится предсказывать, это может быть так же просто, как предсказать, является ли хот-дог хот-догом или нет.

49. Регрессия

Выбрав контролируемое обучение для решения проблемы, мы можем использовать регрессию, если наша целевая переменная является числовой, если нет, то мы можем использовать классификацию. Например, если мы хотим предсказать доход на основе ряда факторов из наших данных, доходы являются числовыми, поэтому мы будем использовать регрессию.

50. СВМ

Машина опорных векторов (SVM) — это тип контролируемого алгоритма машинного обучения, который используется как для классификации, так и для регрессионного анализа. Он работает, находя гиперплоскость, которая лучше всего разделяет точки данных на разные классы. Гиперплоскость выбирается таким образом, чтобы максимизировать запас между ближайшими точками данных каждого класса, что помогает повысить точность классификации.

51. Классификация

Классификация в машинном обучении — это процесс классификации данных по предопределенным классам или категориям на основе их характеристик или атрибутов. Это метод контролируемого обучения, при котором алгоритм учится на размеченных данных, чтобы предсказать класс новых, невидимых данных. Цель классификации — найти модель, которая может точно предсказать класс данной точки входных данных.

52. Бинарная классификация

В бинарной классификации модель машинного обучения обучается прогнозировать один из двух возможных результатов или классов. Это тип задачи классификации, когда выходная переменная может принимать только два значения, например да/нет, правда/ложь или 0/1.

53. Многоуровневая классификация

В классификации с несколькими метками модель машинного обучения обучается прогнозировать несколько результатов или классов. Это тип задачи классификации, когда выходная переменная может принимать более двух значений, например, предсказание типа фрукта (яблоко, банан, апельсин и т. д.) на основе его характеристик.

54. Логистическая регрессия

Логистическая регрессия — это статистический метод, используемый для анализа набора данных, в котором есть одна или несколько независимых переменных, определяющих результат. Он использует логистическую функцию для моделирования двоичной зависимой переменной, такой как классификация электронных писем как спам или не спам. Результатом логистической регрессии является вероятность, которая преобразуется в бинарное решение. Это распространенный и широко используемый метод для задач классификации.

55. Неконтролируемое обучение

Проще говоря, алгоритм неконтролируемого обучения использует немаркированные данные для изучения закономерностей в данных.

56. Кластеризация

Кластеризация — это метод, при котором точки данных группируются на основе их сходства без каких-либо предварительных сведений об их метках или классе. Цель кластеризации — найти значимые закономерности в данных и сгруппировать похожие точки данных вместе.

57. КНН

KNN (K-ближайшие соседи). Он работает, находя k ближайших точек данных в обучающем наборе к новой точке данных и используя их метки для прогнозирования метки новой точки данных. Другими словами, KNN — это непараметрический алгоритм, который классифицирует новую точку данных на основе мажоритарного класса ее k ближайших соседей в обучающем наборе.

58. Обучение с подкреплением

Обучение с подкреплением — это особый тип обучения, при котором агент обучается в интерактивной среде, давая обратную связь в виде вознаграждения и наказания за свои действия. В конечном итоге он оптимизируется, чтобы получить максимально возможную награду.

59. Дерево решений

Дерево решений в машинном обучении — это простая и интуитивно понятная модель, которая использует древовидную структуру для принятия решений на основе набора входных функций. Он разбивает набор данных на более мелкие подмножества на основе значений входных признаков, и каждый узел в дереве представляет собой решение, основанное на одном из признаков. В каждом узле решения дерево разветвляется на разные пути в зависимости от возможных результатов решения, пока окончательное решение или прогноз не будет сделано в конечных узлах дерева.

60. Ансамбль

Проще говоря, метод ансамбля объединяет предсказание нескольких алгоритмов и создает один супералгоритм.

61. Случайное лесное дерево

Случайный лес — это тип алгоритма машинного обучения, который использует ансамбль деревьев решений для прогнозирования. Он работает путем построения нескольких деревьев решений с использованием различных подмножеств обучающих данных и входных функций, а затем объединения их прогнозов для получения окончательного прогноза. «Случайная» часть алгоритма относится к тому факту, что деревья решений строятся с использованием случайных выборок обучающих данных и случайных подмножеств входных признаков, что помогает уменьшить переоснащение и повысить точность.

62. Нейронная сеть

вдохновлен строением и функциями человеческого мозга. Нейронная сеть состоит из слоев взаимосвязанных узлов (также известных как нейроны), которые обрабатывают и передают информацию. Он обычно используется для таких задач, как распознавание изображений, обработка естественного языка и прогнозное моделирование.

63. ТензорФлоу/ПиТорч

TensorFlow — это среда машинного обучения с открытым исходным кодом, разработанная Google и PyTorch компанией Facebook. Он используется для построения и обучения моделей машинного обучения. Он предоставляет набор инструментов для создания и развертывания моделей машинного обучения, включая API-интерфейсы для построения нейронных сетей, визуализации моделей и обслуживания моделей в производстве.

64. Алгоритм повышения

Повышение — это тип алгоритма машинного обучения, который объединяет несколько слабых моделей в сильную модель. Слабые модели обучаются последовательно, при этом каждая новая модель пытается исправить ошибки предыдущих моделей. Окончательный прогноз делается на основе средневзвешенного значения прогнозов всех слабых моделей. Повышение используется как для задач классификации, так и для регрессии и известно своей способностью повышать точность моделей прогнозирования.

65. Блоки данных

Databricks — это облачная платформа обработки и аналитики данных, предназначенная для поддержки рабочих процессов машинного обучения. Он обеспечивает совместную среду для специалистов по данным, инженеров данных и других заинтересованных сторон для совместной работы над проектами данных. Databricks включает в себя множество инструментов для подготовки, исследования, визуализации и машинного обучения данных, что делает его популярным выбором для организаций, стремящихся создавать и развертывать модели машинного обучения в масштабе.

66. Модельный дрифт

Дрейф модели — это явление, при котором статистические свойства данных, используемых для обучения модели машинного обучения, со временем изменяются, что приводит к снижению производительности модели. Это может быть вызвано изменениями в распределении данных, изменениями отношений между входными и выходными переменными или изменениями среды, в которой работает модель. По существу, модель становится менее точной и менее эффективной по мере ее использования с течением времени.

67. Распределение данных

Распределение данных относится к способу распределения данных по разным значениям или диапазонам. Распределение данных может быть представлено математической функцией, которая описывает вероятность появления каждого возможного значения. Другими словами, это способ описания шаблона или формы данных. Понимание распределения данных важно, поскольку оно может помочь в выборе подходящих моделей и алгоритмов машинного обучения, которые хорошо работают с заданными данными.

68. Предвзятость выбора

Смещение выбора относится к смещению, которое возникает, когда данные, используемые для обучения модели, не являются репрезентативными для совокупности, на которую она предназначена для обобщения. Это может привести к тому, что модель будет слишком приспособлена к обучающим данным и будет плохо работать с новыми, невидимыми данными. Систематическая ошибка отбора может возникать по-разному, например, из-за систематической ошибки выборки, систематической ошибки измерения и систематической ошибки дожития.

69. Самозагрузка

Начальная загрузка относится к процессу случайной выборки набора данных с заменой для создания нескольких новых наборов данных, каждый из которых используется для обучения и оценки модели. Этот метод используется для оценки изменчивости производительности модели и снижения риска переобучения исходному набору данных.

70. Проверка гипотез

Проверка гипотез определяет, может ли гипотеза о популяции быть принята или отвергнута на основе выборочных данных. Цель состоит в том, чтобы сделать вывод о совокупности на основе выборки и определить, насколько вероятно, что любые наблюдаемые различия между выборкой и совокупностью обусловлены случайностью. Результатом проверки гипотезы является p-значение, которое используется для определения статистической значимости результатов.

71. Аналитик данных

Проще говоря, аналитик данных — это профессионал, который собирает, обрабатывает и выполняет статистический анализ данных для извлечения информации и принятия бизнес-решений.

72. Рассказывание историй о данных

Рассказывание историй на основе данных — это процесс использования данных для создания повествования, которое передает сообщение или понимание аудитории. Начав с небольших, легко усваиваемых фрагментов информации, рассказчик данных создает убедительную историю, которая привлекает внимание более широкой аудитории. Он включает в себя структурирование данных простым для понимания и визуально привлекательным способом с использованием диаграмм, графиков и других методов визуализации данных. В конечном счете, цель повествования на основе данных — передать сложную информацию простым и увлекательным способом, который находит отклик у аудитории и побуждает к действию.

73. Инструменты бизнес-аналитики

Инструмент BI (Business Intelligence), соединяет несколько данных и помогает визуализировать эти данные в виде диаграмм, линейных диаграмм, диаграмм с областями и т. д.

74. Матплотлиб

Matplotlib — это популярная библиотека Python, используемая для создания статических, анимированных и интерактивных визуализаций в машинном обучении и науке о данных. Он предоставляет высокоуровневый интерфейс для создания широкого спектра графиков, включая точечные графики, линейные графики, гистограммы, гистограммы и многое другое.

75. Графики рассеяния

Точечная диаграмма — это тип визуализации данных в машинном обучении, используемый для отображения взаимосвязи между двумя непрерывными переменными. Он представлен набором точек, где каждая точка представляет значение двух переменных по осям x и y. График рассеяния можно использовать для выявления закономерностей или тенденций в данных, а также для определения наличия корреляции между двумя переменными.

76. Данные временных рядов

Временные ряды — это данные, в которых время и дата представлены в одном столбце, а числовые значения — в другом.