Наборы данных

Чтобы понять контекст того, что такое набор данных, и роль, которую он играет в машинном обучении (ML), мы должны сначала обсудить компоненты набора данных. Набор данных или набор данных - это просто набор данных. Самый простой и наиболее распространенный формат для наборов данных, которые вы найдете в Интернете, - это электронная таблица или формат CSV - отдельный файл, организованный в виде таблицы из строк и столбцов. Но некоторые наборы данных будут храниться в других форматах, и они не обязательно должны быть одним файлом. Иногда набор данных может быть zip-файлом или папкой, содержащей несколько таблиц данных со связанными данными.

Проще говоря, мы можем просто сделать вывод, что набор данных - это пища для модели машинного обучения.

Существуют ли какие-либо типы наборов данных?

Набор данных может быть разных форм, но модели машинного обучения основаны на пяти основных типах данных. К ним относятся наборы числовых данных, наборы двумерных данных, наборы категориальных данных, наборы многомерных данных, наборы данных корреляции.

  • Наборы числовых данных

Набор числовых данных - это тип данных, выраженный числами, а не описанием на естественном языке. Числовые данные, которые иногда называются количественными данными, всегда собираются в числовой форме. Например, вес и рост человека.

  • Двумерные наборы данных

Набор данных, содержащий две переменные, называется двумерным набором данных. Он касается взаимосвязи между двумя переменными. Например, чтобы найти процентную оценку и пол учащихся в классе. Оценка и пол можно рассматривать как две переменные

  • Категориальные наборы данных

Наборы категориальных данных представляют собой типы данных, которые можно разделить на группы. Например, пол человека (мужской или женский).

  • Многомерные наборы данных

Многомерные данные состоят из отдельных измерений, которые получены как функция более чем двух переменных. Например, если нам нужно измерить длину, ширину, высоту, объем прямоугольного блока, мы должны использовать несколько переменных, чтобы различать эти объекты.

  • Наборы данных корреляции

Набор значений, которые демонстрируют некоторую взаимосвязь друг с другом, указывает наборы данных корреляции. Например, высокий человек считается тяжелее низкого человека. Итак, здесь переменные веса и роста зависят друг от друга.

Что такое базовый набор данных?

Как обсуждалось выше, эти наборы данных бывают разных форматов, так как они относятся к категориям. Наборы справочных данных - это данные, используемые для классификации или категоризации других данных. Обычно они статичны или медленно меняются с течением времени.

Справочные данные отличаются от основных данных. В то время как оба обеспечивают контекст для бизнес-операций, справочные данные связаны с классификацией и категоризацией, в то время как основные данные связаны с бизнес-объектами.

Ниже приведены примеры наборов справочных данных.

  • Единицы измерения
  • Корпоративные коды
  • Коды стран
  • Фиксированные коэффициенты конверсии, например вес, температура и длина
  • Структура календаря и ограничения

Что нужно для создания собственного набора данных?

Если вы хотите создать набор данных, это может быть связано с тем, что у вас есть база данных или другие табличные данные, которые вы хотите проанализировать и поделиться. Но данные из базы данных - не единственный вид данных, которые вы можете поместить в набор данных.

Шаги по созданию пользовательских наборов данных: -

  • Выберите способ получения

Вы можете создать свой собственный набор данных, используя внутренние ресурсы или сторонние сервисы, которые вы нанимаете. Для сбора данных вы можете использовать автоматизацию, вы можете сделать это вручную или можете выбрать комбинацию того и другого. Вы можете использовать свои собственные устройства, такие как камеры или датчики.

  • Сбор данных по уровням

На этом этапе вы работаете с небольшими наборами данных, чтобы проанализировать эффективность вашей прогнозной модели и при необходимости скорректировать ее. Начните с разбивки большего набора данных, который у вас есть, на более мелкие. Например, если вы планируете работать с 500 000 изображений, собирайте данные по уровням 20 000–50 000 и увеличивайте их постепенно или агрессивно в зависимости от результатов вашей модели после обучения.

  • Подтвердите данные

Цель проверки - убедиться, что вы соответствуете метрикам качества данных (т. Е. Дисперсии, качеству, количеству, плотности), которые изначально стремились достичь. Это идеальное время, чтобы предотвратить предвзятость и снова собрать данные перед началом аннотации.

  • Добавьте аннотации к данным

Убедившись на этапе сбора данных, что вы получили соответствующий объем и разнообразие данных, вы начнете работать над самой трудоемкой задачей вашего проекта: аннотацией данных. Вы должны сделать некоторые аннотации на ранних этапах этого процесса, когда вы собрали и протестировали данные для использования в своем алгоритме.

  • Подтвердите свою модель

На этом этапе вы проверите качество своего алгоритма. Это ключевой шаг для определения того, подходят ли помеченные вами данные для создаваемого вами алгоритма.

  • Повторить

Машинное обучение - это не разовое упражнение, поэтому вы будете повторять этапы сбора, аннотации и проверки снова и снова.

. . .

Цитаты

[1] https://en.wikipedia.org/wiki/Reference_data

[2] https://byjus.com/maths/data-sets/

[3] https://algorithmia.com/blog/the-importance-of-machine-learning-data

[4] https://medium.com/@bjdixon/citations-and-footnotes-on-medium-3713cc665722

[5] https://blog.cloudfactory.com/steps-to-create-custom-data-sets-for-computer-vision