Определение данных в мире машинного обучения

В мире искусственного интеллекта и машинного обучения мы часто слышим, как ученые говорят, что ваша модель машинного обучения настолько хороша, насколько хороши ваши данные. Верно, но что именно представляют собой эти данные, которые могут создать или разрушить основу модели? И как эти модели обучаются после сбора и хранения «правильного» количества и качества данных?

Чтобы понять вышеизложенное, нам нужно сделать шаг назад и сначала понять различные типы данных, доступные для обучения. Типы данных можно разделить на количественные, качественные и порядковые. Количественные данные представляют собой числовые данные и могут быть дискретными или непрерывными. Качественные или категориальные данные — это данные, которые можно разделить на «категории», такие как раса. пол, пол. Они могут иметь числовое значение, как и количественные данные, но без математического значения.

Важно отметить, что одним из наиболее важных типов данных, используемых в обучении машинному обучению, является тип качественных данных, называемый «двоичными данными», где 1 и 0 могут быть ВКЛЮЧЕНЫ или ВЫКЛЮЧЕНЫ, ИСТИНА или ЛОЖЬ.

Порядковые данные представляют собой комбинацию количественных и качественных данных, например, оценки продукта клиентами могут измеряться баллами и/или отзывами.

Существует четвертая форма данных, о которых важно помнить, это бесполезные или нерелевантные данные, которые необходимо отфильтровать из обучения модели для получения точных результатов.

Теперь определенные выше данные используются для обучения моделей машинного обучения. Данные могут быть в форме изображений, текста, видео и аудио, и их необходимо собирать, структурировать и анализировать, чтобы извлечь из них максимальную информацию. Если изображения, аудио и видео не определены, они называются непомеченными данными. Но если они определены и им присвоен класс или метка, они называются помеченными данными.

Важно понимать различия между размеченными и неразмеченными данными, потому что от них зависят алгоритмы машинного обучения.

Когда для обучения используются помеченные данные, это называется контролируемым машинным обучением. Когда используются немаркированные данные, это называется неконтролируемым обучением.

Существует третий тип обучения, который не является ни контролируемым, ни неконтролируемым, и называется обучением с подкреплением. Этот тип обучения основан на поощрении желаемого поведения и/или наказании за нежелательное.

Эти данные могут храниться в базах данных, хранилищах данных или озерах данных. Базы данных имеют структурированные данные, и любой специалист по данным мечтает найти структурированные данные, организованные в строки и таблицы. Разница между хранилищем данных и базой данных заключается в том, что вы не можете выполнять бизнес-аналитику или аналитику для последней. И третий, озера данных, может содержать все типы данных. Вы можете добавить любой тип данных без формы или структуры, и он будет хранить их для всех целей.

Надеюсь, эта статья дает хороший обзор типов данных, типов данных и типов их хранения, которые можно использовать для целей машинного обучения. Пожалуйста, напишите мне или прокомментируйте здесь, чтобы сообщить, что еще я могу рассказать о машинном обучении и искусственном интеллекте.

Определение данных в мире машинного обучения

Вопросы по теме