Многие из вас, возможно, знакомы с «проклятием размерности» — термином, описывающим проблемы, возникающие из-за большого количества атрибутов, что приводит к довольно большому количеству измерений. Как правило, размеры должны быть уменьшены до наиболее эффективного минимума, которого они могут достичь, чтобы вычислительные затраты оставались под контролем, а извлеченной информации было достаточно для решения поставленной задачи. Развивая предыдущий аргумент, следует учитывать, что два признака могут предоставлять достаточную информацию сами по себе, но перестают давать что-либо значимое при объединении из-за высокой взаимной корреляции, таким образом, обоснование тщательного выбора того, какие атрибуты следует исследовать и каким образом корреляции, чтобы не было ненужной сложности.

Чем больше коэффициент количества обучающих выборок по отношению к свободным параметрам (например, синаптические веса), тем лучше способность классификатора к обобщению.

Наборы данных со многими функциями приводят к большому количеству свободных параметров, и это может легко стать проблемой, когда выборок N мало. Следовательно, в этой конкретной ситуации целесообразно сохранить небольшое количество функций, чтобы выполнялось вышеупомянутое утверждение.

Впоследствии нормально спрашивать лучших кандидатов между функциями, и именно здесь вступает в игру сокращение функций (или выбор функций). Прежде чем мы приступим к изучению трех основных процедур, я хотел бы добавить еще одно измерение к предмету, без каламбура. Откровенно говоря, хороший способ правильно сформулировать точное предложение предварительной обработки заключается в следующем:

Основная цель состоит в том, чтобы выбрать эти атрибуты таким образом, чтобы расстояние между классами было большим, а расхождение внутри класса — небольшим.

Удаление выбросов

Выбросом считается любая точка данных, которая слишком далека от среднего значения соответствующей случайной переменной. Вообще говоря, эти точки дают ужасные результаты и не имеют существенной ценности для тренировочного процесса, поэтому необходимо предпринять определенные меры, чтобы этого избежать:

Если их количество невелико, мы можем избавиться от них.

В противном случае инженеру следует выбрать функции затрат, невосприимчивые к этим выбросам.

Например, метод наименьших квадратов на самом деле не так уж невосприимчив, поскольку возведение в квадрат выбросов приведет к еще большим ошибкам, таким образом, их доминирование внутри функции стоимости.

Нормализация данных

Изменчивость в наборе данных соответствует разным масштабам признаков, поскольку один или многие из них могут соответствовать разным диапазонам масштабирования, и такая концепция быстро приводит к преобладанию больших значений внутри функции стоимости по сравнению с теми, у которых меньшая пропускная способность, как указано ранее. Следовательно, самый нормальный шаг, который нужно предпринять, — это сгладить общий диапазон всех значений, чтобы они проявились в одной общей контрольной точке. Соответственно, это означает установить нормальное распределение, где среднее значение точек данных будет равно 0, а стандартное отклонение равно 1.

Стоит отметить, что эта процедура является одной из линейных, как и масштабирование [-1, 1]. Впоследствии можно использовать функции нелинейного масштабирования, такие как Softmax.

Отсутствующие данные

Поскольку мы говорим о реальных решениях, вполне нормально ожидать, что какой-то процент от общего объема данных будет отсутствовать — явление, хорошо наблюдаемое в социальных науках или прогностических медицинских наборах данных. Итак, что мы делаем? По сути, решение называется Вменение и может быть разделено на три возможных кандидата:

Замените отсутствующие значения нулями,

замените их условным средним значением{E (отсутствует | наблюдается)} или

замените отсутствующие значения безусловным средним (рассчитанным на основе доступных наблюдаемых значений).

Конечно, простой способ справиться с этим — просто избавиться от них, но это может вызвать проблемы, когда набор данных недостаточно велик, чтобы приступить к таким радикальным мерам, таким образом, сокращение результирующей извлеченной информации.

Вывод

Данные — это главное, и они будут продолжать расти в геометрической прогрессии, и, как правило, они требуют соблюдения правил и надлежащей проверки, прежде чем использовать их для обучения наших машин. Следовательно, мы должны знать наши инструменты и максимально использовать их, будь то предварительная обработка, сбор или просто… наблюдение.