Первоначально опубликовано здесь: https://blog.contactsunny.com/data-science/what-is-feature-selection-and-why-do-we-need-it-in-machine-learning

Если вы сталкивались с набором данных в процессе машинного обучения, который имеет более одной функции, вы также слышали о концепции под названием «Выбор функций». Сегодня мы узнаем, что это такое и зачем нам это нужно.

Когда в наборе данных слишком много функций, было бы не идеально включить их все в нашу модель машинного обучения. Некоторые особенности могут не иметь отношения к независимой переменной. Например, если вы собираетесь спрогнозировать, сколько будет стоить разрушение автомобиля, и вам будут предоставлены следующие характеристики:

  • габариты авто
  • если машина будет доставлена ​​на дробилку или компания должна забрать ее
  • есть ли в баке топливо
  • цвет машины

Вы можете предположить, что цвет машины не повлияет на стоимость ее разрушения, по крайней мере, я на это надеюсь. Таким образом, нет смысла включать эту функцию в модель и делать ее более сложной, чем она должна быть. Было бы разумно полностью исключить эту функцию.

Итак, по сути, мы используем выбор функций для удаления любых ненужных, нерелевантных или избыточных функций из набора данных, что не поможет в повышении точности модели, но может фактически снизить точность.

В своей книге «Введение в выбор переменных и функций» Гийон и Элиссефф пишут:

Выбор переменных преследует три цели: повышение эффективности прогнозирования предикторов, предоставление более быстрых и экономичных предикторов и обеспечение лучшего понимания базового процесса, который генерировал данные.

Выбор функций также известен как выбор переменных и выбор атрибутов. Но большинство людей легко путают выбор функций с уменьшением размерности. Верно, что оба они помогают уменьшить количество функций в наборе данных, но разница заключается в том, как они к этому подходят. Уменьшение размерности уменьшает количество функций, создавая новые функции как комбинации существующих. Таким образом, все функции по-прежнему присутствуют, но общее количество функций сокращается. Но при выборе объекта мы либо сохраняем объект, либо полностью удаляем его из набора данных.

В следующих нескольких публикациях мы узнаем больше о выборе функций, включая несколько алгоритмов.

Следуйте за мной в Twitter, чтобы узнать больше о Data Science, Machine Learning и общих технических новостях. Кроме того, вы можете следить за моим личным блогом, так как я публикую там много своих руководств, инструкций и полезных материалов по машинному обучению до Medium.

Если вам нравятся мои сообщения здесь, на Medium или в моем личном блоге, и вы хотите, чтобы я продолжал эту работу, подумайте поддержите меня на Patreon.