Различные аспекты особенности проектирования

Модель машинного обучения - это решение бизнес-проблемы в организации. Его можно использовать, чтобы заставить что-то работать лучше или помочь в принятии человеческих решений без участия человека. В большинстве случаев группа специалистов по анализу данных придумывает несколько моделей для решения данной проблемы. Разработка функций полезна для команды специалистов по анализу данных при оценке компромиссов в отношении эффективности их моделей машинного обучения. Он представляет собой основу для подхода к машинному обучению, а также предоставляет методы для извлечения функций из необработанных данных, которые можно использовать в моделях.

Что такое разработка функций?

Разработка функций состоит из манипуляций, таких как добавление, удаление, комбинирование или изменение функций. Возможности представляют собой пары атрибут-значение, позволяющие добавлять или удалять столбцы из нашей таблицы данных и изменять значения в столбцах. Функциональную инженерию можно применять по глубине или по дыханию во всем приложении машинного обучения.

Различные аспекты проектирования функций включают в себя:

  • Выбор функций. Выбор функции означает удаление функций, поскольку они могут быть неважными, избыточными или контрпродуктивными для обучения. Они не добавляют никакой ценности к решению возникшей проблемы. Иногда команда может придумать слишком много функций. В этот момент выбор функций важен для удаления ненужных функций.
  • Построение элементов. Построение элементов создает новые функции из одной или нескольких существующих функций. Например, по длине и ширине резервуаров для воды мы можем определить объем резервуаров для воды.
  • Кодирование функций. Кодирование функций включает выбор набора символьных значений для представления различных категорий. Например, TD-IDF - это метод, который можно использовать для кодирования функций.
  • Извлечение функций. Извлечение функций означает переход от функций нижнего уровня, которые не подходят для изучения, к функциям более высокого уровня, которые полезны для обучения. На функции более низкого уровня указывают плохие результаты тестирования. Функции более высокого уровня обозначаются превосходными результатами тестирования. Извлечение функций развертывается, когда у нас есть определенные форматы данных изображений или текста, которые можно преобразовать в табличный формат строки-столбца или пример-функции. Извлечение признаков и построение признаков различаются по сложности выполняемых преобразований, но по сути они могут делать одно и то же.
  • Масштабирование и нормализация. Масштабирование и нормализация используются для настройки диапазона и центра данных, чтобы упростить обучение и улучшить интерпретацию результатов. Примером может служить нормализация и масштабирование набора данных о человеке для сокращения значений возраста до символов (A, B, C…), обозначающих 10-летний интервал, когда возраст не является важной точкой данных.
  • Отсутствующие значения: наборы данных реального мира могут иметь пустые значения из-за сложности сбора данных и из-за ошибок в процессе ввода / сбора данных. Пропущенные значения могут быть восполнены на основе экспертных знаний, эвристики или других методов машинного обучения.

Рекомендации

Различные аспекты, указанные выше, независимо от метода обучения, который мы применяем, эти шаги по разработке функций могут потребоваться независимо. Эти методы становятся все более и более важными в определенных сценариях. Эти аспекты необходимо дополнить, когда мы начнем работать с данными, которые явно не являются табличными, такими как изображения и текст. Эти методы разработки функций можно использовать в тандеме или по отдельности в зависимости от проблемы, которую пытается решить группа специалистов по анализу данных.

Использованная литература:

Что такое TD-IDF в фич-инжиниринге?

Подпишитесь на нашу рассылку Acing AI, я обещаю не спамить и БЕСПЛАТНО!



Спасибо за внимание! 😊 Если вам понравилось, проверьте, сколько раз вы можете нажать 👏 за 5 секунд. Это отличное кардио для ваших пальцев, И оно поможет другим людям увидеть историю.