Если кто-то новичок в карьере в области науки о данных, самый запутанный термин при чтении исследовательских работ — это когда мы видим эти термины разреженными / плотными. То, что исследователи называют этими терминами, вызывает наибольшее недоумение. Ну, если бы не вы, меня это очень смутило! :-)

что такое особенность?

В машинном обучении функции относятся к измеримым и количественным свойствам или характеристикам объекта, человека или явления.

  • Функции можно разделить на два типа: разреженные функции и плотные функции.

Разреженные функции:

  • Разреженные объекты — это те, которые встречаются в наборе данных редко или спорадически, и большинство значений равны нулю (как показано на рисунке).
  • Примеры разреженных признаков включают наличие или отсутствие определенного слова в текстовом документе или появление определенного элемента в наборе данных о транзакциях.
  • Разреженные объекты называются так потому, что в наборе данных очень мало ненулевых значений, и большинство из них нулевые.
  • Разреженные функции распространены в системах обработки естественного языка (NLP) и рекомендательных системах, где данные обычно представлены в виде разреженных матриц.
  • С разреженными функциями может быть сложнее работать, поскольку они обычно имеют много нулевых или близких к нулю значений, что может сделать их вычислительно затратными и замедлить процесс обучения. Однако разреженные функции могут быть полезны в ситуациях, когда пространство функций велико, а большинство функций нерелевантны или избыточны. В этих случаях разреженные функции могут помочь уменьшить размерность данных, что приведет к более быстрому и эффективному обучению и выводу.

Плотные функции:

  • С другой стороны, плотные объекты — это те, которые часто или регулярно встречаются в наборе данных, и большинство значений не равны нулю (как показано на рисунке).
  • Примеры плотных признаков включают возраст, пол и доход человека в наборе демографических данных.
  • Плотные объекты называются так потому, что в наборе данных у них много ненулевых значений.
  • Плотные функции распространены в распознавании изображений и речи, где данные обычно представлены в виде плотных векторов.
  • С плотными признаками, с другой стороны, обычно легче работать, поскольку они имеют более высокую плотность ненулевых значений, а большинство алгоритмов машинного обучения предназначены для работы с плотными векторами признаков. Плотные функции могут быть более подходящими в ситуациях, когда пространство функций относительно невелико, и каждая функция важна для текущей задачи.

Разница:

Разница между разреженными и плотными функциями заключается в распределении их значений в наборе данных.

  • Разреженные объекты имеют очень мало ненулевых значений, тогда как плотные объекты имеют много ненулевых значений.
  • Эта разница в распределении имеет значение для алгоритмов машинного обучения, поскольку алгоритмы могут по-разному работать с разреженными функциями по сравнению с плотными функциями.

какой алгоритм использовать?

Теперь, когда мы знаем о типе объекта, который у нас есть для данного набора данных, какой алгоритм мы должны использовать, если набор данных содержит разреженные объекты или если набор данных содержит плотные объекты?

Некоторые алгоритмы больше подходят для разреженных данных, в то время как другие лучше работают с плотными данными.

  • для разреженных данных популярные алгоритмы включают логистическую регрессию, методы опорных векторов (SVM) и деревья решений.
  • для плотных данных популярные алгоритмы включают нейронные сети, такие как сети прямой связи и сверточные нейронные сети.

Однако важно отметить, что выбор алгоритма определяется не только разреженностью или плотностью данных, но также следует учитывать другие факторы, такие как размер набора данных, тип признаков и сложность проблемы. . Как правило, рекомендуется поэкспериментировать с различными алгоритмами и сравнить их производительность в конкретной задаче.

реализация градиентного спуска в python (нажмите здесь)

Реализация оптимизации колонии муравьев с помощью Python — решение задачи коммивояжера (нажмите здесь)

Реализация оптимизации роя частиц — Часть 1