Благодаря этой статье я получил свою первую публикацию в журнале. Потребовался год усилий, бесчисленные обзоры, бессонные ночи и тысячи идей, чтобы в итоге получить то, что получилось. Однако это того стоило.
Все началось со скромной летней стажировки, но оказалось одним из самых плодотворных занятий.

Что и почему для обнаружения повреждения данных

Мы живем в эпоху, изобилующую технологиями, когда данные больше не представляют собой случайные факты в аккуратно размеченных файлах. Мы живем в мире, где сильнейшие технологические конкуренты считают данные эквивалентом современного золота. Создавать, хранить и изменять данные стало так же легко, как и испортить их. За повреждение данных приходится платить огромную цену, особенно когда мы говорим о наборах данных в мире машинного обучения. Сохранение собранных данных — чрезвычайно важная задача, поскольку она напрямую влияет на задачи, выполняемые с накопленными данными. Повреждение данных может быть вызвано различными неэтичными и незаконными источниками, поэтому крайне важно разработать высокоэффективный метод для выявления и надлежащего выделения различных поврежденных данных, существующих в наборе данных.

Существуют различные методы, с помощью которых конфиденциальные и жизненно важные данные могут быть скомпрометированы, но существует лишь несколько методов, которые можно немедленно применить для выявления поврежденных данных.

Эта статья является отражением исследовательской работы, проведенной с использованием 16+ методов на 18+ наборах данных. Результатом исследования стал новый PAACDA (алгоритм обнаружения коррупции Адамик-Адар на основе близости). Журнал был опубликован в рамках материалов IEEE Access с импакт-фактором 3,465, относящимся к категории Q1. Ссылку можно найти здесь.

Как мы решили проблему обнаружения повреждения числового набора данных

PAACDA вращается вокруг алгоритма Адамика Адара, который представляет собой алгоритм на основе графа для определения близости соседей в социальной сети. В этом исследовании мы используем концепцию Адамика Адара, чтобы отличать зашумленные точки данных от незашумленных. Здесь данные не отображаются в виде графика. Алгоритм показывает, что чем больше связаны значения, тем ниже значение индекса PAACDA, что предполагает, что он обратно пропорционален параметру близости. Мы используем среднее значение в качестве меры, чтобы соотнести каждое значение со всем столбцом для определенного набора данных.

Это было применено к нескольким наборам данных разных размеров:

  1. Небольшой набор данных (10 000 значений)
  2. Средний набор данных (40 000 значений)
  3. Большой набор данных (75 000 значений)

И уровень коррупции:

  1. 20%
  2. 40%
  3. 60%

Эти наборы данных были созданы синтетически и снова были двух типов:

  1. Данные регрессии
  2. Кластеризация данных

Чтобы измерить реальную точность, приведенный выше анализ также был выполнен для стандартного обнаружения выбросов набора данных о покемонах, доступного на Kaggle, с искажением около 3%.

В качестве базовых были использованы различные алгоритмы: HBOS, MAD, COPOD, GMM, LUNAR, Elliptic Envelop, кластеризация K-средних, ECOD, Isolation Forest, One-Class SVM, DeepSVDD, PCA, ROD, LOF и DBSCAN, которые уступили PAACDA. . Код для вышеуказанного можно найти здесь.

Я пишу эту статью, чтобы записать этот процесс, чтобы я мог оглянуться на него с благодарностью и полностью оценить путь, который я прошел. Я надеюсь, что эта статья просветит и мотивирует многих молодых, стремящихся исследователей продолжить карьеру в этой области.

Я также хотел бы поблагодарить моих товарищей по команде Чайтрабхата и Кушагру Сингха, а также моих наставников, доктора Шриранга Амбаджи Кулкарни и доктора Мритьюнджая Доддамани, за то, что они поддерживали нас на протяжении всей работы.