(Анмол Кумар, Ришаб Чаухан и Теджас Дубхир)

Распознавание и анализ осанки человека в наши дни широко изучается благодаря инновациям в носимых устройствах. Таким образом, отслеживание активности становится захватывающим вариантом использования приложений для отслеживания состояния здоровья и фитнеса как для пожилых, так и для взрослых. В этом исследовании мы представляем анализ нескольких моделей машинного обучения для определения положения человека по данным, собранным с помощью различных акселерометров, прикрепленных к телу.

Мотивация:

Основным мотивом проведения этого исследования было помочь людям (особенно тем, кто ведет малоподвижный образ жизни) в их распорядке дня и физическом благополучии, отслеживая их осанку, активность и движения. Также он может быть полезен раненым и пожилым людям. Это исследование может быть дополнительно усовершенствовано для отслеживания тренировок, что упростит достижение и превышение целей по калорийности.

Методология:

Предварительная обработка:

Мы построили график результатов и характеристик, чтобы заметить, что изменение значений таких характеристик, как пол, рост, вес, ИМТ и т. Д., Не привело к изменению активности. Таким образом, использование этих атрибутов не очень полезно для нашей цели.

Здесь мы меняем классы на целочисленные типы, как, 1 = сидя, 2 = сидя на 2, 3 = стоя, 4 = стоя и 5 = ходьба.

Поскольку распределение классов было неравномерным, нам пришлось сделать набор данных даже за счет уменьшения количества выборок до наименьшей частоты классов.

Методы:

  1. Логистическая регрессия

Мультиклассовая логистическая регрессия используется для определения класса из пяти возможных результатов. Для обучения модели количество эпох сохраняется на уровне 500.

Мультиклассовая логистическая регрессия используется для определения класса из пяти возможных результатов. Для обучения модели количество эпох сохраняется на уровне 500.

Сред. Точность обучения: 0,8014151854714064

Сред. Точность тестирования: 0,7966335007727975

2. Машина опорных векторов (SVM)

Машина опорных векторов строит и обучает модель таким образом, чтобы максимально увеличить разницу между разделяющей гиперплоскостью и точками данных. Попытавшись оптимизировать гиперпараметры и найти лучшее ядро ​​для обучения, можно сделать вывод, что линейное ядро ​​дает наивысший балл из всех методов ядра. Поскольку временная сложность обучения ядра составляет около O (n ^ 3), мы обучаем его только для первых 1000 точек, так как дальнейшее обучение не увеличивает точность, а занимает больше времени.

Сред. Точность обучения: 0,8203970247295209

Сред. Точность тестирования: 0,8226188176197836

3. Классификатор случайных лесов

Random - это метод ансамбля, специально разработанный для классификаторов дерева решений. Случайный лес соответствует нескольким деревьям решений, основанным на выборках данных, и использует режим среднего для контроля чрезмерной подгонки. Для построения каждого дерева используется весь набор данных. В таблице 3 показана точность при использовании случайного леса.

Сред. Точность обучения: 0,995616815489667

Сред. Точность тестирования: 0,9907806556783192

4. Гауссовский дискриминантный анализ

GDA - это метод, который подгоняет условные плотности классов к данным и использует правило Байеса. Он присваивает гауссову плотность каждому выходному классу.

Сред. Точность обучения: 0,90461585523

Сред. Точность тестирования: 0,902555061824

5. Оптимизация стохастического градиентного спуска (SGD) на логистической регрессии

Стохастический градиентный спуск - это вариант алгоритма градиентного спуска, который оптимизирует веса путем случайного выбора любого отдельного экземпляра из набора данных для оптимизации весов для следующей итерации. Мы оценили этот метод оптимизации с помощью логистической регрессии для классификации. Одна особенность этой модели заключается в том, что ее путают с аналогичными значениями, такими как ходьба и стояние, сидение и вставание.

Сред. Точность обучения: 0,7709782328696548

Сред. Точность тестирования: 0,7691025888717156

6. Нейронная сеть (многослойный персептрон)

Нейронная сеть представляет собой комбинацию нескольких слоев, каждый из которых имеет несколько нейронов / перцептронов. Мы сравнили несколько функций активации с комбинацией нескольких скоростей обучения (𝛼). Для одного скрытого слоя мы обнаружили, что точность составила около 94% для 36 единиц, и после этого значительного улучшения не произошло. Мы добавили еще один слой с 24 единицами. Точность повысилась до 98% для альфа = 0,001.

Relu: 0,985

Линейный: 0.815

Сигмовидная: 0,9837

Тан: 0,975

Полученные результаты:

Проведя вышеуказанные эксперименты, можно сделать вывод, что:

Метод случайных лесов (max_depth = 16) со средним значением 98–99%. точность

Затем последовала нейронная сеть из 2 скрытых слоев с 36 и 24 единицами соответственно со средним значением 98%. точность. (LR = 0,001 и функция активации ReLU)

Третью лучшую модель в нашем анализе заняла GDA со средней точностью 92%.

Выводы:

Мы использовали большинство концепций, преподаваемых нам в курсе машинного обучения доктором Джайнендрой, для решения реальной проблемы и поняли практическое использование визуализации процесса обучения.

У нас появилась возможность применить методы машинного обучения, которые мы знали, к набору данных, который нам не был знаком.

Теперь мы можем различать, как алгоритмы обучения без учителя и с учителем ведут себя по-разному в задачах мультиклассовой классификации.

Мы узнали, что для выбора классификатора, который при задании нескольких параметров и должен классифицироваться по нескольким классам, случайный лес является лучшим выбором, за ним следуют нейронные сети и гауссовский дискриминантный анализ.

Использованная литература:

Бумага 1

Бумага 2