Недавно я посетил четырехдневный семинар по науке о данных, который проводил профессор Анкур Синха, преподаватель Индийского института менеджмента в Ахмадабаде. Семинар представлял собой практическое интерактивное занятие по инструментам и концепциям использования данных в качестве исходных данных для решения реальных бизнес-задач. Ниже приведены некоторые из моих выводов из сессии:

ДЕНЬ 1 ВЫВОДЫ

  1. Объем данных в современном мире растет экспоненциально благодаря более быстрым вычислениям и более дешевой памяти. Компании должны адаптироваться к этой цифровой трансформации, чтобы выжить в своих бизнес-функциях.
  2. 6D технологий необходим компаниям, чтобы быть в курсе последних событий и менять свою бизнес-стратегию в соответствии с изменениями в технологиях. Демократизация означает, что продукт почти бесплатен и доступен для всех, что вредит кому-то вроде iTunes (бизнес-модель Spotify изменилась, и он по-прежнему зарабатывает на этом деньги, разрешая 10 миллионов песен за 10 долларов).

3. Данные создают цифровую революцию, ускоряя инновации, повышая производительность, трансформируя занятость и изменяя экономику.

4. Машинное обучение и искусственный интеллект позволяют нам обрабатывать неструктурированные данные в дополнение к структурированному обучению. Это с помощью аналитических инструментов, которые диагностируют, прогнозируют и назначают.

РЕЗУЛЬТАТЫ ДНЯ 2

Второй день сессии был посвящен Машинам опорных векторов. SVM — это важные алгоритмы машинного обучения, предназначенные для решения задач обучения с учителем. Их можно использовать для решения задач регрессии и классификации.

Модели SVM состоят из таблицы со строками в качестве объектов и столбцами в качестве атрибутов. Идея состоит в том, чтобы сопоставить атрибуты с метками.

Наша цель — построить разделяющую гиперплоскость для разделения двух наборов данных. Гиперплоскость будет действовать как граница решения, которая минимизирует расстояние точек до этой линии. SVM пытается найти максимально разделяющее расстояние между двумя линиями гиперплоскости.

Обратите внимание, что набор данных может иметь несколько выбросов, и эту проблему можно решить, используя мягкие поля вместо жестких полей. Это означает, что мы используем мягкие поля, где мы делим 70% данных на обучающий набор для изучения модели и 30% данных для проверки и проверки точности.

После получения данных тестирования мы вычисляем матрицу путаницы, которая дает нам ложноположительные и ложноотрицательные результаты.

РЕЗУЛЬТАТЫ ДНЯ 3

В третий день этого семинара мы сосредоточились на кластеризации и алгоритме K-средних. Кластеризация — это группировка набора данных в разные группы на основе некоторого сходства (может быть с точки зрения евклидова расстояния). Это пример обучения без учителя. Набор данных может быть вектором, представляющим различные атрибуты объекта, такие как продукты, местоположение или клиенты.

Одним из способов кластеризации является иерархическая кластеризация, при которой мы группируем данные в каждой точке. Но проблема в том, что итераций (итераций Nc2) слишком много, и время выполнения алгоритма может упасть до 0(n2). Это может быть очень дорого и может быть невозможно в режиме реального времени. Чтобы решить эту проблему, используйте метод K-средних.

Мы начинаем с выбора определенного фиксированного количества кластеров и случайного размещения их на нашем графике набора данных. Теперь мы вычислим евклидово расстояние от каждой точки до вершины кластера и разделим набор данных на разные группы.

На следующем шаге мы снова скорректируем головку кластера (центроид дня. точки) и повторим шаг 1. Таким образом, мы сможем точно сойтись в правильном положении кластера за 5 или 10 операций.

Преимущество алгоритма K-средних заключается в том, что нам потребуется меньшее количество итераций O(n), чтобы запустить наш алгоритм и найти позиции кластера. Но недостатком является то, что трудно определить количество необходимых кластеров в начале работы программы.

Для этого мы найдем матрицу инерции (пример суммы квадратов расстояний) и построим график количества кластеров в зависимости от матрицы. Точка перегиба — это точка, в которой дополнительный выигрыш от увеличения головы невелик, и это должно быть подсчетом, используемым в начале алгоритма K-средних.

ВЫВОДЫ ПО ДНЮ 4

Сосредоточьтесь на нейронных сетях.

Нейронные сети, классифицируемые как глубокое обучение, представляют собой модель, вдохновленную тем, как работает мозг. Сегодня он широко используется во многих приложениях: когда ваш телефон интерпретирует и понимает ваши голосовые команды, вполне вероятно, что нейронная сеть помогает понять вашу речь; когда вы обналичиваете чек, машины, которые автоматически считывают цифры, также используют нейронные сети.

Идея нейронной сети состоит в том, чтобы иметь один или два слоя скрытых узлов, и каждый скрытый узел связан со следующим слоем и передает информацию. Рассмотрим простой пороговый логический блок, как показано ниже.

На рисунке выше у нас есть один нейрон, который определяет двоичные значения на основе порога. Мы начинаем со случайных значений весов w1, w2, w3 и вычисляем результат y. Затем мы определяем ошибку на основе наших данных поезда, и в случае ошибки мы распространяем ошибку на вход и повторяем снова. Этот процесс повторяется в цикле, и это не что иное, как обучение модели нейронной сети. После определенного количества подсчетов мы узнаем, что ошибка сведена к минимуму, и тогда мы можем сказать, что наша модель обучена.

PS — Это очень простой вводный курс для студентов и выпускников. Некоторые материалы курса можно найти по адресу https://faculty.iima.ac.in/~asinha/data-science-for-business/. Я надеюсь, что вышеизложенное станет для вас хорошим введением в мир аналитики данных. .