Будущий стандарт развития науки о данных

В современном мире, где наука о данных управляет каждой отраслью, наиболее ценным ресурсом для компании являются не алгоритмы машинного обучения, а сами данные .

С появлением больших данных появилось теоретическое понимание того, что данные есть повсюду. В настоящее время считается, что мы имеем дело с объемом около 2,5 квинтиллионов доступных данных. Отлично, правда?

Но, как и в любой отрасли, этот основной вопрос необходимо собирать, и, как показывают недавние исследования, 12,5% времени группы данных теряется на задачи, связанные со сбором данных - до 5 часов в рабочую неделю. . И после того, как данные собраны, их необходимо предварительно обработать и, в конечном итоге, пометить.

Приведем практический пример - компании в секторе здравоохранения, разрабатывающей модель, способную анализировать электроэнцефалографию (ЭЭГ) и выявлять любые аномалии, необходимо собрать и пометить десятки тысяч точек данных. ЭЭГ очень сложны, и для их надежной и точной маркировки требуются узкоспециализированные специалисты. Если предположить, что маркировка ЭЭГ одного пациента может занять в среднем 12,5 минут, то для полной маркировки базы данных, содержащей около 12 000 пациентов, может потребоваться до 2500 часов.

Зная стоимость часа работы нейрохирурга, вы можете посчитать.

Этот сценарий верен не только для сектора здравоохранения, но и для многих других секторов промышленности. Для решения вышеуказанных проблем требуется другое решение - синтетические данные - и тому есть несколько веских причин:

  1. Разработка прототипа. Сбор и моделирование огромных объемов реальных данных - сложный и утомительный процесс. Создание синтетических данных позволяет быстрее получить доступ к данным. Кроме того, это может помочь в более быстрой итерации при разработке коллекций данных для инициатив машинного обучения.
  2. Моделирование пограничного случая. Часто бывает, что собранные данные не содержат всех возможных сценариев, которые отрицательно влияют на производительность модели. В таких случаях мы можем включить эти редкие сценарии, искусственно создав их.
  3. Конфиденциальность данных. Синтетические данные - это отличный способ обеспечить конфиденциальность данных при одновременном предоставлении доступа к микроданным, позволяя организациям обмениваться конфиденциальными и личными (синтетическими) данными, не беспокоясь о правилах конфиденциальности. Посмотрите нашу предыдущую статью!

Но как мы можем генерировать синтетические данные? Чтобы ответить на этот вопрос, мне сначала нужно объяснить, что такое синтетические данные. Из названия мы легко можем понять, что это относится к данным, которые не собираются из реального мира, а генерируются компьютером. Большим преимуществом новых методов синтеза данных является то, что полученные данные сохраняют реальные свойства. Методы генерации синтетических данных могут различаться как по приложениям, так и по качеству сгенерированных данных.

SMOTE и ADASYN

Для задачи классификации несбалансированный набор данных означает, что количество примеров одного класса очень мало по сравнению с другими, что вредит процессу обучения. Двумя наиболее известными методами передискретизации для класса меньшинств являются SMOTE и ADASYN.

Самый важный недостаток методов выборки связан с тем, что эти подходы работают только на межклассовый дисбаланс, а не внутриклассовый дисбаланс. Это означает, что когда дело доходит до предвзятого отношения к проблеме несбалансированного обучения, они не работают очень хорошо.

Imbalanced-learn, известный пакет Python, предназначенный для решения проблем с несбалансированными наборами данных, включает в себя простую и простую в использовании реализацию методов выборки.

Байесовские сети

Эти сети обычно состоят из двух компонентов: графической структуры и набора условных распределений вероятностей. Байесовские сети обычно используются для вероятностного вывода об одной переменной в сети с учетом значений других переменных.

Сети Байеса представляют данные в виде вероятностного графа, что позволяет очень легко моделировать новые синтетические данные. Хотя это очень полезно для широкого круга случаев использования, для генерации синтетических данных необходимо учитывать две детали: требуется предварительная информация о наборе данных, и байесовские сети также могут стать довольно дорогостоящими в вычислительном отношении при работе с большими массивами данных. и разреженные наборы данных.

Вариационные автоэнкодеры (VAE)

VAE - это автоэнкодеры, распределение кодировок которых упорядочивается и изучается в процессе обучения. Этот тип нейронных сетей пытается воссоздать входные данные с учетом жестких ограничений, обеспечивая при этом хорошие свойства скрытого пространства кодирования.

Существует множество интересных приложений VAE для решения реальных проблем, например, создание изображений инфицированных малярией клеток.

Генеративные состязательные сети

В общем, мы можем определить GAN как модели, состоящие из сетей дискриминатора и генератора, которые конкурируют друг с другом в процессе обучения.

GAN стремятся узнать истинное распределение данных обучающего набора данных и попытаться сгенерировать новые точки данных из этого распределения с некоторыми вариациями без воспроизведения обучающих данных. Используя это, мы можем создавать синтетические записи наборов данных с несколькими классами, что выходит за рамки традиционных моделей.

Вывод

Хотя синтетические данные не заменяют каждый случай, когда требуются реальные данные, они могут улучшить экономику и повысить шансы на успех инициатив машинного обучения и искусственного интеллекта для большинства отраслей.

В нынешних условиях - пандемиях COVID-19 - необходимость обмена микроданными пациентов стала еще более очевидной. Совместное использование микроданных при обеспечении конфиденциальности - это возможно и очень необходимо. Чем больше времени у нас уйдет на то, чтобы сделать данные пациентов общедоступными, тем больше времени уйдет на то, чтобы поставить новый диагноз или даже разработать лекарство.

Вместо того, чтобы рассматривать данные как узкое место, рассматривайте синтетические данные как средство, которое позволит вашим группам данных работать быстрее и стать более эффективными при создании прототипов, тестировании и итерациях ваших бизнес-приложений на основе машинного обучения.

Фабиана Клементе - директор по данным в YData

Разблокировка данных для специалистов по данным