Работа с синтетическими табличными данными, часть 2 (Data Centric AI)

ДАТГАН: Интеграция экспертных знаний в глубокое обучение синтетических табличных данных (arXiv)

Автор: Гаэль Ледеррей, Тим Хиллель, Мишель Бьерлер.

Аннотация: Синтетические данные могут использоваться в различных приложениях, таких как коррекция наборов данных смещения или замена дефицитных исходных данных в целях моделирования. Генеративно-состязательные сети (GAN) считаются современным средством разработки генеративных моделей. Однако эти модели глубокого обучения управляются данными, поэтому контролировать процесс генерации сложно. Таким образом, это может привести к следующим проблемам: недостаточная репрезентативность сгенерированных данных, внесение систематической ошибки и возможность переобучения шума выборки. В этой статье представлена направленная ациклическая табличная GAN (DATGAN) для устранения этих ограничений путем интеграции экспертных знаний в модели глубокого обучения для генерации синтетических табличных данных. Этот подход позволяет явно указывать взаимодействия между переменными с помощью направленного ациклического графа (DAG). Затем DAG преобразуется в сеть модифицированных ячеек краткосрочной памяти (LSTM) для приема нескольких входных данных. Несколько версий DATGAN систематически тестируются по множеству показателей оценки. На многочисленных тематических исследованиях мы показываем, что лучшие версии DATGAN превосходят современные генеративные модели. Наконец, мы покажем, как DAG может создавать гипотетические синтетические наборы данных.

2.TabSynDex: универсальная метрика для надежной оценки синтетических табличных данных (arXiv)

Автор: Викрам С. Чундават, Аюш К. Тарун, Мурари Мандал, Мукунд Лахоти, Пратик Наранг.

Аннотация: Генерация синтетических табличных данных становится критически важной, когда реальные данные ограничены, их сбор дорог или их просто невозможно использовать из соображений конфиденциальности. Однако получение синтетических данных хорошего качества является сложной задачей. Для генерации синтетических табличных данных было представлено несколько подходов на основе вероятностных, статистических и генеративно-состязательных сетей (GAN). После создания оценить качество синтетических данных довольно сложно. В литературе использовались некоторые традиционные показатели, но отсутствует общий, надежный и единый показатель. Это затрудняет правильное сравнение эффективности различных методов генерации синтетических табличных данных. В этой статье мы предлагаем новую универсальную метрику TabSynDex для надежной оценки синтетических данных. TabSynDex оценивает сходство синтетических данных с реальными с помощью различных оценок компонентов, которые оценивают характеристики, желательные для синтетических данных «высокого качества». Будучи единой метрикой оценки, TabSynDex также может использоваться для наблюдения и оценки обучения подходов, основанных на нейронных сетях. Это поможет получить информацию, которая была невозможна раньше. Далее мы представляем несколько базовых моделей для сравнительного анализа предлагаемой метрики оценки с существующими генеративными моделями.

Работа с синтетическими табличными данными, часть 2 (Data Centric AI)

Вопросы по теме