Варианты использования синтетических наборов данных, часть 2 (машинное обучение)

Универсальный синтетический набор данных для машинного обучения на спектроскопических данных (arXiv)

Автор: Ян Шутцке, Натан Дж. Шимански, Маркус Рейшль.

Аннотация: Чтобы помочь в разработке методов машинного обучения для автоматической классификации спектроскопических данных, мы создали универсальный синтетический набор данных, который можно использовать для проверки модели. Этот набор данных содержит искусственные спектры, предназначенные для представления экспериментальных измерений с помощью таких методов, как дифракция рентгеновских лучей, ядерный магнитный резонанс и рамановская спектроскопия. Процесс генерации набора данных имеет настраиваемые параметры, такие как длина сканирования и количество пиков, которые можно настроить в соответствии с поставленной задачей. В качестве первоначального эталона мы смоделировали набор данных, содержащий 35 000 спектров на основе 500 уникальных классов. Для автоматизации классификации этих данных были оценены восемь различных архитектур машинного обучения. Из результатов мы пролили свет на то, какие факторы являются наиболее важными для достижения оптимальной производительности задачи классификации. Сценарии, используемые для создания синтетических спектров, а также наш эталонный набор данных и процедуры оценки, общедоступны, чтобы помочь в разработке улучшенных моделей машинного обучения для спектроскопического анализа.

2. Уменьшение смещения за счет совместных переговоров при создании набора синтетических графических данных (arXiv)

Автор: Аксель Вассингтон, Серги Абадал.

Аннотация: В общем, чтобы сделать надежные выводы из набора данных, вся проанализированная популяция должна быть представлена в указанном наборе данных. Наличие набора данных, не удовлетворяющего этому условию, обычно приводит к систематической ошибке при отборе. Кроме того, графы использовались для моделирования широкого круга задач. Хотя синтетические графики можно использовать для дополнения доступных наборов данных реальных графиков, чтобы преодолеть предвзятость выбора, создание несмещенных наборов синтетических данных является сложной задачей с использованием современных инструментов. В этой работе мы предлагаем метод поиска набора данных синтетического графа, который имеет четное представление графов с разными метриками. Полученный набор данных затем можно использовать, среди прочего, для сравнительного анализа методов обработки графов, таких как точность различных моделей нейронных сетей графов (GNN) или ускорение, полученное с помощью различных сред ускорения обработки графов.

Варианты использования синтетических наборов данных, часть 2 (машинное обучение)

Вопросы по теме