Экономические данные несовершенны, и даже самые тщательно отобранные наборы данных могут содержать зашумленные, отсутствующие, дискретизированные или приватизированные переменные. Более того, современные стандартные процедуры очистки данных часто не учитывают последствия смещения и дисперсии очистки данных, что может ввести в заблуждение усилия по установлению причинно-следственных связей.

Чтобы решить эти проблемы, исследовательская группа из Массачусетского технологического института предложила единую структуру для оценки и вывода при наличии различных форм искажения данных, таких как ошибки измерения, пропущенные значения, дискретизация и дифференциальная конфиденциальность. Команда также представляет сквозную процедуру для легкой очистки данных и предоставляет новые, неасимптотические теоретические достижения для каждого этапа процедуры.

В исследовании рассматривается цель оценки и вывода данного целевого параметра как оценка причинно-следственного параметра, который представляет собой функциональную, скалярную сводку непараметрической регрессии, например эффект лечения, эффект политики или эластичность. Предыдущие исследования в этой области использовали полупараметрическую теорию для изучения функционалов непараметрических регрессий и плотностей без искажения данных. Примечательно, что ключевой вывод из классической полупараметрической теории состоит в том, что интересующие функционалы обычно имеют репрезентатор Рисса, который устанавливает важную связь между гильбертовым пространством и его непрерывным двойственным пространством. В этой работе команда объединяет очистку данных и непараметрическую оценку репрезентатора Рисса в проблему ошибок в переменных и расширяет теорию искаженного машинного обучения на настройки поврежденных данных.

Команда объясняет, что их упрощенная автоматическая процедура очистки данных состоит из трех этапов: заполнение отсутствующих значений в виде нулей, соответствующее масштабирование, затем выполнение анализа главных компонентов (PCA). Они также вносят новшества в процедуру очистки данных четырьмя способами: 1) они позволяют пропускать разные переменные с разной вероятностью; 2) Они допускают зависимость пропусков внутри заданной строки; 3) Они позволяют создавать технические переменные как преобразования исходных переменных; 4) Они вводят заполнение пропущенных значений вне выборки, что облегчает перекрестную подгонку, необходимую для коррекции смещения и онлайн-обучения.

После процедуры очистки данных команда обращает свое внимание на регрессию ошибок в переменных, которая также включает три простых шага: очистка обучающего набора, выполнение обычного метода наименьших квадратов (OLS) на очищенном обучающем наборе и использование этого коэффициента OLS для заполненный тестовый набор для предсказания.

Исследователи также предлагают процедуру репрезентатора Рисса с ошибками в переменных: очистить обучающий набор, выполнить оценку минимального расстояния (MDE) на очищенном обучающем наборе, а затем использовать этот коэффициент MDE на заполненном тестовом наборе для прогнозирования.

В документе также представлены новые, неасимптотические теоретические достижения на каждом этапе процедуры, которые команда резюмирует следующим образом: 1) при очистке данных, обобщение гарантий завершения матрицы для условий, в которых различные переменные могут отсутствовать с разной вероятностью; 2) В регрессии ошибок в переменных и при коррекции смещения / дисперсии ошибок в переменных, докажите быструю среднеквадратичную частоту ошибок в предположении, что истинные регрессоры имеют приблизительно низкий ранг; 3) В анализе целевых параметров, обобщенные гарантии полупараметрического вывода для доказательства квадратной n-согласованности, гауссовой аппроксимации и полупараметрической эффективности; 4) Проверить предположение о приблизительно низком ранге для широкого класса обобщенных факторных моделей.

В целом, в исследовании рассматривается причинно-следственный вывод с данными, которые могут быть зашумленными, отсутствующими, дискретизированными или приватизированными, с помощью новой сквозной процедуры, которая включает очистку данных путем завершения матрицы, оценку с помощью новых вариантов регрессии главных компонентов и вывод с помощью вдвойне надежной. моменты.

Для будущих исследований команда предлагает изучить, как расширить свой подход к настройкам с искаженным шумом и смещением выборки, и их статья предоставляет шаблон для этого.

Статья Причинно-следственный вывод с поврежденными данными: ошибка измерения, отсутствующие значения, дискретность и дифференциальная конфиденциальность находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен, Чейн Чжан

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.