Когда Жиль Вандевил заметил большое количество исследований, сообщающих о почти идеальной точности в прогнозировании преждевременных родов у будущих мам, у него отвисла челюсть. Это было огромно.

Невыносимо высокий уровень младенческой смертности преследует человечество с момента его зарождения. Преждевременные роды, от которых страдает каждый десятый новорожденный в США, являются основной причиной этих преждевременных смертей. Если бы можно было с уверенностью сказать, родит ли женщина раньше срока, можно было бы принять меры для снижения риска осложнений.

Однако прогнозирование преждевременных родов оказалось труднодостижимым. Чтобы гинекологи могли определить, должна ли женщина рожать раньше срока, они должны учитывать огромное количество факторов риска, включая такие эзотерические факторы, как загрязнение воздуха, домашнее насилие и стресс. До сих пор экспертам не удавалось разобраться в сложных взаимодействиях такого огромного множества потенциальных агитаторов.

Теперь казалось, что с помощью искусственного интеллекта исследователям удалось решить загадку. Охваченный волнением, Вандевиле, доктор философии. кандидат машинного обучения в Гентском университете, нанял своих коллег и решил воспроизвести ошеломляющие результаты. Он и не подозревал, что они собираются отправиться в путь полного научного уничтожения, что приведет к признанию недействительным почти дюжины рецензируемых статей.

В основе любой системы машинного обучения лежат данные. Чтобы алгоритмы научились делать точные прогнозы, их нужно научить с помощью множества соответствующих примеров. Коллекция этих примеров называется набором данных.

Все необычные исследования, с которыми столкнулся Вандевиле, были основаны на популярной базе данных Term-Preterm EHG. Он содержал несколько сотен записей, каждая из которых соответствовала одной беременности. Каждая запись, в свою очередь, содержала клинические переменные, такие как возраст и вес матери во время их визита к акушеру, количество недель до фактических родов, а также электрический сигнал, измеренный электродом, помещенным на живот.

Чаще всего конфиденциальный характер наборов медицинских данных делает их недоступными для сторонних исследователей за пределами первоначальных исследований. Это делает попытки воспроизведения чрезвычайно сложными, если не невозможными. Таким образом, можно только представить себе вздохи облегчения от группы Вандевиле, когда они обнаружили, что необходимый набор данных был общедоступен. Простое нажатие кнопки - и данные принадлежат им.

После того, как данные были загружены, настало время начать вводить их в прогностические модели, описанные в документах. В идеале ученые должны были бы открыть свои кодовые базы в открытом доступе, так что этот шаг сводился бы к простому запуску некоторых существующих сценариев. К сожалению, мы живем в мире, где практика сохранения секретности исследовательских кодовых баз обычна в сообществе искусственного интеллекта.

Не из тех, кто отшатнулся от невзгод, группа засучила рукава и принялась за работу. Они взяли статью, показывающую лучшие результаты, и полностью воспроизвели ее настройку. Но когда они, наконец, провели анализ, произошло нечто странное - полученные результаты были заметно хуже, чем сообщалось. Прогнозы были чуть лучше случайных!

«Конечно, мы ошиблись», - подумал Вандевиле. Тем не менее, после нескольких дней двойной и тройной проверки каждой строчки своего кода, ничего не показалось неправильным. В конце концов, когда их любопытство сменилось разочарованием, команда списала первый эксперимент и попыталась воспроизвести следующую статью. То же самое. Система работала намного хуже, чем рекламировалось. Что происходило? Неужели они наткнулись на заговор?

Теперь совершенно маниакальная команда была в зверином режиме. Статьи перерабатывались слева и справа. Тем не менее, ни одно из воспроизведений не приблизилось к достижению обещанной почти идеальной точности прогноза. Как будто они застряли в греческой трагедии, замученные безжалостным валуном, который развернулся и покатился с горы в тот момент, когда они собирались бросить его с вершины горы.

Несколько месяцев спустя, после огромного труда по дублированию одиннадцати исследований, команда больше не могла заниматься. Но как только они собирались бросить это полотенце ... прорыв. Просто изменив способ организации данных перед их вводом в модели машинного обучения, Вандевиле и его сотрудники наконец смогли получить результаты, сопоставимые с исходными исследованиями. Единственная проблема: такая схема обработки данных была в корне ошибочной.

Чтобы понять загадку, нам нужно внимательнее изучить методологию построения систем машинного обучения.

Концепция обобщения лежит в основе искусственного интеллекта. Чтобы быть полезной, модель, обученная на входных данных - например, комбинации возраста и веса матери, для которых известны желаемые результаты - количество недель до беременности, - должна быть возможность обобщать на новые, ранее невиданные входные комбинации. Алгоритм мало чем отличается от студента, который заполняет листы вопросов-ответов на экзамене, в котором есть похожие, но не совсем идентичные вопросы.

Соответственно, наборы данных, используемые в машинном обучении, делятся на два. Первая часть - обучающий набор - используется для обучения алгоритму, а вторая часть - тестовый набор - предназначена для измерения того, насколько хорошо модель поняла истинный характер задачи. Очевидно, что любой достойный школьный учитель может подтвердить, что крайне важно, чтобы эти два набора не пересекались.

Помимо разделения набора данных, исследователи должны убедиться, что он содержит сопоставимое количество записей для различных типов выходных данных. Продолжая аналогию, для того, чтобы учащийся показал хорошие результаты в тесте, ему необходимо одинаково много практиковать различные типы вопросов. Подающий надежды математик, который изучает только интеграцию, не преуспеет в разделе о деривативах.

Однако наборы медицинских данных, как известно, несбалансированы. База данных Term-Preterm EHG не является исключением, она содержит почти в семь раз больше записей о доношенных родах, чем о недоношенных. Чтобы компенсировать диспропорциональность, ученые добавляют копии точек данных, соответствующих классу меньшинства, в исходный несбалансированный набор данных. Эта процедура называется передискретизацией.

К их изумлению, команда Вандевиле обнаружила, что авторы слишком хороших, чтобы быть правдой, исследований выполняли передискретизацию перед разделением набора данных на два. Поскольку разделение было выполнено случайным образом, это имело разрушительный побочный эффект: одни и те же точки данных попали как в обучающий, так и в тестовый набор. Фактически, модели показали вопросы, по которым они должны были быть оценены задолго до экзамена! Неудивительно, что их результаты были подозрительно хорошими.

Эта грубая ошибка отнюдь не редкость среди специалистов по анализу данных. Бен Хамнер, соучредитель Kaggle, платформы для проведения соревнований по машинному обучению, назвал случайную утечку информации из составов поездов в испытательный комплект проблемой номер один для компании.

«Многие из нас однажды совершили ту же ошибку, в том числе и я. Я полагаю, что отличает хорошего исследователя машинного обучения (машинного обучения) тот факт, что вы всегда должны скептически относиться к почти идеальным результатам », - сказал Вандевиле.

Здесь Вандевиле также затрагивает более тонкий момент. Поскольку алгоритмы начинают управлять все более важными аспектами нашей жизни, мы должны быть уверены, что профессионалы, управляющие этими системами, достойны своих обязанностей. Хотя прохождения нескольких онлайн-курсов может быть достаточно, чтобы начать оптимизацию доходов от рекламы, аналитикам, работающим с нашими медицинскими данными, необходимо дополнительное обучение. В противном случае мы буквально рискуем жизнями невинных людей.