Решение кризиса воспроизводимости глубокого обучения

За последние 5 лет популярность глубокого обучения резко возросла.

Учитывая, что эта область находится на быстрых стадиях своего развития, она вызвала приток исследователей и институтов. Этот всплеск был настолько быстрым, что в 2018 году билеты на нишевую конференцию по машинному обучению, NIPS (теперь NeurIPS), были распроданы менее чем за 12 минут.

Учитывая большие возможности, которые ждут впереди, многие лаборатории и независимые исследователи в одинаковой степени вынуждены публиковаться или исчезнуть. Это привело к тому, что ежедневно публикуется большое количество исследовательских работ по глубокому обучению. Согласно недавнему опросу, каждый день на ArXiv публикуется около 100 новых статей, большинство из которых заявляют о высочайшем уровне производительности.

С таким быстрым наплывом статей возникают различные проблемы. Исследователи, выполнившие метаанализ современных алгоритмов обучения с подкреплением, обнаружили, что многие результаты сомнительны и в значительной степени зависят от случайных начальных чисел. Такие конференции, как NeurIPS и ICLR, понимают это и в 2019 году представили проблемы воспроизводимости.

Однако я считаю, что эту проблему можно решить с помощью комбинации инструментов, которые уже существуют сегодня.

Ниже приводится описание того, как это может выглядеть.

Решение

1. Конференция предоставляет исследователям контейнер, который содержит предустановленные и современные фреймворки глубокого обучения (например, PyTorch, TensorFlow, MXNet). Исследователи должны будут убедиться, что их код можно развернуть в этом контейнере, прежде чем отправлять свою статью. Это должно помочь смягчить проблемы, возникающие из-за среды разработки и управления версиями фреймворков.

2. В этом контейнере будет возможность указать случайное начальное число в масштабе всей системы, которое используется во время обучения / тестирования. Это позволит редакторам конференции протестировать подход с несколькими случайными начальными числами.

3. Для окончательного представления авторы тренируют и тестируют свой подход на предварительно определенных наборах данных / предварительно обученных весах, которые предоставляются конференцией. Это гарантирует отсутствие ошибок, связанных с генерацией данных. Могут быть определенные виды исследований, которые требуют обучения на новых наборах данных, но с такими случаями, вероятно, легче справиться в индивидуальном порядке.

4. В процессе проверки организаторы конференции выбирают небольшое количество случайных скрытых начальных значений, которые используются для обучения сетей несколько раз после отправки на конференцию с использованием API, указанного выше. Ресурсы для этой части будут предоставлены авторами. Поскольку это делается после отправки, это не должно существенно влиять на продуктивность исследователя.

5. После обучения сети они несколько раз оцениваются в стандартизированной онлайн-таблице лидеров. Приводятся различные статистические данные, такие как среднее значение, стандартное отклонение и время выполнения. Может существовать модель ресурсов для оценки, которые будут предоставлены спонсорами конференции. Учитывая, что крупные компании извлекают наибольшую выгоду из масштабной коммерциализации глубоких сетей, для них не кажется большой проблемой спонсировать небольшое количество ресурсов, которые можно использовать для проведения оценок, которые помогают уменьшить шум в исследованиях глубокого обучения.

6. Этот подход хорош тем, что авторы могут сделать свой контейнер общедоступным или оставить его закрытым. Многие промышленные исследовательские лаборатории должны защищать свою интеллектуальную собственность и, следовательно, не могут выпускать код. Этот подход учитывает и это.

Это всего лишь первый набросок решения, которое, вероятно, придется пройти через несколько итераций, прежде чем оно решит проблему хорошо. Однако это то, о чем мы все должны больше думать, поскольку без определенных оснований в науке нет прогресса. Конструктивная критика и другие идеи приветствуются. Либо оставьте комментарий ниже, либо отправьте электронное письмо на адрес [email protected].

Решение кризиса воспроизводимости глубокого обучения

Решение

Вопросы по теме