Прогнозы для Data Science на 2017 год

Франческо Гадалета, эксперт по машинному обучению

Что нам следует ожидать от науки о данных и предиктивной аналитики в ближайшем будущем?

Сводка

В worldofpiggy.com мы твердо верим, что 2017 год станет годом технологии глубокого обучения (ГО). В настоящее время глубокое обучение настолько связано с искусственным интеллектом (ИИ), что люди ошибочно намеренно меняют два термина, ссылаясь на одно и то же.

На самом деле глубокое обучение принесло впечатляющий прогресс во многих областях, от искусственного зрения до распознавания речи и обработки естественного языка. Многие другие области также готовы пользоваться мощными функциями DL и интеллектуального программного обеспечения.

Чтобы обобщить основное влияние DL в сообществе специалистов по данным, мы можем четко заявить, что

Глубокое обучение улучшило состояние дел в нескольких областях, таких как компьютерное зрение и распознавание речи. НЛП и текстовая аналитика следуют по мере поступления новых данных.
Программирование глубокого обучения становится все проще и проще благодаря значительным улучшениям в библиотеках и API (например, Tensor-Flow от Google — самый впечатляющий и простой из всех)
Практики начинают верить, что глубокое обучение — это не технология, которая полезна только для самоуправляемых транспортных средств, но может применяться в разных областях с помощью методов передачи знаний, которые позволяют обучать сеть где-то и прогнозировать где-то еще.

Далее следует наш список прогнозов в области науки о данных на 2017 год и причины этих заявлений. Мы рады поделиться с вами своим видением и узнать ваше мнение и ожидания относительно мира аналитики и искусственного интеллекта.

Прогноз №1: Искусственный интеллект общего назначения еще не стал реальностью

Всеобщего искусственного интеллекта не будетв ближайшее время, и уж точно не в 2017 году. Единственная возможность дать ИИ шанс выйти в реальный мир — это улучшить традиционные приложения и сервисы с помощью интеллекта, разбросанного тут и там. . Это приведет к тому, что приложения и сервисы будут медленно решать те же задачи, но с более интеллектуальным подходом. Однако мало кто заметит разницу. Другой альтернативой является обучение специализированных сетей, решающих очень специфические задачи. Затем найдите способ соединить эти независимые блоки вместе, чтобы решить более сложную и общую задачу. В ближайшем будущем мы увидим множество специализированных машин, а не сверхразум, который хорош во всем. Эта стратегия исходит из многих биологических систем, которые работают подобным образом. Даже римляне решали проблемы таким же образом и резюмировали эту стратегию термином разделяй и властвуй, разделяй и властвуй. Инженеры, которые разбивают большие проблемы на задачи, которыми можно управлять с помощью интеллектуального программного обеспечения, а затем объединяют их все вместе, будут иметь значительное преимущество по сравнению с теми, кто пытается массово применять ИИ с самого начала.

Прогноз 2. Развитие программного и аппаратного обеспечения

История говорит нам о том, как прогресс в программном обеспечении регулировался и доминировал над прогрессом в аппаратных технологиях. Сегодня существует довольно разнообразный сценарий, в котором развитие аппаратного обеспечения определяется программным обеспечением. NVIDIA, Intel и Amazon, и это лишь некоторые из них, переключают свои продуктовые линейки на аппаратное обеспечение, поддерживающее глубокое обучение. Эта тенденция будет продолжаться.

Напротив, развитие программного обеспечения будет в большей степени сосредоточено на основных алгоритмах глубокого обучения, таких как стохастический градиентный спуск (SGD) и обратное распространение ошибки.

Мы ожидаем значительных улучшений в этих областях, поскольку они считаются узким местом всей системы. Исследователям следует рассмотреть возможность изучения новых методов оптимизации, которые в целом более эффективны не только с точки зрения вычислений, но и с точки зрения энергопотребления.

Прогноз № 3. ИИ будет иметь неожиданные социально-политические последствия

Наши основные мысли связаны с социально-политическими последствиями искусственного интеллекта. В одном из выпусков Науки о данных дома мы упомянули, что скоро специалисты по данным исчезнут, так как они будут полностью автоматизированы. Мы по-прежнему согласны с нашим предыдущим утверждением, добавляя фундаментальное условие. Мы не думаем, что это произойдет завтра из-за того, что люди не готовы делегировать какой-либо машине некоторые из своих критических задач. Если будет бюрократия, чтобы попросить алгоритм отвезти машину в аэропорт, будет еще больше бюрократии, чтобы попросить тот же алгоритм поставить прогноз для больного раком. Люди не готовы к этому не из-за отсутствия технологий. Скорее необходимость снять ответственность с физического учреждения/человека за свои ошибки.

Чтобы смягчить эту проблему, у нас есть основания полагать, что ИИ будет работать как утилита, общественная услуга для всех, оставляя некоторую степень права принятия решений людям, чтобы помочь системе управлять редкими исключениями.

В заключение можно сказать, что потеря рабочих мест, как утверждают многие, еще не будет главным социально-политическим последствием внедрения ИИ, поскольку люди по-прежнему предпочитают контролировать свои задачи до тех пор, пока обученный алгоритм не выполнит эту задачу с почти нулевыми ошибками и однозначно. дешевле. Это может произойти скоро, но не через 365 дней. Более того, это не обязательно будет означать, что будут люди, потерявшие работу. Многие игнорируют тот факт, что в таком сценарии люди могут и будут фокусироваться на других аспектах аналитики или просто на других задачах.

ИИ можно обмануть

Чтобы подтвердить отсутствие идеальной точности в задачах, управляемых ИИ, состязательные примеры (Papernot et al., 2016; Kurakin et al., 2016) ясно показывают, как легко обмануть интеллектуальное программное обеспечение. Авторы подделали набор изображений, которые не имеют визуально значимых отличий от исходной версии и все же могут обмануть нейронный классификатор. Аналогичный сценарий в здравоохранении, финансах или логистике будет иметь драматические последствия.

Эффект смартфона

Создание решения на основе глубокого обучения становится настолько простым, что запуск нейронного конвейера будет доступен многим. Это может привести к эффекту смартфона, когда устройство входит в нашу повседневную жизнь до той точки, от которой мы зависим.

Прогноз № 4. Популярный рынок вакансий диверсифицирует образование: Hadoop отсутствует

Согласно нескольким внешним исследованиям, список основных навыков, необходимых в 2017 году, должен включать технологию Hadoop. Мы в worldofpiggy.com не верим, что Hadoop станет таким важным навыком. Google отказался от парадигмы MapReduce более 6 лет назад по определенной причине. Вычисления в памяти (обеспечиваемые такими фреймворками, как Apache Spark) определенно убивают Hadoop, поскольку эти решения позволяют выполнять традиционные запросы к базе данных (ранее существующий код SQL) на распределенных данных.

Прогноз 5. Все больше и больше больших данных: конец неконтролируемому обучению

Данные становятся все более и более доступными, поскольку их легче собирать и дешевле хранить. Решения для работы с большими данными, которые до сих пор считались преждевременными, для многих станут необходимостью. Это принесет новые продукты и новые аппаратные решения для малых предприятий, а также для домашних компьютеров. Если все больше и больше данных является верным предположением, это буквально убьет обучение без учителя, которое на данный момент уже мертво. Мы не ожидаем, что обучение без учителя вернется в ближайшем будущем. По мере того как данных становится все больше и больше, все методы, предназначенные для работы с небольшим количеством наблюдений, такие как неконтролируемое обучение и предварительная настройка нейронной сети, теряют смысл. Уже существуют гораздо лучшие методы работы с небольшими наборами данных, одним из которых является передача знаний.

Прогноз № 6. Медицина во главе с наукой о данных

Здравоохранение не в полной мере пользуется потенциальными преимуществами ИИ и ГО, хотя есть интересные случаи, когда эта технология развивается медленнее по сравнению с другими областями. Медицинские стартапы уже используют науку о данных для перехода к персонализированной медицине и используют искусственный интеллект для изучения изображений, таких как рентген и МРТ, для быстрой и точной диагностики проблем.

Существуют важные примеры использования науки о данных для улучшения исходов эпидемий и прогнозирования поведения пациентов. Только в 2015 году ученые с данными помогли предсказать дальнейшие вспышки вируса Западного Нила в Соединенных Штатах с точностью 85%. Ранее в этом году группа ученых разработала модель, которая может предсказать вероятность переноса лихорадки Эбола летучими мышами.

Мы ожидаем, что в 2017 году использование науки о данных в сфере здравоохранения будет расти, поскольку медицинские работники ищут способы улучшить повседневные потребности и спасти жизни без задержек. На самом деле конечная цель состоит в том, чтобы рассматривать науку о данных и искусственный интеллект как медицинские устройства.

Но для того, чтобы внедрить технологию, доказавшую свою эффективность в таких областях, как социальные сети и финансы, мы действительно верим, что люди, живущие на границе между здравоохранением и самой технологией, будут иметь значение. Эти цифры будут необходимы для преодоления разрыва между двумя мирами, которые, кажется, действительно говорят на очень разных языках. Основная причина, по которой ИИ еще не захватил здравоохранение, заключается в том, что существует множество критически важных задач, которые в значительной степени окружены бюрократией и обязанностями, которые трудно передать. Мы видели сценарий, похожий на тот, который встречается в примере с беспилотным автомобилем, где, как упоминалось ранее, на самом деле существует не технологический разрыв, а скорее бюрократический.

Кто будет платить за возможный ущерб, нанесенный ИИ, который ошибся и наедет на пешехода или другой автомобиль? В здравоохранении было бы трудно иметь дело с неправильными прогнозами. Искусственный интеллект, который, как известно, ошибается в 5% случаев и масштабируется до миллионов, должен давать тысячи неверных и вводящих в заблуждение прогнозов. Готовы ли мы отказаться от идеи, что всегда есть кто-то виноватый, когда что-то не получается?

Прогноз № 7. Год осведомленности: консолидация технологий

Мы твердо верим, что 2017 год станет годом глубокого обучения. Это произойдет при одном условии: практики и люди из бизнеса должны сначала узнать о такой технологии. Следовательно, исследователи должны информировать своих деловых партнеров о потенциальных преимуществах DL и убеждать их в том, что это действительно меняет правила игры.

Это частично происходит с эталонными показателями, которые обычно приводятся в литературе. Но этого будет недостаточно. Мы не верим, что глубокое обучение будет массово применяться в хорошо зарекомендовавшей себя области, такой как здравоохранение, если нейронная модель была протестирована в задачах ImageNet или распознавания цифр или любом другом стандартном тесте, используемом в опубликованной литературе.

Чтобы внедрить глубокое обучение в отрасли (особенно в очень хорошо консолидированных областях, таких как финансы и здравоохранение), важно показать, как эта технология работает в таких областях. И как исследователи могут добиться этого, если у них нет возможности протестировать DL? Как всегда, это проблема курицы и яйца, которую необходимо решить.

Время покажет. Быть в курсе!

Биография: Франческо Гадалета, доктор наук, специалист по данным и машинному обучению. Он работал специалистом по клиническим данным в исследовательской больнице Gasthuisberg (Бельгия) и в настоящее время специалистом по данным в группе расширенной аналитики Johnson&Johnson. Он научный обозреватель worldofpiggy.com.