Вдумчивый человеческий труд, улучшающий модель

Большинство примеров машинного обучения предполагают, что функции (переменные, описывающие вводимые данные для моделирования) заданы или легко определяются; однако в реальном мире это может быть не так. Исследование и включение функций, которые улучшаются, необходимы в новых и продвинутых моделях; например, для точной медицины, автономных транспортных средств, дронов и 5G / Интернета вещей (IoT). Новое и продвинутое могут быть нормой, поскольку ожидается, что к концу 2020 года к Интернету будет подключено более 31 миллиарда устройств, а к 2025 году - более 75 миллиардов »[1]». Возможно, разработка функций станет развивающейся отраслью науки о данных, учитывая натиск данных и интеллектуальных процессоров.

В контексте машинного обучения функции - это входные данные, а разработка функций обычно характеризуется как:

· Создание новых входных объектов из ваших существующих [2].

· Процесс использования предметных знаний данных для создания функций, которые заставляют алгоритмы машинного обучения работать (Амит Шекхар) [3].

· Придумывать функции сложно, отнимает много времени и требует экспертных знаний. Прикладное машинное обучение - это, по сути, разработка функций (Эндрю Нг) [4].

Глубокое обучение, самообучение и модели автоматического создания функций отлично подходят для устранения необходимости ручного проектирования функций. Алгоритмы машинного обучения также определяют приоритеты и снижают производительность функций. Однако дополнительные функции, выбранные или разработанные, могут иметь значение в расширенных приложениях.

Третья характеристика, указанная выше, от Andrew Ng, особенно применима к текущим и развивающимся приложениям. Традиционное моделирование состоит из: Вот входы, X, и помеченные выходы, y, теперь появилась модель для прогнозирования y с учетом некоторого нового X. Этого может быть недостаточно. Например, технология полностью автономных транспортных средств подталкивает к использованию инженерии функций - объединения входных данных с камер, радаров, лидара, GPS и многочисленных датчиков в функции машинного обучения. Внедрение 5G принесет больше возможностей и функций в автономные технологии; например, функции управления дорожным движением и безопасности, которые могут подтолкнуть автономные технологии к категории уровня 5 (полностью автономные) для общего использования. Это может включать устройства и связанные с ними функции; например, датчики и функции, используемые для обнаружения грунтовых или гравийных дорог и т. д., или функции, используемые для определения того, что ближайший объект - это не просто машина, а ткацкая машина (пьяный водитель). И многие аналитики будут утверждать, что 5G (и связанные с ним функции) являются требованием для повсеместной автономии [5]. Многие из новых приложений машинного обучения для медицинских открытий, диагностики и точной медицины вписываются в это более комплексное моделирование с расширенными функциями.

На рисунке 1 представлено упрощенное представление о том, как выбор функций и проектирование вписываются в общий поток машинного обучения.

Выбор функций и разработка функций иногда используются как взаимозаменяемые; тем не менее, можно подумать о проектировании функций как о более сложном или творческом; например, обнаружение и реакция на сотку ближайшего автомобиля в приложении для автономного транспортного средства. Определение и количественная оценка «плетения» (возможно, диапазона) будет инженерной особенностью.

Некоторые алгоритмы уменьшают или оптимизируют размеры (количество функций и важность конкретных функций) математически, чтобы оптимизировать производительность для конкретной ситуации [6]; однако для этих алгоритмов с самого начала предполагается включение исчерпывающего набора функций.

Разработка функций - это вдумчивая человеческая работа, которая улучшает производительность алгоритмов. Следующие примеры иллюстрируют некоторые приложения.

Пример 1. Радиология

В радиологии машинное обучение используется для диагностики изображений (компьютерное зрение видит больше деталей). Однако многое можно было улучшить; в частности, в отношении контекста, интерпретации, чувствительности и суждения:

В клинической практике один радиолог может не захотеть пропустить случай туберкулеза из-за его высокого клинического воздействия и, таким образом, будет отмечать случаи как положительные с малозаметными / неспецифическими признаками туберкулеза, в то время как другой радиолог может не захотеть переоценивать туберкулез. и вместо этого может искать более классические признаки, характерные для болезни [7].

Объединение моделирования изображения с функциями секвенирования ДНК, биомаркеров, демографических данных пациента, истории болезни (медицинской карты) и других факторов может улучшить прогнозы при диагностике и лечении. Этот подход используется в некоторых приложениях точной медицины:

Недавние разработки в области высокопроизводительных технологий ускорили накопление огромных объемов данных omics из нескольких источников: генома, эпигенома, транскриптома, протеома, метаболома и т. Д. Традиционно данные из каждого источника (например, генома) анализируются изолированно с использованием статистических данных. и методы машинного обучения. Интегративный анализ многопрофильных и клинических данных является ключом к новым биомедицинским открытиям и достижениям в области точной медицины. [8]

Термин омикс, использованный в приведенной выше цитате, представляет [целостную] ситуацию и требование. Медицинское определение таково: Анализ больших объемов данных, представляющих весь набор какого-либо вида, особенно весь набор молекул, таких как белки, липиды или метаболиты, в клетке, органе или организме [9] .

Когда я пишу это (февраль 2020 г.), команда только что разработала (за несколько недель) машинное обучение для диагностики коронавируса с помощью компьютерной томографии легких, а затем для поиска признаков пневмонии, вызванной коронавирусом. После первоначального [положительного] сканирования врачи проводят другие обследования и лабораторные тесты, чтобы подтвердить диагноз болезни. Система была развернута в 34 больницах Китая и использовалась для рассмотрения более 32 000 случаев [10]. Другая группа ученых из Вустерского политехнического института быстро (за несколько недель) нанесла на карту трехмерное изображение для таргетной терапии [11]. И многие другие группы работают и сотрудничают с этой болезнью.

Медицинский диагноз очень чувствителен к ложным отрицательным результатам (например, рак присутствует, но не диагностирован) и ложноположительным результатам (например, рак отсутствует, но диагностирован как таковой). Корректировки алгоритма для исправления условий недостаточной и избыточной подгонки могут улучшить характеристики модели для этих условий. Второй вариант - это поиск функций, которые можно выбрать или спроектировать, чтобы сделать алгоритм более всеобъемлющим.

Пример 2. Прогнозы футбольных матчей НФЛ

Мы сделали примерный сквозной проект машинного обучения по прогнозированию игр НФЛ на сезон 2019 года [12]. В этом проекте Интернет собирался для ключевой статистики, такой как рейтинг защитников, и использовался непосредственно в качестве функций. Эти данные служили алгоритму, который делал еженедельные прогнозы для 16 или около того игр.

Для творчества мы разработали некоторые функции, например «импульс». Как определить и измерить импульс? В этом примере импульс был определен как процент побед по сравнению с прогнозируемым процентом побед в предыдущих пяти играх. Еще одна разработанная функция была получена из списка 100 лучших игроков по рангам за предыдущий год. Мы также еженедельно корректировали эти данные с учетом смены команд и травм. Влияние этой особенности Top 100 было в некоторой степени минимальным. Разделение функции на две функции (25 лучших игроков и 75 других игроков) имело существенное значение. В конце концов, мы просто сохранили функцию 25 лучших игроков («правила игры») и отказались от функции 75 игроков.

Пример 3. ДНК и персонализированная медицина

В настоящее время ведется работа по машинному обучению и ДНК; например, перевод данных о пациентах в успешные методы лечения (точная медицина) [13], [14]. Данные о пациентах получены из генома из 3 миллиардов оснований (A, C, G, T) в ДНК. Например, ген TP53, который присутствует во многих типах рака, имеет длину более 1000 оснований и используется как признак в этих моделях. Ученые также выясняют геометрию и топологию цепочек ДНК (расслабленные или плотные или где-то посередине), а также геометрию клеток, белков и других факторов, влияющих на поведение клеток. Например, плотно упакованные клетки могут помочь объяснить, почему некоторые раковые опухоли остаются на месте, а другие отламываются и распространяются по телу [15]. Классификация геометрии и топологии по функциям может стать важной в машинном обучении для точной медицины:

Большинство крупномасштабных исследований сосредоточено только на одном конкретном аспекте биологической системы; например, полногеномные ассоциативные исследования (GWAS) сосредоточены на генетических вариантах, связанных с измеренными фенотипами. Однако сложные биологические явления могут включать множество биологических аспектов, как внутренних, так и внешних, и, таким образом, не могут быть полностью объяснены с использованием одного типа данных. По этой причине комплексный анализ различных типов данных привлекает все большее внимание [16].

На рисунке 2 представлена ​​иллюстрация структуры ДНК и потенциальных геометрических особенностей. Дополнительные знания в предметной области и экспериментальное моделирование могут определить эффективность таких функций и при каких обстоятельствах. Машинное обучение с расширенной трехмерной геометрией и функциями топологии может оказаться полезным в определении модульного и клеточного поведения для целевых методов лечения, вирусов, редактирования генов и точных лекарств.

Пример 4. Данные датчиков для [математических объектов] функций

На рисунке 3 представлены образцы данных датчиков, контролирующих неврологические состояния. Данные датчика являются цифровыми, но очень похожи на аналоговые, поскольку считывались сотни считываний в секунду. На основе этих датчиков были созданы математические объекты для классификации различных реакций в разное время в виде функций, как показано на рисунке 3. Эти функции были объединены с другими функциями модели машинного обучения.

Этот тип функционального инженера может применяться в случае аналоговых данных или данных датчиков из приложений 5G или IoT. В идеале желательно преобразование данных датчиков в математические объекты на периферии (близко к источнику), и программируемые микросхемы и периферийные технологии станут более доминирующими в приложениях машинного обучения, связанных с 5G и IoT (75 миллиардов устройств к 2025 году) »[17 ] ».

Разработка функций - как измерить успех

Как узнать, завершен ли набор функций или требуются дополнительные инженерные или творческие усилия? В примере с NFL точность прогноза существенно варьировалась от недели к неделе в модели обучения. Исследование этой вариации выявило особые причины вариаций (неслучайных), которые были хорошей возможностью для изучения возможностей, которые могли бы компенсировать (например, мы изменили функцию, чтобы учесть травмированных и отстраненных игроков). Итак, один из методов - посмотреть на производительность обучающих данных - не только на точность, но и на распределение и особые причины вариаций. Если общая точность не соответствует ожиданиям, могут помочь дополнительные функции.

Можно также посмотреть на ложноотрицательные и ложные срабатывания; особенно, если чувствительность критична, как в большинстве медицинских моделей. Может помочь настройка алгоритма на недостаточную и чрезмерную подгонку. Дополнительные функции также могут улучшить модель.

Миллионы миль тратятся на обучение и тестирование автономных транспортных средств. Тем не менее, неприятные гипотетические вопросы остаются. Усовершенствованные системы виртуальной и дополненной реальности (для моделирования и т. Д.) Могут улучшить измерения; например, повышение точности, стоимости, скорости и полноты измерения, а также создание и разрешение гипотетического.

Этические и юридические вопросы при проектировании функций

Разработка функций может вызвать предвзятость (которая влияет на производительность, но также может привести к этическим и юридическим проблемам). Например, исключение определенных функций (преднамеренное или непреднамеренное) может повлиять на модель. Некоторые предубеждения могут быть этическими, а некоторые - просто связанными с производительностью. Например, в прогнозах НФЛ оставление рейтинга оборонительной команды или другие переменные могут повлиять на прогноз для команды, которая сильна в защите. Это скорее вопрос производительности, чем этический; это действительно иллюстрирует, как предвзятость вступает в игру при выборе функций. Если заявка связана с одобрением ссуды или наймом лица, предвзятость может иметь последствия для производительности, этические и юридические последствия.

В случае распознавания лиц, популярной этической темы, при отборе данных для обучения и тестирования могут возникать предубеждения. То есть правильно ли входные данные представляют моделируемую популяцию? Предубеждения также могут быть внесены путем выбора функций. Например, предположим, что модель создана и точность обучения (или тестирования) составляет 90%. На первый взгляд 90% могут выглядеть хорошо, но это средний показатель. Предположим, что для одной национальности точность составляет 85%, а для другой - 95%. Дополнительные функции могут помочь решить этот тип проблемы. Необходимо тщательно изучить результаты.

Если автономное транспортное средство обнаруживает близлежащий автомобиль, но не обнаруживает и не реагирует на его движение (пьяный водитель), как человек, вероятно, возникнет определенная ответственность за серьезное столкновение. «Плетение» может быть спроектированной функцией и может иметь диапазон значений и соответствующих действий.

Вопросы этики, права и ответственности станут доминирующими во многих аспектах распознавания лиц, конфиденциальности, финансовых технологий, медицины и автономных приложений.

Заключение

Что касается искусственного интеллекта: Побеждает не тот, у кого лучший алгоритм. Это тот, у кого больше всего данных ". «[18] И разработка функций - это оптимальное использование этих данных. Являются ли характеристики комплексными (например, плетение ближайшей машины)? Предвзята ли модель (распознавание лиц)? Правильно ли представлены контекст и население (с медицинской точки зрения)? Развивающиеся приложения, включающие трехмерную геометрию, аналоговые данные, данные датчиков, данные IoT и их комбинации, также потребуют прогресса в проектировании функций.

С 5G, IoT и 75 миллиардами устройств рост данных будет измеряться кратными, а не процентными показателями. Подумайте только о количестве данных о полете одного дрона. Эти данные окажут огромное давление на разработку функций - способность фильтровать, сокращать и оптимизировать значение и использование данных. Можно предположить, что функциональный инженер станет отдельной дисциплиной или отраслью науки о данных.

Технологии и возможности настолько захватывающие. Так много всего передается или может быть передано между приложениями и отраслями. Представьте, как 3D-маркировка, используемая в автопилоте с автономным вождением [19], может быть использована в дронах, роботах, дополненной реальности и, возможно, для картирования человеческого тела на различных уровнях.

Разработка функций может быть искусством и наукой, требующей инженерных знаний и специальных знаний в предметной области; будь то футбол, биология, медицина, финансы, окружающая среда или бизнес. Разработка функций влияет на производительность, этику и даже юридические аспекты приложений машинного обучения. Но, что наиболее важно, разработка функций влияет на будущее и улучшение приложений машинного обучения и искусственного интеллекта.

[1] Хорвиц, Л. (19 июля 2019 г.). Мини-гид будущего Интернета вещей: быстрорастущий рынок Интернета вещей продолжает развиваться Cisco. Источник: https://www.cisco.com/c/en/us/solutions/internet-of-things/future-of-iot.html

[2] Что такое Feature Engineering?. Элитная наука о данных. Получено 10 февраля 2020 г. с: https://elitedatascience.com/feature-engineering.

[3] Шехар А. (14 февраля 2018 г.). Что такое разработка функций для машинного обучения? Medium.com. Получено 10 февраля 2020 г. из: https://medium.com/mindorks/what-is-feature-engineering-for-machine-learning-d8ba3158d97a.

[4] Нг, Эндрю. Машинное обучение и искусственный интеллект с помощью моделирования мозга. Стэндфордский Университет. Https://ai.stanford.edu/~ang/slides/DeepLearning-Mar2013.pptx

[5] Дж. Сандерс (4 ноября 2019 г.). Почему 5G - важная технология для автономных транспортных средств. ZDNet. Получено с: https://www.zdnet.com/article/why-5g-is-a-crucial-technology-for-autonomous-vehicles/

[6] Анализ главных компонентов (PCA).

[7] Чан, С., & Сигель, Э. Л. (2019). Сможет ли машинное обучение положить конец жизнеспособности радиологии как процветающей медицинской специальности? Британский радиологический журнал, 92 (1094), 20180416. https://doi.org/10.1259/bjr.20180416 Получено с: https://www.ncbi.nlm.nih.gov/pmc/articles/ PMC6404816 /

[8] Мирза, Билал и др. Машинное обучение и интегральный анализ больших биомедицинских данных. Гены об. 10,2 87. 28 января 2019 г., DOI: 10.3390 / genes10020087. Взято из: Mirza, Bilal et al. Машинное обучение и интегральный анализ больших биомедицинских данных. Гены об. 10,2 87. 28 января 2019 г., DOI: 10.3390 / genes10020087

[9] Омикс. Медицинский словарь. Источник: https://medical-dictionary.thefreedictionary.com/omics

[10] Симонит Т. (26 февраля 2020 г.). Китайские больницы используют искусственный интеллект для диагностики Covid-19. Проводной. Источник: https://www.wired.com/story/chinese-hospitals-deploy-ai-help-diagnose-covid-19/

[11] Вустерский политехнический институт. (10 февраля 2020 г.). Исследователь WPI поделился трехмерной дорожной картой коронавируса с учеными всего мира. Источник: https://www.wpi.edu/news/wpi-researcher-shares-3d-roadmap-coronavirus-scientists-worldwide

[12] Эрнст Р. (9 февраля 2020 г.). Прогнозы NFL - от модели машинного обучения до прогнозов. Получено с: https://medium.com/@raymond.ernst/c789d18cf800?source=friends_link&sk=45398303f1cf50a4fd58d0ae73eb4dfe

[13] Трей Идекер. 02 февраля 2020 г. Модели искусственного интеллекта рака для точной диагностики и лечения. Профессор кафедры медицины Калифорнийского университета в Сан-Диего, презентация научного центра флота в Сан-Диего.

[14] Невозможно переоценить важность возможностей больших данных для развития точной медицины. Получено 10 февраля 2020 г. из: https://precisionhealth.umsystem.edu/research/features/big-data.html

[15] Попкин Г. 16 августа 2016. Застрявшие клетки раскрывают физику рака. Журнал Quanta. Получено с: https://www.quantamagazine.org/jammed-cells-expose-the-physics-of-cancer-20160816

[16] Сюй К., Джексон С.А. Машинное обучение и сложные биологические данные. Genome Biol 20, 76 (2019). Https://doi.org/10.1186/s13059-019-1689-0.

[17] Хорвиц, там же.

[18] Нг, Эндрю. Машинное обучение и искусственный интеллект с помощью моделирования мозга. Стэндфордский Университет. Https://ai.stanford.edu/~ang/slides/DeepLearning-Mar2013.pptx

[19] Р. Суба (4 марта 2020 г.). Маркировка Tesla 3D - это следующий большой шаг для автопилота. Тесларати. Источник: https://www.teslarati.com/tesla-3d-labeling-autopilot-reliability-big-leap/