Привет, меня зовут Ан, и в настоящее время я прохожу курс «Влияние ИИ на общество» в Вентвортском технологическом институте. В основном мы читаем книгу The Master Algorithm, написанную Педро Домингосом, и в книге он делает интересное предположение о том, как машинное обучение может помочь найти лекарство от рака.

Чтобы понять, как машинное обучение может найти лекарство от рака, нам нужно понять, как машина «обучается». Большая часть предпосылок книги Педро посвящена изучению различных типов алгоритмов машинного обучения, когда компьютеры самостоятельно находят решения проблем, делая выводы на основе данных.

Педро разделяет различные способы обучения машин на пять «племен»:

  1. Символисты: рассматривают обучение как обратную сторону дедукции и берут идеи из философии, психологии и логики.
  2. Коннекционисты: обратное проектирование мозга, вдохновленное нейробиологией и физикой
  3. Эволюционисты: Моделируйте эволюцию на компьютере и опирайтесь на генетику и эволюционную биологию.
  4. Байесовцы: верят, что обучение является формой вероятностного вывода и уходит своими корнями в статистику.
  5. Аналогизаторы: учитесь, экстраполируя суждения о сходстве и под влиянием психологии и математической оптимизации.

Основное племя, на котором мы сосредоточимся, — это символисты.

Как отмечалось в главе 3 «Мастер-алгоритма», одной из самых больших проблем в машинном обучении сейчас является выяснение того, что делать в случаях, когда машина/мы раньше не видели. Например, если есть 2 пациента с одинаковыми симптомами, то можно предположить, что диагнозы одинаковые. Однако, если один из симптомов пациента не соответствует ни одному другому, мы не будем знать, что делать прямо сейчас. Исходя из этого, независимо от того, сколько у вас данных, вероятность того, что новый случай (по которому машина должна принять решение) уже находится в наборе данных, очень мала. Машинное обучение имеет неизбежный элемент азартных игр. Как пишет Педро на странице 65:

«Как и эволюция, машинное обучение не всегда работает правильно; на самом деле ошибки — это правило, а не исключение».

Но это не самое худшее в мире, машина может отбрасывать ошибки и строить на том, что получается правильно.

Один из методов, предложенных Педро для достижения этой цели, заключается в предположении, что все совпадения хороши. Затем исключите все совпадения, у которых нет какого-либо атрибута. Машина повторяет это и выбирает элемент, исключающий худшие совпадения и наименьшее количество хороших. Другой метод заключается в изучении заранее определенного набора правил по одному. После того, как компьютер выучит каждое правило, он может отбросить положительные примеры (или правильные примеры концепции), которые он объясняет. Затем следующее правило пытается учесть как можно больше оставшихся положительных примеров и так далее. Одним из самых забавных примеров этого было то, как Walmart продавал пиво рядом с подгузниками еще в 90-х годах. Один из первых выводов розничной аналитики заключался в том, что если покупатель покупает подгузники, он, скорее всего, купит и пиво. Интерпретация, стоящая за этим, заключается в том, что мама отправляет папу в магазин купить подгузники, а в качестве "компенсации" папа покупает к ним ящик пива.

Проблема с этим подходом «разделяй и властвуй» заключается в том, что машина может в конечном итоге найти бессмысленные правила. Например, машина может вывести наборы правил, которые охватывают только те положительные примеры, которые она видела, и ничего больше. Это приведет к тому, что каждый новый пример будет отрицательным. Другой недостаток — переобучение данных или чрезмерное обобщение на основе небольшого количества данных. (Подобно предположению, что все латиноамериканцы — горничные, основываясь на паре горничных, которых вы видели). Машина должна иметь возможность получать данные, предоставленные людьми или полученные в предыдущих запусках, и использовать их для новых обобщений на основе данных. Конечно, описанная выше техника не может этого сделать, но Педро предлагает другой способ изучения правил, который может.

Помните, как символисты рассматривают обучение как противоположность дедукции? (он же индукция)

Дедуктивное рассуждение: Процесс рассуждения на основе одного или нескольких утверждений (предпосылок) для достижения логически достоверного вывода.

Индуктивное рассуждение: процесс рассуждения, в котором предпосылки рассматриваются как свидетельство истинности вывода.

Индукция правил включает в себя извлечение правил из набора наблюдений. Например, Педро использует его, используя индукцию, чтобы предсказать, будут ли новые лекарства иметь вредные последствия. Обобщая известные токсичные молекулярные структуры, машины могут формировать правила, которые быстро отсеивают многие многообещающие соединения, что может помочь ускорить процесс разработки новых лекарств. Это может привести ко многим победам в биологии, как утверждает Педро:

«В более общем плане обратная дедукция — отличный способ открыть для себя новые знания в биологии, и сделать это — первый шаг к излечению от рака».

Что касается разработки лекарства от рака, нам нужно научиться останавливать размножение плохих клеток, не нанося вреда хорошим. (В отличие от химиотерапии, которая воздействует на все клетки без разбора)

Ключом к этому является использование секвенирования генома клетки, которое мы можем использовать, чтобы предсказать, какие лекарства будут работать против какого генома рака. Педро предполагает, что мы можем использовать это вместе с индукцией, чтобы найти лекарство от рака каждого отдельного пациента.

  1. Соберите базу данных пациентов, геномов их рака, уже опробованных лекарств и результатов.
  2. Машинное обучение использует индукцию для изучения правил со сложными условиями, включая геномы рака, геномы пациента и историю болезни. (Следует отметить, что большинство видов рака связаны с комбинацией мутаций или могут быть вылечены только лекарствами, которые еще не обнаружены.)

В конечном счете, нам нужна модель того, как работает клетка; что позволит моделировать на компьютере эффекты мутаций конкретного пациента, а также эффекты различных комбинаций лекарств (существующих или предполагаемых).

Вот некоторые из инструментов IBM Cloud, которые можно использовать для моделирования этого возможного решения:

  • IBM Watson Studio Cloud и Watson Knowledge (для сбора и запроса данных)
  • IBM Watson Visual Recognition (для классификации изображений)
  • IBM Watson Machine Learning (для реализации алгоритма и его обучения)

Является ли это верным решением для поиска лекарства, есть только один способ узнать.