В первой части этой серии я представил обзор платформы интеллектуального анализа данных Orange, которая фокусируется на обучении науке о данных. Во второй части я сосредоточусь на некоторых уникальных образовательных функциях Orange, которые могут оказаться полезными для пользователей. Большинство этих функций не обсуждаются ни на сайте Orange, ни в видео на YouTube.

1. Разверните показатели эффективности модели. Для классификации в виджете теста и оценки вам предоставляются AUC, точность классификации (CA), оценка F1, полнота (чувствительность) и точность. Щелкните правой кнопкой мыши «Модель», и вы сможете добавить время обучения и тестирования, специфичность и LogLoss (насколько близки прогнозы к фактическим результатам).

2. Обмен информацией

а. Ваш рабочий процесс Orange можно сохранить в виде файла .ows в Документах для использования в будущем или для совместного использования с другими учащимися или коллегами. Перейдите в Файл ›› Сохранить.

б. Виджет сохранения данных сохранит ваши данные после внесения изменений, так что теперь у вас есть новый CSV-файл для работы. Например, возможно, вы отфильтровали всех пациентов мужского пола и хотите сохранить файл только с женщинами.

в. Чтобы сохранить графики, перейдите в левый нижний угол открытого виджета и выберите «сохранить изображение». Теперь его можно сохранить в формате .png, .svg или PDF. В этой же области можно сохранить график с примечаниями при выборе «Отчет», а также распечатать его. См. следующий снимок экрана, показывающий параметр отчета.

3. Максимально используйте виджет таблицы данных. Этот виджет похож на простую электронную таблицу, поэтому вы можете просматривать данные в табличном формате. Он сообщает вам количество столбцов и строк, а также наличие каких-либо недостающих данных и наличие целевых значений. Важно добавлять этот виджет каждый раз, когда вы изменяете или преобразуете свои данные, чтобы подтвердить, что изменение произошло. Вы можете отсортировать данные, нажав на заголовок. На изображении ниже я щелкнул по возрасту, и это отсортировало столбец в порядке возрастания. Затем я выделил первую строку и с помощью клавиши Shift выбрал всех пациентов в возрасте до 40 лет. Теперь вы можете подключить эту таблицу данных с 15 выделенными пациентами к другой таблице данных или к виджетам визуализации для дальнейшего анализа. Синий цвет внизу указывает на то, что были выбраны первые 15 строк.

Я подключил этот виджет таблицы данных к виджету блочной диаграммы, который также генерирует гистограммы, и вы можете видеть, что у 11 из этих пациентов был нормальный тест на таллий, тогда как у 4 был обратимый дефект.

4. Выберите и соедините. В предыдущем разделе я указал, что вы можете выделить данные в таблице данных для дальнейшего изучения. Вы можете сделать то же самое с несколькими другими виджетами — выделить раздел или точку данных и подключить их к таблице данных только с выбранными вами данными. Вы можете выбрать узел в дереве решений, любую категорию в матрице путаницы, точку данных на точечной диаграмме, категорию на ящичной диаграмме или гистограмме или часть мозаичного графика. На скриншоте ниже я выделил 23 ложноотрицательных пациента в матрице путаницы, чтобы я мог проанализировать их отдельно. Я свяжу это с таблицей данных, которая будет отображать только 23 пациента.

5. Виджет выбора строк. Если бы вы могли выбрать определенные строки набора данных, это означало бы, что вы можете фильтровать данные. В приведенном ниже примере я выбрал женщин, у которых был обратимый дефект при стресс-тесте с таллием, но у них была нормальная катетеризация сердца. Выявлено всего 2 больных. При смене пола было идентифицировано 23 самца. Виджет выбора строк теперь можно подключить к таблице данных или виджету визуализации для дальнейшего анализа. Кроме того, вы можете подключить этот виджет к двум таблицам данных и щелкнуть правой кнопкой мыши соединители, чтобы убедиться, что в одном указаны совпадающие данные, а в другом — несовпадающие данные. Таким образом, в одной таблице данных будут две женщины, а в другой таблице данных — все остальные.

6. Обширная библиотека алгоритмов. В части 1 я показывал таблицу с алгоритмами, доступными в Orange. Большинство из них говорят сами за себя, но позвольте мне выделить два, которые менее известны. Постоянный виджет — это базовый алгоритм, который основывает свое предсказание исключительно на частоте. Допустим, у нас есть 5% пациентов с раком и 95% без рака. Постоянный виджет покажет точность 95% просто на основе класса большинства. Это пример дисбаланса классов, когда пациентов без рака намного больше, чем больных раком. Это создает множество проблем, которые мы не будем рассматривать в этой серии, но достаточно сказать, что любой тестируемый вами алгоритм должен быть лучше, чем этот базовый результат в 95%. Происходит то, что алгоритм машинного обучения обучается на большинстве пациентов «без рака».

Алгоритм стекирования объединяет несколько алгоритмов для повышения производительности, и это создает ансамбль. Другими примерами ансамблей являются случайный лес и деревья с повышением градиента, в которых несколько деревьев объединяются для повышения производительности. На снимке экрана ниже виджет суммирования используется для объединения преимуществ логистической регрессии, случайного леса и наивного байесовского метода для повышения производительности. Фактически, показатели AUC и F1 действительно улучшились по сравнению с одной только логистической регрессией.

7. Добавить веса миноритарному классу. Как указывалось в предыдущем разделе, несбалансированные наборы данных являются обычным явлением и представляют собой проблему, когда класс интересов меньшинства, такой как мошенничество, значительно превосходит по численности класс большинства, не связанный с мошенничеством. Одно простое решение в Orange — придать больший вес классу меньшинства. Это можно сделать в виджетах логистической регрессии и случайного леса, открыв виджет и установив флажок «распределение балансового класса». Это улучшит производительность модели классификации.

8. Позвольте Orange помочь вам визуализировать данные. В виджете точечной диаграммы есть кнопка «Найти проекции информатики», поэтому вместо того, чтобы вручную вводить несколько комбинаций для осей x и y, эта функция будет подтягивать важные ассоциации. Ниже приведен пример, в котором поиск выявил график разброса возраста и систолического артериального давления. Обратите внимание на рост по мере старения и связанное с ним значение корреляции r.

9. Добавьте номограмму. Orange предоставляет настраиваемую и интерактивную номограмму, которую можно использовать с логистической регрессией и наивным байесовским алгоритмом, чтобы увидеть, как меняются вероятности прогнозирования после изменения предикторов. Подключите виджет файла к логистической регрессии, а последний подключите к виджету Номограмма. Выберите цель = 1. Исходная вероятность по умолчанию составляет 40% для цветных (кальцифицированных коронарных артерий), но если вы сдвинете синий значок вправо до 3 (указывает на 3 кальцинированные артерии), вероятность возрастет до 91%. Самый важный предиктор идет первым, и все они настраиваются.

10. Образовательные сюжеты.

а. Кривая оператора приемника (ROC). Когда вы наводите указатель мыши на точки данных, Orange сообщит вам пороговое значение для этой точки. Помните, что кривая ROC создается путем построения истинно положительного показателя против ложноположительного уровня при нескольких пороговых значениях. Пороговое значение по умолчанию равно 0,5, но его можно увеличить или уменьшить, если вам нужно повысить чувствительность или специфичность. На снимке экрана ниже показаны результаты для разных пороговых значений. При более высоком пороге отзыв (чувствительность) и ложные срабатывания уменьшаются, а специфичность увеличивается. Противоположное верно для более низких порогов.

б. На калибровочном графике есть другие варианты графиков, и, возможно, два наиболее важных из них — это те, которые сравнивают чувствительность со специфичностью и точность с отзывом (чувствительностью). Вертикальный ползунок можно перемещать, чтобы увидеть, что происходит с различными пороговыми значениями. На приведенных ниже снимках экрана показана чувствительность и специфичность, а ниже показана точность и полнота. Перемещение ползунка изменяет результат и является отличным интерактивным инструментом.

Выводы

Это краткий список некоторых наворотов Orange, которые сделают ваше путешествие по науке о данных более продуктивным и приятным. В будущем я буду использовать Orange для решения конкретных задач без необходимости программирования или высшей математики.