Интерпретируемость - горячая тема в науке о данных в этом году. Ранее этой весной я рассказывал на ODSC East о необходимости для специалистов по обработке данных использовать передовые практики, такие как важность на основе перестановок, частичная зависимость и объяснения. Когда я впервые собрал этот доклад, многие специалисты по данным были в новинку. Но год спустя, и теперь я вижу эти идеи во многих сообщениях в блогах и презентациях ODSC, так что же мне делать?

Пришло время переосмыслить мой разговор. Я должен бросить драконов? Не уверен в этом, но сделаю немного меньше внимания важности функций и частичной зависимости. Надеюсь, что к этому моменту все отошли от использования LIME в качестве объяснения. Этой осенью в презентации будет уделено дополнительное время новой доминирующей методологии объяснения, основанной на ценностях Шепли.

Да, Шепли. Я видел много сообщений в блогах, перефразирующих Блокноты Shap Скотта, и останавливался на этом. Моя цель - дать более подробное обсуждение использования ценностей Шепли. В конце концов, знаете ли вы, что вам нужны обе руки, чтобы считать все различные подходы к объяснению Шепли? Хотя многие из вас знакомы с пакетом Shap от Скотта Лундберга, существуют и другие пакеты для R и Python для вычисления значений Шепли для пояснений.

Объяснение из пакета Shap

Пояснение из пакета IML

Так что запланируйте мою сессию, чтобы изучить основы интерпретируемости и немного глубже погрузиться в использование ценностей Шепли. Я рассматриваю различные подходы к вычислению значений Шепли, компромиссы между этими методами и практические соображения. У меня даже будет Дуэйн Джонсон, чтобы помочь объяснить ценности Шепли (ну, на самом деле это всего лишь его скриншот, но это полезно).

Я также покажу различия в объяснителях в нескольких наборах данных. Вот результаты набора контрольных данных, Boston Housing, для верхнего объяснения каждого метода. Вы можете видеть, что некоторые методы слегка отдают предпочтение RM над LSTAT. Давайте поговорим об этих результатах и ​​многих других экстремальных примерах в своем выступлении.

Верхнее пояснение к набору данных о жилищном строительстве Бостона

Если вы хотите узнать больше об этих ценностях Шепли и о том, как их можно использовать для повышения прозрачности подходов к машинному обучению, это занятие для вас.

Примечание редактора: обязательно ознакомьтесь с докладом Раджива на ODSC West с 29 октября по 1 ноября Расшифровка черного ящика: новейшие инструменты и методы интерпретации.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.