Как Data Scientist выбирает алгоритмы машинного обучения?

Как-то остроумный философ сказал, что «за каждым нашим решением стоит причина».

Большинство из нас может столкнуться с таким сценарием. В процессе обучения мы можем столкнуться с различными алгоритмами машинного обучения, и в конечном итоге возникнет внутренний монолог, который задает нам вопросы. Когда использовать эти алгоритмы машинного обучения? Это какая-то причина позади них? Большинство из нас, очевидно, застряли на этом вопросе, и я тоже. Я бы потратил некоторое время, чтобы получить точный ответ на эти вопросы. Через некоторое время мне удалось получить точный ответ на этот вопрос, и я делюсь этими ответами.

1. На основе бизнес-перспективы.

Бизнес-потребности являются одним из типичных факторов, влияющих на принятие решений специалистами по данным при выборе наиболее подходящей модели машинного обучения для проблемы, которую им нужно решить. Это также зависит от сложности проблемы. Мы обсудим эту тему на следующих бизнес-примерах.

Пример №1. XYZ — это интернет-агентство по недвижимости. Они планируют запустить услугу прогнозирования цен на жилье для своих премиальных клиентов. Поэтому они обратились в компанию ADCData Science Consulting и попросили создать для них решение. Здесь сложность задачи очень низкая. В этом случае мы можем выбрать любой из более простых алгоритмов, таких как линейная регрессия, логистическая регрессия, дерево решений и вскоре для моделирования. И это будет наиболее подходящая модель для решения проблемы. В случае, если мы использовали сложные алгоритмы для этой проблемы, в результате модель станет переобученной. Нет смысла их использовать. С точки зрения XYZ им необходимо знать, как была построена модель и как она работает. Поэтому ADC должен построить более простую модель, которая действительно интерпретируется по своей природе.

Пример №2: PQRS – это новостное приложение, которое показывает своим пользователям персонализированную новостную ленту. Для этого у них есть собственная команда Data Science для решения бизнес-проблем. В этом случае сложность задачи несколько высока. Таким образом, лучший вариант, доступный с нашей стороны, — это какое-то сложное моделирование, такое как глубокое обучение, нейронные сети и т. Д. Эти алгоритмы отлично подходят для таких сложных задач. В случае, если мы решим использовать более простые алгоритмы для этой бизнес-задачи, следствием этого будет то, что модель станет неподходящей. И нет смысла их использовать. Здесь точка зрения PQRS в основном сосредоточена на решении бизнес-проблем. Команде Data Science необходимо построить сложную модель, способную решить такую сложную бизнес-задачу. Интерпретируемый характер модели в этом случае не обязательно нужен.

Вывод: «Сложность обратно пропорциональна взаимозаменяемости»

2. На основе данных

Данные сами по себе являются важнейшей частью науки о данных. Это также влияет на фактор принятия решения для специалиста по данным, чтобы принять решение о выборе наиболее подходящей модели машинного обучения для бизнес-проблемы, которую им необходимо решить. Природа входной и выходной переменных также определяет наиболее подходящую модель машинного обучения.

Природа входной переменной.На основе входной переменной мы можем дополнительно классифицировать алгоритмы машинного обучения по трем категориям на основе следующих критериев.

Если входные переменные помечены — используются алгоритмы модели обучения с учителем
Если входные переменные не помечены с намерением найти структуру данных — используются алгоритмы модели обучения без учителя
Если модель предназначена для обучения в интерактивной среде методом проб и ошибок с использованием отзывов о собственных действиях — используются алгоритмы обучения с подкреплением.

Природа выходной переменной.На основе выходной переменной мы можем далее классифицировать алгоритмы машинного обучения по трем категориям на основе следующих критериев.

1.Числовое/непрерывное значение в качестве выходных данных — моделирование на основе регрессии

2.Категорное/дискретное значение в качестве вывода — Моделирование на основе классификации

3.Если выходные значения заданы входными группами — Моделирование на основе кластеризации

Выражение: «Лицо — это показатель разума, а данные — это показатель ценных идей». Поэтому лучше постарайтесь погрузиться в данные и найти наиболее подходящую модель машинного обучения.

Как Data Scientist выбирает алгоритмы машинного обучения?

1. На основе бизнес-перспективы.

2. На основе данных

Вопросы по теме