Наш пакет в прямом эфире! Познакомьтесь с черепахой, отправной точкой для создания моделей машинного обучения в Python.

Машинное обучение на Python стало проще в одном простом пакете, посмотрите исходный код здесь.

Начать создавать модели машинного обучения с помощью Python, безусловно, может быть сложно из-за бесконечных возможностей, которые предлагает этот инструмент с открытым исходным кодом. Поэтому мы создали пакет Python, который помогает (младшим) аналитикам данных и ученым пройти все этапы создания моделей машинного обучения с помощью простых в использовании функций.

Чего ожидать от этого пакета

Пакет состоит из трех классов (объединение данных и функций), основанных на модели CRISP-DM (межотраслевой стандартный процесс интеллектуального анализа данных). Эти

  1. Загрузка и понимание данных
  2. Предварительная обработка данных
  3. Модель обучения

Для каждого класса мы написали функции, которые, по нашему мнению, имеют решающее значение для правильного выполнения этого этапа моделирования данных. На данный момент пакет поддерживает только построение моделей классификации. Тем не менее, у нас открытый исходный код, поэтому не стесняйтесь помогать нам с добавлением других типов алгоритмов! Кроме того, четвертый класс, содержащий функциональные возможности для оценки модели, все еще находится в нашем списке пожеланий, так что не стесняйтесь помочь нам и в этом.

Теперь, когда применение алгоритмов становится все более распространенным в организациях, трансформируется и роль специалистов по данным. Больше внимания часто уделяется добавленной стоимости модели, а не обязательно пониманию мельчайших деталей того, почему модель так хороша в прогнозировании. Учитывая огромные объемы данных, которые алгоритм может обрабатывать, люди, возможно, даже больше не смогут понять детали. Хитрость заключается в том, чтобы сосредоточиться на точности, не теряя при этом объяснимости или возможности запустить ее в производство.

Таким образом, если специалисты по данным раньше были экспертами в статистике, то в настоящее время добавленная стоимость модели становится все более важной. И именно поэтому мы хотим помочь аналитикам с помощью этого пакета: чтобы иметь возможность повысить ценность для клиентов и их организации с минимальными усилиями.

Начиная

Для начала мы рекомендуем начать с нашего GitLab Repository. Для получения дополнительной информации об установке пакета начните с README. Для получения дополнительной информации по работе с пакетом мы создали Учебник, который должен познакомить вас с функциями пакета за 10 минут.

Почему мы сделали этот пакет

В прошлом году наш бывший коллега Йерун написал статью, в которой сравниваются различные инструменты статистического анализа. Он пришел к выводу, что инструменты с открытым исходным кодом, а не коммерческие инструменты, — это путь. Сила этих инструментов в том, что сообщества, стоящие за ними, обеспечивают непрерывную разработку, что делает их более мощными, инновационными и полезными, чем существующие коммерческие инструменты. Кроме того, многие коммерческие компании теперь интегрируют в свои инструменты возможность использования языков с открытым исходным кодом. К настоящему времени мы наблюдаем, что использование Python становится все более и более распространенной практикой в ​​организациях. Заглядывая в ближайшее будущее, осмелимся заявить, что каждый специалист по данным должен знать хотя бы R или Python.

Растущее сообщество также влечет за собой растущее количество пакетов, которые могут быть громоздкими для начинающего специалиста по данным; когда начать? Ваша основная цель как Data Scientist — повысить ценность ваших клиентов и организации, поэтому руководство по выполнению определенного алгоритма в наборе данных Titanic не подойдет. Поэтому мы решили создать пакет, который можно использовать в качестве отправной точки для построения модели. Его внимание сосредоточено не только на алгоритмах, но и на всем процессе, который начинается с определения того, где добавить ценность!

Более того, отделы науки о данных или аналитики становятся все более важными в организациях. Учитывая, что аналитики данных или ученые из разных команд могут работать над схожими задачами, используя одни и те же данные, возникает потребность в согласованности и эффективности разных моделей. Поэтому удобно иметь всю логику модели, интегрированную в один пакет. Таким образом, все аналитики данных могут полагаться на одно и то же правило, а это означает, что модели становятся менее зависимыми от человека, который их изначально построил. Итак, если вас смущает бесконечное количество доступных пакетов или вы не хотите самостоятельно создавать пакет Python для своей организации, мы настоятельно рекомендуем использовать наш!

И, очевидно, как большие поклонники Python, было бы лицемерием отстаивать силу сообществ, стоящих за ним, если бы мы только бесплатно пользовались усилиями других.

Хотите окунуться в воду? Помимо создания этого пакета, мы преподаем курсы PythonR) для аналитиков данных или ученых, которые стремятся научиться работать с данными и строить модели в Python или R.

Хотите узнать больше о крутых вещах, которые мы делаем в Cmotions и The Analytics Lab? Загляните в наши блоги, проекты и видео!