Мнение

Лучшие инструменты для анализа данных

что вы можете выучить за 1 день или быстрее

Оглавление

  1. Вступление
  2. Tableau
  3. PyCaret
  4. SHAP
  5. Резюме
  6. использованная литература

Вступление

Для освоения некоторых инструментов науки о данных могут потребоваться недели или даже годы, что, честно говоря, может оказаться слишком долгим, если вы хотите знать, нравится вам наука о данных или нет. Иногда может быть неприятно тратить так много времени на изучение такого количества сложных инструментов, если вы, например, проходите собеседование на должность в области науки о данных, или если вы работаете в компании, которой требуется определенный инструмент для проекта. Независимо от причины, может быть полезно знать, какие инструменты специалисты по данным могут изучить быстрее. Некоторые из этих инструментов могут предполагать некоторый общий опыт работы с данными, программированием и аналитикой, о чем я расскажу более подробно ниже, но в целом все они более просты в освоении, но при этом остаются полезными. С учетом сказанного, давайте углубимся в три инструмента для анализа данных, которые вы можете изучить за один день или даже быстрее, а также некоторые важные преимущества.

Tableau

Возможно, вы не часто думаете о Tableau [3] в первую очередь, когда думаете о науке о данных, но она довольно популярна во многих компаниях из-за простоты использования. Удивительно, но вы действительно можете выполнить машинное обучение в Tableau.

Если у вас есть необходимые лицензии / разрешения, вы можете легко получить данные с их пользовательским интерфейсом, подключившись к SQL, или с помощью статического файла CSV, что легко выполнить за один день. Другой важный шаг - найти вкладку кластеризации и перетащить поля, чтобы выполнить быстрое неконтролируемое обучение! Помимо алгоритмов кластеризации, вы также можете выполнять некоторые функции прогнозного моделирования.

Вот несколько советов по быстрому изучению Tableau:

  • Получение данных с помощью файла SQL или CSV
  • Отображение полей / столбцов данных
  • Подтверждение типов данных этих полей

Вот некоторые из методов науки о данных, которые вы можете применить в Tableau:

  • Прогнозирование с сезонностью и экспоненциальным сглаживанием
  • Аддитивное или мультипликативное прогнозирование
  • Функции прогнозного моделирования (процентиль / вероятность)
  • К-средство кластеризации

Как видите, в программном обеспечении Tableau есть несколько вариантов приложений для обработки данных. Tableau используется аналитиками данных, заинтересованными сторонами, менеджерами по продуктам и, да, даже специалистами по обработке данных. Поскольку он используется очень многими разными типами людей, он был сделан удобным для пользователя, и часть науки о данных не является ожидаемой. Другое главное преимущество заключается в том, что вы можете легко делиться своим моделированием с другими, что значительно упрощает совместную работу между различными отделами.

PyCaret

Следующий инструмент, PyCaret [5], немного сложнее, но если вы уже разбираетесь в простом программировании на Python, что обычно является предпосылкой для специалистов по данным, то использование этого инструмента может помочь вам использовать множество моделей с помощью всего лишь нескольких строки кода.

Вы можете просто импортировать эту библиотеку в свой Jupyter Notebook и быстро сравнить несколько алгоритмов машинного обучения бок о бок в красивом пользовательском интерфейсе.

Вот простое пошаговое руководство практически по всему коду, необходимому для использования этого простого инструмента анализа данных.

# import libraries
from pycaret.regression import *
import pandas as pd
# read in your data
df = pd.read_csv(‘file location of your data on your computer.csv’)
# setup your regression parameters
regression = setup(data = df, 
 target = 'what you are trying to predict’,
 session_id = 200, 
 )
# compare models
compare_models()
# create a model
dectrees = create_model('dt')
# predict on test set
predictions = predict_model(dectrees)
# interpreting model
interpret_model(dectrees)

В целом, вы можете увидеть, что с помощью нескольких строк кода вы можете выполнить следующее (и многое другое):

  • Сравните несколько алгоритмов машинного обучения
  • Создайте модель с вашими данными
  • Прогноз по набору тестовых данных
  • Интерпретируйте важные функции с помощью SHAP

Если у вас есть основы, вы сможете по-настоящему использовать этот инструмент всего за несколько минут, а не за один день.

SHAP

Этот последний инструмент, SHAP [7], был разработан, чтобы немного облегчить вашу работу с данными, а также возвращать красивую визуализацию важности ваших функций из вашей модели. Здесь предполагается, что вы уже знаете, как строить модели, и что вы слишком хорошо привыкли к сложным графикам важности функций, которые более или менее самоделки.

Этот инструмент легкий, простой и включает в себя множество способов посмотреть, как ваши особенности влияют на вашу модель.

Вот несколько способов интерпретации ваших функций с помощью графиков SHAP:

  • Водопад (отталкивание модели от базового значения)
  • Определенная строка (просмотр определенной прогнозируемой строки)
  • Прогнозы всех обучающих наборов
  • Диаграмма рассеяния одного объекта в наборе данных
  • Полное резюме
  • … И даже НЛП и графики изображений

В целом, SHAP - отличный способ визуализировать особенности вашей модели.

Резюме

Хотя есть некоторые инструменты, для изучения которых может потребоваться довольно много времени, например, программирование на Python, есть некоторые, которые можно изучить за несколько часов или за один день. Некоторые из них требуют некоторых базовых знаний, но для специалистов по данным эти инструменты должны быть проще и легче для освоения, чем некоторые другие.

Подводя итог, вот три лучших инструмента для анализа данных, которые вы можете изучить за один день или быстрее:

* Tableau
* PyCaret
* SHAP

Надеюсь, моя статья была вам интересна и полезна. Не стесняйтесь оставлять комментарии ниже, если вы согласны или не согласны с этими более эффективными инструментами анализа данных. Почему или почему нет? Какие еще инструменты, по вашему мнению, важно указать в отношении более быстрого или более длительного обучения? Конечно, их можно прояснить еще больше, но я надеюсь, что смог пролить свет на некоторые важные инструменты, которые вы можете изучить за один день для специалистов по данным.

Спасибо за чтение!

Я не связан ни с одной из этих компаний.

Не стесняйтесь проверить мой профиль, Matt Przybyla, и другие статьи, а также подписаться на получение уведомлений по электронной почте для моих блогов, перейдя по ссылке ниже, или нажав на значок подписки вверху экрана рядом со значком подписки, и свяжитесь со мной в LinkedIn, если у вас есть какие-либо вопросы или комментарии.

Ссылка для подписки: https://datascience2.medium.com/subscribe

использованная литература

[1] Фотография Julian Hochgesang на Unsplash, (2020)

[2] Фото Айзека Смита на Unsplash, (2018)

[3] ТАБЛАУ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ, ООО, ТОРГОВАЯ КОМПАНИЯ, Домашняя страница Tableau, (2003–2021)

[4] M.Przybyla, Сравнение моделей со скриншотом PyCaret, (2021)

[5] Моэз Али, Домашняя страница PyCaret, (2021 г.)

[6] М.Прибыла, Пример снимка экрана с графиком интерпретации SHAP, (2021 г.)

[7] Скотт Лундберг, SHAP, Документация SHAP, (2018)