Бизнес-аналитика (BI) и машинное обучение (ML) являются одними из лучших технологий, которые решают задачи расширенной аналитики, ориентированные на бизнес. Хотя визуализация бизнес-аналитики связана со сложными вычислениями, у нее есть ограничения по сравнению с машинным обучением на основе Python. Именно здесь на сцену выходит визуализация с помощью ML. Это позволяет вам включать более продвинутую аналитику и алгоритмы машинного обучения в ваши уже мощные визуализации. В этом блоге мы обсудим интеграцию ML с визуализацией данных.

Что такое визуализация данных?

Визуализация данных переводит информацию в визуальный контекст, такой как карта или график, чтобы упростить понимание данных человеческим мозгом и извлечение информации из любых данных.

Основная цель визуализации данных — упростить выявление закономерностей, тенденций и выбросов в больших наборах данных.

Что BI может сделать для бизнеса?

Технологии бизнес-аналитики используют расширенную статистику и прогнозную аналитику, чтобы помочь компаниям делать выводы из анализа данных, выявлять закономерности и прогнозировать будущие события в бизнес-операциях. Отчетность BI не является линейной практикой; скорее, это непрерывный, многогранный цикл доступа к данным, исследования и обмена информацией.

Что ML может сделать для бизнеса?

Машинное обучение может справиться с большими объемами данных, необходимыми предприятиям, чтобы добиться максимальной производительности. Например, алгоритмы машинного обучения могут определить факторы, способствующие и ухудшающие здоровье вашего бренда, анализируя ваши данные со всех сторон. ML уникален, потому что он может быстро идентифицировать отношения, которые могут быть не сразу очевидны или интуитивно понятны людям.

Зачем нам нужно интегрировать ML в инструменты визуализации BI?

  • Программное обеспечение BI предоставляет мощные возможности для очистки, обработки и визуализации данных. В сочетании с технологией машинного обучения это может помочь бизнес-пользователям раскрыть тот уровень информации, который часто упускают из виду даже самые опытные аналитики.
  • Машинное обучение может легко и быстро выполнять задачи, слишком утомительные для человека. Распознавание изображений и речи — самые яркие примеры таких задач. ML добился неплохих результатов в выполнении этих задач после достаточного количества этапов обучения.

Ниже приведены преимущества алгоритма ML в отчетах Business Intelligence после интеграции:

  • Автоматизация задач: машинное обучение может выполнять рутинные задачи, освобождая аналитиков и консультантов для более продуктивной работы.
  • Качество данных: системы машинного обучения могут работать практически без вмешательства человека и, таким образом, могут принимать решения об автоматическом исправлении ошибок и решении проблем.
  • Самообслуживание. Наборы инструментов бизнес-аналитики выйдут на новый уровень самообслуживания, сократив потребность в технических знаниях и предложив более простые способы взаимодействия с данными. Системы смогут учиться на основе предпочтений пользователя и предыдущих действий, предлагая индивидуальный сервис для каждого пользователя.

Интеграция машинного обучения в инструменты BI

Интеграция Python в инструменты бизнес-аналитики — отличная функция, поскольку вы можете показать, что делает ваш код Python и как он подключается к данным в виде визуализаций. С ростом кросс-функциональных команд это прорыв для BI, аналитиков данных и ролей ученых.

Power BI и Tableau являются одними из лучших инструментов визуализации BI, которые решают задачи расширенной аналитики, ориентированные на бизнес.

Здесь мы сосредоточимся на интеграции Tableau Python с бизнес-вариантом использования и его установке в системе.

Tabpy (интеграция с Tableau Python):Tabpy позволяет вам включать более продвинутую аналитику, такую ​​как временные ряды и алгоритмы машинного обучения, в ваши уже мощные визуализации. Это отличная функция, так как вы можете показать, что сделал ваш код Python и как он подключается к данным с помощью визуализаций. Рост межфункциональных команд — это прорыв в области бизнес-аналитики, анализа данных и науки о данных.

Так что же такое Таппи? Это реализация расширения аналитики, которая расширяет возможности Tableau, позволяя пользователям выполнять скрипты Python и сохраненные функции с помощью табличных вычислений Tableau.

Когда вы используете Tabpy? Мы можем определить вычисляемые поля в Python. Мы можем использовать мощь большого количества библиотек машинного обучения прямо с вашей платформы визуализации. Эта интеграция Python с Tableau обеспечивает чрезвычайно мощный сценарий.

Преимущества Таппи

Tabpy использует популярную среду Anaconda, которая предустановлена ​​и готова к использованию многими пакетами Python Pandas, NumPy и Sklearn, но вы можете установить любую библиотеку Python в наш скрипт.

Примеры использования Табпи

TabPy позволяет использовать сценарии Python в полях, вычисляемых с помощью Tableau. Когда вы сочетаете возможности машинного обучения Python с мощью Tableau, вы можете быстро разрабатывать приложения расширенной аналитики, которые могут помочь в различных бизнес-задачах.

Анализ настроений с помощью TabPy

Сегодня бизнес сильно зависит от текстовых данных. Большая часть этих данных представляет собой неструктурированный текст, поступающий из таких источников, как электронные письма, чаты, социальные сети, опросы, статьи и документы. При анализе важно отслеживать такие атрибуты, это может помочь выявить настроения клиентов.
Вместо использования традиционной маркировки мы можем использовать обработку естественного языка из Python. Использование Natural Language Toolkit (NLTK) из Обработка естественного языка (NLP) позволяет компьютерам понимать неструктурированный текст и извлекать значимые фрагменты информации, такие как настроения и мнения.

Предложенное решение

Valence Aware Dictionary and Sentiment Reasoner (Vader) — это пакет с открытым исходным кодом в составе NLTK. Он довольно успешен при работе с текстами в социальных сетях. Он использует комбинацию словаря тональности, представляющего собой список лексических признаков (например, слов), которые обычно обозначаются в соответствии с их семантической ориентацией как положительные или отрицательные. Словарный подход означает, что этот алгоритм создал словарь, который содержит исчерпывающий список характеристик тональности.

VADER в табличном вычисляемом поле

Мы можем создать расчет внешней службы, это называется функцией сценария в таблице. Нам не нужно ничего обучать использованию этой библиотеки, мы создадим список предложений, вот текст комментария, к которому мы применим анализ настроений с помощью метода polarity_scores() из класса SentimentIntensityAnalyzer. Оценка полярности возвращает число с плавающей запятой для силы тональности на основе входного текста в диапазоне от -1 до 1.

Анализ настроений при обзоре продуктов Amazon с использованием Tabpy

С Tabpy мы можем использовать анализ настроений Вейдера для данных обзора продуктов Amazon. Мы используем показатели полярности в тексте комментария, чтобы узнать мнение клиентов о следующем отзыве. Используя фильтры, чтобы увидеть только отрицательные отзывы и просмотреть их содержание, чтобы понять их причины. От машинного обучения мы получаем алгоритм НЛП для анализа настроений, и мы можем раскрасить эти оценки в визуализации Tableau для лучшего понимания.

Установка Анаконды в Windows

Мы используем Anaconda, потому что у нее есть менеджер пакетов, менеджер среды и дистрибутив Python, содержащий множество пакетов с открытым исходным кодом. Это выгодно, например, когда вы работаете над проектом по науке о данных; вы обнаружите, что вам нужно много разных пакетов (NumPy, Sklearn, Pandas), с предустановленной установкой Anaconda.

Перейдите на веб-сайт Anaconda и выберите графический установщик Python 3 (A) или графический установщик Python (B). Если вы не уверены, какую версию Python хотите установить, выберите Python 3. Не выбирайте обе версии.

  • Память: минимальный размер оперативной памяти 16 ГБ ОЗУ.
  • Хранилище: рекомендуемый минимум 100 ГБ.

Установив Anaconda на локальный компьютер, мы можем запускать Jupyter и Spyder для кодирования Python. В меню «Пуск» найдите Anaconda Prompt и откройте его. Выполните следующие команды, чтобы создать виртуальную среду, а затем активируйте ее.

В активированной среде TabPy выполните следующие команды. Вам нужно будет подтвердить процесс для первой команды.

create - - name virtualenv
python -m pip install - - upgrade pip
pip install tabpy

Последний шаг — заставить ваш Tableau Desktop взаимодействовать с локальным процессом, на котором работает TabPy. Откройте Tableau Desktop + и перейдите в раздел Справка > Настройки и производительность > Управление подключением к внешней службе.

В сообщении подтверждения TabPy в окне терминала упоминается, что «веб-служба прослушивает порт 9004» предоставляет сервер «localhost» и порт «9004». Если вы нажмете «Проверить подключение» и получите сообщение «Успешно подключено к внешней службе», поздравляем! Вы готовы использовать Python в Tableau.

Заключение

Интегрируя BI с ML, мы открываем бесконечные возможности для автоматизации и улучшения вашей текущей настройки аналитики данных. Мы также можем использовать его для интеграции моделей глубокого обучения в панель аналитики, выполнения сложных статистических задач и реализации непрерывной интеграции и разработки.

Справочная ссылка