Как анализировать данные с помощью Mito в Python

Электронные таблицы и программирование на вашем ноутбуке Jupyter, почему бы и нет?

Введение

Данные содержат так много значимых идей. Анализ данных — это способ получить эти идеи. Иногда мы путаемся в выборе инструментов, которые мы хотим использовать, будь то программное обеспечение для работы с электронными таблицами, такое как Excel. Или мы можем использовать язык программирования, такой как Python.

А некоторые люди предпочитают использовать инструмент для работы с электронными таблицами. Одна из причин этого в том, что они еще не умеют программировать.

Использование инструмента электронных таблиц не рекомендуется для больших данных. Поэтому нам нужно программирование для анализа больших данных. Но, к счастью, есть инструмент для подключения обоих. Называется Мито.

Mito — это библиотека, в которой есть возможности для анализа данных. В отличие от библиотеки Pandas, Mito имеет интерфейс, аналогичный программному обеспечению для работы с электронными таблицами. Поэтому мы можем исследовать и обрабатывать данные, не вмешиваясь в коды.

В этой статье я покажу вам, как анализировать данные с помощью Mito. Кроме того, я покажу вам функции, которые включены в этот инструмент. Без лишних слов, приступим!

Выполнение

Установите и загрузите библиотеку

Прежде чем мы сможем использовать библиотеку, нам нужно сначала установить ее. Нам нужно установить библиотеку mitoinstaller для установки Mito с помощью команды «pip». Вот команда для этого:

python -m pip install mitoinstaller

После этого вы можете установить Mito с помощью этой командной строки:

python -m mitoinstaller install

Если ваша установка завершена, она покажет такие тексты:

Теперь мы можем загрузить библиотеку на блокнот.

Имейте в виду, что вы можете использовать Mito только с JupyterLab. До сих пор вы не можете получить к нему доступ с помощью обычного блокнота Jupyter.

Теперь давайте инициализируем лист Mito. Для этого скопируйте эти строки кода:

import mitosheet
mitosheet.sheet()

Вот результат запуска кода:

Если вы видите интерфейс на ноутбуке, это означает, что вы можете использовать его сейчас.

Источник данных

В качестве источника данных мы будем использовать набор данных от Kaggle под названием Top Streamers on Twitch. По сути, набор данных содержит информацию о 1000 лучших стримеров 2020 года.

Информация, включенная в набор данных, — это количество зрителей, подписчиков, название языка, название канала и т. д. Вы можете получить доступ к набору данных здесь.

Отказ от ответственности.
Набор данных находится в открытом доступе. Он также содержит лицензию CC0: Public Domain. Для более подробной информации вы можете посмотреть здесь.

Откройте набор данных

Чтобы открыть набор данных, нам нужно создать из него объект dataframe. Для этого мы можем использовать библиотеку pandas. Давайте напишем эти строки кода для этого:

import pandas as pd
df = pd.read_csv('twitchdata-update.csv')

После того, как мы получим фрейм данных, следующим шагом будет его загрузка в наш лист Mito. Добавьте эту строку кода для этого:

mitosheet.sheet(df)

Вот результат запуска кода:

Как видно сверху, данные уже загружены. Теперь давайте посмотрим, на что способен Мито.

Создать новый столбец

С Mito мы можем исследовать и настраивать набор данных, как в электронной таблице. Первая функция, которую я хочу вам показать, — это добавление столбца в набор данных.

Допустим, мы хотим добавить столбец, в котором есть логическое значение, определяющее, на английском языке или нет. Мы назвали столбец «is_english».

Для добавления столбца взгляните на этот GIF:

Напишите формулы

Поскольку Mito похож на инструмент для работы с электронными таблицами, который мы можем использовать в нашей записной книжке, мы можем использовать формулы, как программное обеспечение для работы с электронными таблицами, для настройки столбцов.

Вспомним столбец is_english. Мы хотим установить логические значения в 1, если язык английский. В программном обеспечении для работы с электронными таблицами мы можем использовать такую формулу:

IF(language == 'English', 1, 0)

Применим формулу к Мито. Вот GIF процесса:

Фильтровать данные

После того, как мы установили значения столбца, давайте отфильтруем данные на основе столбца «is_english». Мы возьмем строки, содержащие значение 1.

В Mito мы можем сделать это легко. Нам нужно только указать параметры для выполнения процесса фильтрации. Взгляните на эту гифку:

Визуализируйте диаграммы

Следующая функция, которую мы можем сделать, это визуализировать данные. С Mito мы можем проще отображать диаграммы, чем тратить время на написание кода и просмотр веб-сайта помощника для получения синтаксиса для определенных проблем. Мы можем визуализировать диаграммы, такие как блочная диаграмма, гистограмма, точечная диаграмма и гистограмма.

Создать сводную таблицу

Следующая функция, которую я хочу вам показать, — это создание сводной таблицы. Как и в предыдущих функциях, нам нужно только указать параметры для выполнения определенной задачи.

Для создания сводной таблицы мы можем указать, какой столбец действует как строка, столбец и значение. Из этой таблицы мы можем увидеть значение на основе определенных столбцов. В этом случае мы хотим агрегировать количество подписчиков на основе зрелости и языка.

Пожалуйста, взгляните на этот GIF, чтобы узнать, как создать сводную таблицу:

Сортировать данные

Давайте посмотрим на нашу сводную таблицу. Как видите, в таблице указано количество подписчиков в зависимости от зрелости и языка. Но мы так и не получили информации. Давайте сначала отсортируем данные.

С Mito сортировать данные просто. Для этого нам нужно всего лишь нажать несколько кнопок. Пожалуйста, взгляните на этот GIF:

Если мы отсортируем столбец, в котором нет контента для взрослых, мы увидим, что чаще всего используется английский язык. Затем следует корейский, русский, испанский и так далее.

Но если вы видите более подробную информацию, количество подписчиков для контента, не предназначенного для взрослых, не такое же, как для контента для взрослых. Давайте отсортируем данные в зрелом столбце. Вот результат для этого:

Как видите, кореец не на втором месте. Большинство из них — европейские языки. А корейский язык ниже китайского и тайского.

Генерация кода

Вот последнее, что может сделать Мито. Он генерирует коды. Когда мы проводим некоторую обработку данных, он автоматически генерирует на их основе коды. В моем случае, вот код, сгенерированный Mito:

Как видите, это похоже на команду pandas, которую мы использовали. С Mito мы можем выполнять этот процесс так же, как программное обеспечение для работы с электронными таблицами, и генерировать код на его основе.

Заключительные замечания

Отличная работа! Теперь вы научились анализировать данные с помощью Mito в Python. Для тех, кто плохо знаком с программированием и анализом данных, я надеюсь, что это поможет вам начать работу.

Если вам интересна эта статья, пожалуйста, подпишитесь на мой Medium, чтобы увидеть больше подобных статей. Я расскажу о многих областях науки о данных, начиная от учебных пособий и заканчивая приложениями во многих областях.

Если у вас есть какие-либо вопросы или вы хотите обсудить, вы можете связаться со мной по LinkedIn или по электронной почте ([email protected]).

Спасибо, что прочитали мою статью!