Визуально изучайте данные в электронной таблице в Jupyter и получайте в результате код pandas

Исследование данных является важным шагом в любом анализе данных или проекте по науке о данных. Он включает в себя изучение данных, чтобы получить представление и выявить закономерности или тенденции. Несмотря на то, что этот процесс обычно сложен и требует много времени, электронные таблицы значительно упрощают исследование данных. Вот где Мито вступает в игру!

Mito — это библиотека Python, которая генерирует код по мере того, как вы изучаете данные в электронной таблице, что позволяет вам повысить производительность и сэкономить время на исследовании данных.

Давайте узнаем, что такое Mito, как его использовать и как он позволяет использовать ИИ для изучения данных с помощью текстовых подсказок.

Что такое Мито?

Mito — это инструмент для исследования данных с открытым исходным кодом для Python, который предоставляет простой в использовании пользовательский интерфейс для изучения, фильтрации и управления данными в электронной таблице. Он предназначен для упрощения и оптимизации процесса исследования данных, предлагая широкий спектр функций для загрузки, обработки, визуализации и анализа данных в электронных таблицах. С Mito вы можете просматривать и редактировать данные так же, как в Excel. Это помогает бизнес-пользователям быстро и эффективно получать ценную информацию и выявлять закономерности в своих данных.

Что уникально в Mito, так это то, что он дает вам код Python, эквивалентный операциям исследования данных, которые вы выполняете визуально. Это повышает производительность специалистов по обработке и анализу данных и позволяет пользователям создавать сценарии исследования данных, не зная Python.

С технической точки зрения Mito — это электронная таблица, встроенная в Jupyter Notebook, которая может генерировать пандовый код.

Давайте посмотрим, как его использовать!

Как настроить Мито в Python

Узнайте, что вам нужно сделать, чтобы настроить Mito.

Предпосылки

Чтобы начать работу с Mito, вам необходимо выполнить следующий список предварительных условий:

Затем вы можете установить Mito следующим образом:

  • Откройте терминал и загрузите установщик Mito с помощью:
python -m pip install mitoinstaller
  • Запустите установщик с помощью:
python -m mitoinstaller install

Эта команда установит Mito для классических ноутбуков Jupyter и JupyterLab 3.0. Обратите внимание, что процесс установки может занять некоторое время.

Отлично, теперь вы готовы начать иметь дело с Мито!

Создание сводной таблицы

Запустите свой проект Jupiter и создайте новый Блокнот. Затем вставьте следующие две строки кода Python:

import mitosheet
mitosheet.sheet()

Нажмите кнопку «Выполнить», и в вашем блокноте должно появиться следующее окно:

Следуйте указаниям мастера регистрации, чтобы активировать Mitosheet — электронную таблицу с возможностями генерации кода, предлагаемыми Mito.

Импорт некоторых данных

Нажмите кнопку «Импортировать файлы» и выберите источник данных, который вы хотите импортировать в Mito:

Mito поддерживает несколько источников данных. К ним относятся:

  • CSV-файлы, как локально, так и удаленно
  • Файлы Excel, как локально, так и удаленно
  • Датафреймы

Если ваши исходные данные успешно импортированы, вы должны увидеть что-то похожее на это:

Обратите внимание на расширенные возможности электронных таблиц, предлагаемые Mito.

Исследуйте данные с помощью текстовых подсказок с помощью Mito AI

Mito недавно запустила новую функцию под названием Mito AI. Это мощный инструмент, который позволяет пользователям редактировать данные в электронной таблице с помощью простых текстовых подсказок. На момент написания этой статьи эта функция находилась в стадии открытого бета-тестирования.

Нажмите кнопку «AI» и примите политику конфиденциальности OpenAI. Теперь вы должны получить доступ к разделу AI Transformation:

В текстовой области «Подсказка» введите операцию, которую вы хотите выполнить с вашими данными. Например: «отфильтровать строки с ценой ниже 200 000».

Затем нажмите кнопку «Сгенерировать код». Mito AI сгенерирует код Python, который попытается внести необходимые изменения в данные. Проверьте код, сгенерированный Mito, и, если он выглядит хорошо, нажмите «Выполнить код». После выполнения кода прокрутите вниз до раздела «Результаты», чтобы увидеть влияние сгенерированного кода на ваши данные.

Отличная работа! С Mito изучение данных в Python никогда не было проще, но еще есть чему поучиться!

Генерация кода для исследования данных с помощью Mito

Теперь осталось только визуально изучить исходные данные в Mitosheet. Редактируйте, добавляйте, удаляйте, сортируйте и фильтруйте некоторые данные с помощью некоторых операций «укажи и щелкни».

После завершения вашей операции Mito добавит новую ячейку Блокнота, содержащую некоторый код. Этот автоматически сгенерированный фрагмент соответствует логике Python, необходимой для получения тех же результатов на данных, которые были получены визуально в Mitosheet.

В приведенном ниже примере мы используем Mito для создания сводной таблицы непосредственно в электронной таблице:

Вот как выглядит ячейка Notebook, сгенерированная Mito в конце операции исследования данных:

Подробно, это код, созданный инструментом:

import pandas as pd

# Imported melb_data.csv
melb_data = pd.read_csv(r'melb_data.csv')

# Deleted columns Unnamed: 0
melb_data.drop(['Unnamed: 0'], axis=1, inplace=True)

# Pivoted melb_data into melb_data_pivot
melb_data_pivot = pd.DataFrame(data={})

# Pivoted melb_data into melb_data_pivot
tmp_df = melb_data[melb_data['Price'] >= 200000]
tmp_df = tmp_df[['Price', 'Rooms']].copy()
pivot_table = tmp_df.pivot_table(
    index=['Price'],
    columns=['Rooms'],
    values=['Price'],
    aggfunc={'Price': ['count']}
)
pivot_table = pivot_table.set_axis([flatten_column_header(col) for col in pivot_table.keys()], axis=1)
melb_data_pivot = pivot_table.reset_index() 

Как видите, он содержит все необходимое для создания сводной таблицы на Python с пандами, включая комментарии.

Обратите внимание, что это всего лишь простой пример, но Mito поддерживает множество других расширенных функций исследования и визуализации данных. К ним относятся графики, формулы электронных таблиц, комбинация фреймов данных и многое другое.

Изучите официальную документацию, чтобы узнать, что может предложить Mito!

Заключение

В этой статье вы узнали, что такое Mito и как с его помощью создавать сценарии анализа данных на Python. Загружая данные в электронную таблицу в Jupyter Notebook, вы можете визуально исследовать данные в электронной таблице, автоматически создавая код Python. Это поможет вам сэкономить время и энергию, позволяя даже нетехническим пользователям определять сценарии исследования данных в Python.

Спасибо за прочтение! Я надеюсь, что вы нашли эту статью полезной. Не стесняйтесь оставлять любые вопросы, комментарии или предложения.