Шпаргалка данных, на которую могут положиться консультанты

Надежная шпаргалка для консультантов по данным.

Я использую и изучаю Python уже более года, и если вы хотя бы отдаленно знакомы с Python, вы знаете, что его изучение никогда не прекращается. Или, точнее, улучшение и оптимизация вашего кода с помощью новых приемов/пакетов никогда не прекращается. Всегда есть новая библиотека/пакет или новая функция, которую можно использовать по-разному. Тем не менее, есть довольно много случаев, когда вы обнаружите, что делаете одно и то же снова и снова много раз.

Чтобы помочь с этим, я хотел бы предоставить шпаргалку по коду. Около 2 месяцев назад, читая здесь статью о привычках лучших специалистов по данным, я обнаружил, что одна из рекомендаций заключалась в том, чтобы иметь шпаргалку по коду для хранения наиболее часто используемых фрагментов кода. Это служит напоминанием о наиболее часто используемых фрагментах кода. Я обнаружил, что это чрезвычайно мудрый и полезный совет, так как я обнаружил, что ежедневно ищу довольно много простых вещей.

Ниже приведена ссылка на мою шпаргалку с фрагментами кода, которые я почти ежедневно использую в качестве консультанта по данным в различных проектах. У каждого из них есть комментарий, который кратко описывает, как его использовать, также помогают разные имена переменных.

Current_Projects/pandas_mused.py на главной · silvainfm/Current_Projects
Текущие проекты, над которыми я работаю, работаю или отдыхаю. - Current_Projects/pandas_mused.py на главной ·…github.com

Теперь, когда у вас есть доступ к этому, я дам вам несколько основных моментов:

import pyforest

Ленивый импорт, который я использую во всех своих проектах, импортирует pandas, NumPy, seaborn и многое другое всего в одну строку.

# locating rows based on condition
newdf = df.loc[df['col'] == 'condition']
# multiple conditions
df.loc[(df["B"] > 50) & (df["C"] == 900)] #use | for or
# using loc as a way to assign values in a new column based on condition
df.loc[(df['column'] > 'condition'), 'new_column'] = 'value'

Их я использую ежедневно, чтобы получать фрагменты данных в зависимости от условий.

# columns in df and not in df2
df.columns.difference(df2.columns)

Я всегда добавляю, объединяю или объединяю два фрейма данных. Выше приведен лучший способ, который я нашел, чтобы убедиться, что столбцы совпадают при добавлении.

# transpose a df making the rows columns or vice versa
df2 = df.T

Транспонирование фрейма данных для преобразования столбцов в строки и наоборот — трюк, который я часто использовал в своем последнем проекте. Обратитесь к приведенному выше коду.

# to html to then convert to a pdf
result = df.to_html()
# write html to file
text_file = open("index.html", "w")
text_file.write(result)
text_file.close()

Лучшее и самое быстрое, что я нашел, — это визуализировать часть фрейма данных в формате PDF с помощью нескольких коротких строк кода.

Эта шпаргалка упрощает выполнение повседневных задач и сокращает время, которое я трачу на StackOverflow или документацию pandas, просматривая вещи, которые я на мгновение забыл. Поскольку он становится длиннее, я работаю над тем, чтобы сделать этот лист более удобным для пользователя и доступным для поиска. Если вы знаете хороший инструмент, дайте мне знать! Моя главная цель — повысить производительность, эффективность использования времени и простоту использования. Как всегда, дайте мне знать, если вы нашли лучший способ сделать то, что я включил в свою шпаргалку, я постоянно стараюсь его улучшить.

Спасибо за чтение.

Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку здесь.

Шпаргалка данных, на которую могут положиться консультанты

Надежная шпаргалка для консультантов по данным.

Вопросы по теме