Надежная шпаргалка для консультантов по данным.

Я использую и изучаю Python уже более года, и если вы хотя бы отдаленно знакомы с Python, вы знаете, что его изучение никогда не прекращается. Или, точнее, улучшение и оптимизация вашего кода с помощью новых приемов/пакетов никогда не прекращается. Всегда есть новая библиотека/пакет или новая функция, которую можно использовать по-разному. Тем не менее, есть довольно много случаев, когда вы обнаружите, что делаете одно и то же снова и снова много раз.

Чтобы помочь с этим, я хотел бы предоставить шпаргалку по коду. Около 2 месяцев назад, читая здесь статью о привычках лучших специалистов по данным, я обнаружил, что одна из рекомендаций заключалась в том, чтобы иметь шпаргалку по коду для хранения наиболее часто используемых фрагментов кода. Это служит напоминанием о наиболее часто используемых фрагментах кода. Я обнаружил, что это чрезвычайно мудрый и полезный совет, так как я обнаружил, что ежедневно ищу довольно много простых вещей.

Ниже приведена ссылка на мою шпаргалку с фрагментами кода, которые я почти ежедневно использую в качестве консультанта по данным в различных проектах. У каждого из них есть комментарий, который кратко описывает, как его использовать, также помогают разные имена переменных.



Теперь, когда у вас есть доступ к этому, я дам вам несколько основных моментов:

import pyforest

Ленивый импорт, который я использую во всех своих проектах, импортирует pandas, NumPy, seaborn и многое другое всего в одну строку.

# locating rows based on condition
newdf = df.loc[df['col'] == 'condition']
# multiple conditions
df.loc[(df["B"] > 50) & (df["C"] == 900)] #use | for or
# using loc as a way to assign values in a new column based on condition
df.loc[(df['column'] > 'condition'), 'new_column'] = 'value'

Их я использую ежедневно, чтобы получать фрагменты данных в зависимости от условий.

# columns in df and not in df2
df.columns.difference(df2.columns)

Я всегда добавляю, объединяю или объединяю два фрейма данных. Выше приведен лучший способ, который я нашел, чтобы убедиться, что столбцы совпадают при добавлении.

# transpose a df making the rows columns or vice versa
df2 = df.T

Транспонирование фрейма данных для преобразования столбцов в строки и наоборот — трюк, который я часто использовал в своем последнем проекте. Обратитесь к приведенному выше коду.

# to html to then convert to a pdf
result = df.to_html()
# write html to file
text_file = open("index.html", "w")
text_file.write(result)
text_file.close()

Лучшее и самое быстрое, что я нашел, — это визуализировать часть фрейма данных в формате PDF с помощью нескольких коротких строк кода.

Эта шпаргалка упрощает выполнение повседневных задач и сокращает время, которое я трачу на StackOverflow или документацию pandas, просматривая вещи, которые я на мгновение забыл. Поскольку он становится длиннее, я работаю над тем, чтобы сделать этот лист более удобным для пользователя и доступным для поиска. Если вы знаете хороший инструмент, дайте мне знать! Моя главная цель — повысить производительность, эффективность использования времени и простоту использования. Как всегда, дайте мне знать, если вы нашли лучший способ сделать то, что я включил в свою шпаргалку, я постоянно стараюсь его улучшить.

Спасибо за чтение.

Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку здесь.