Надежная шпаргалка для консультантов по данным.
Я использую и изучаю Python уже более года, и если вы хотя бы отдаленно знакомы с Python, вы знаете, что его изучение никогда не прекращается. Или, точнее, улучшение и оптимизация вашего кода с помощью новых приемов/пакетов никогда не прекращается. Всегда есть новая библиотека/пакет или новая функция, которую можно использовать по-разному. Тем не менее, есть довольно много случаев, когда вы обнаружите, что делаете одно и то же снова и снова много раз.
Чтобы помочь с этим, я хотел бы предоставить шпаргалку по коду. Около 2 месяцев назад, читая здесь статью о привычках лучших специалистов по данным, я обнаружил, что одна из рекомендаций заключалась в том, чтобы иметь шпаргалку по коду для хранения наиболее часто используемых фрагментов кода. Это служит напоминанием о наиболее часто используемых фрагментах кода. Я обнаружил, что это чрезвычайно мудрый и полезный совет, так как я обнаружил, что ежедневно ищу довольно много простых вещей.
Ниже приведена ссылка на мою шпаргалку с фрагментами кода, которые я почти ежедневно использую в качестве консультанта по данным в различных проектах. У каждого из них есть комментарий, который кратко описывает, как его использовать, также помогают разные имена переменных.
Теперь, когда у вас есть доступ к этому, я дам вам несколько основных моментов:
import pyforest
Ленивый импорт, который я использую во всех своих проектах, импортирует pandas, NumPy, seaborn и многое другое всего в одну строку.
# locating rows based on condition newdf = df.loc[df['col'] == 'condition'] # multiple conditions df.loc[(df["B"] > 50) & (df["C"] == 900)] #use | for or # using loc as a way to assign values in a new column based on condition df.loc[(df['column'] > 'condition'), 'new_column'] = 'value'
Их я использую ежедневно, чтобы получать фрагменты данных в зависимости от условий.
# columns in df and not in df2 df.columns.difference(df2.columns)
Я всегда добавляю, объединяю или объединяю два фрейма данных. Выше приведен лучший способ, который я нашел, чтобы убедиться, что столбцы совпадают при добавлении.
# transpose a df making the rows columns or vice versa df2 = df.T
Транспонирование фрейма данных для преобразования столбцов в строки и наоборот — трюк, который я часто использовал в своем последнем проекте. Обратитесь к приведенному выше коду.
# to html to then convert to a pdf result = df.to_html() # write html to file text_file = open("index.html", "w") text_file.write(result) text_file.close()
Лучшее и самое быстрое, что я нашел, — это визуализировать часть фрейма данных в формате PDF с помощью нескольких коротких строк кода.
Эта шпаргалка упрощает выполнение повседневных задач и сокращает время, которое я трачу на StackOverflow или документацию pandas, просматривая вещи, которые я на мгновение забыл. Поскольку он становится длиннее, я работаю над тем, чтобы сделать этот лист более удобным для пользователя и доступным для поиска. Если вы знаете хороший инструмент, дайте мне знать! Моя главная цель — повысить производительность, эффективность использования времени и простоту использования. Как всегда, дайте мне знать, если вы нашли лучший способ сделать то, что я включил в свою шпаргалку, я постоянно стараюсь его улучшить.
Спасибо за чтение.
Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку здесь.