При анализе больших наборов данных мы получаем часто повторяющиеся слова в нескольких столбцах. Имена становятся неактуальными для анализа при сравнении, поэтому стараемся сохранить уникальность имени столбца.
Есть несколько способов подойти к любой проблеме, это ничем не отличается. Один из наиболее распространенных способов решить эту проблему — незаметно заменить имя столбца одно за другим. Допустим, у нас есть набор данных по мобильным телефонам, и первый столбец этого набора данных — Manufacture_name. Мы можем легко заменить его на Имя или Компания. Однако, если есть несколько столбцов с надписью "Производство", это можно сделать следующим образом.
- Получить необходимые библиотеки
import pandas as pd #Loading packages
2. Импортируйте набор данных; Здесь мы предполагаем файл CSV
data = pd.read_csv('filepath\\filename') #filename should also contain type of file like .csv or .txt #For large files use data = pd.read_csv('filepath\\filename', low_memory = False)
3. (Необязательно) Проверьте имена наборов данных и столбцов.
data.head()
4. Создание списка пользовательских слов, которые мы хотим удалить
Вместо многократного запуска одной и той же программы для удаления разных слов мы создаем список слов, который можно использовать для запуска только один раз. Например, в нашем наборе данных есть два общих слова: Производство и Поставщик с именами столбцов Manufacture_name, Manufacture_id, Manufacture_Location, Supplier_count, Supplier_Amount. и т. д.
words = ['Manufacture_' , 'Supplier_'] #Python is case sensitive #Each words needs to exactly like the column name
5. Создание нового списка для измененных имен столбцов
c = list() c = data.columns.tolist() for i in range(len(c)): #Loop every column for word in words: #Loop for every word c[i] = c[i].replace(word,'')
6. Изменение существующих имен столбцов новыми именами
data.columns = c
7. (Необязательно) Еще раз проверьте набор данных на наличие обновленных имен столбцов.
data.head()
8. Экспорт набора данных для дальнейшего использования; Предполагая файл CSV
data.to_csv('filepath\\customname.csv',index=False)
Использование этого кода перед анализом поможет найти уникальность в именах столбцов, чтобы вся важная и релевантная информация была доступна, а все распространенные и неважные имена были удалены.