При анализе больших наборов данных мы получаем часто повторяющиеся слова в нескольких столбцах. Имена становятся неактуальными для анализа при сравнении, поэтому стараемся сохранить уникальность имени столбца.

Есть несколько способов подойти к любой проблеме, это ничем не отличается. Один из наиболее распространенных способов решить эту проблему — незаметно заменить имя столбца одно за другим. Допустим, у нас есть набор данных по мобильным телефонам, и первый столбец этого набора данных — Manufacture_name. Мы можем легко заменить его на Имя или Компания. Однако, если есть несколько столбцов с надписью "Производство", это можно сделать следующим образом.

  1. Получить необходимые библиотеки
import pandas as pd #Loading packages

2. Импортируйте набор данных; Здесь мы предполагаем файл CSV

data = pd.read_csv('filepath\\filename')
#filename should also contain type of file like .csv or .txt
#For large files use
 data = pd.read_csv('filepath\\filename', low_memory = False)

3. (Необязательно) Проверьте имена наборов данных и столбцов.

data.head()

4. Создание списка пользовательских слов, которые мы хотим удалить

Вместо многократного запуска одной и той же программы для удаления разных слов мы создаем список слов, который можно использовать для запуска только один раз. Например, в нашем наборе данных есть два общих слова: Производство и Поставщик с именами столбцов Manufacture_name, Manufacture_id, Manufacture_Location, Supplier_count, Supplier_Amount. и т. д.

words = ['Manufacture_' , 'Supplier_'] #Python is case sensitive
#Each words needs to exactly like the column name

5. Создание нового списка для измененных имен столбцов

c = list()
c = data.columns.tolist()
for i in range(len(c)): #Loop every column
    for word in words: #Loop for every word
        c[i] = c[i].replace(word,'')

6. Изменение существующих имен столбцов новыми именами

data.columns = c

7. (Необязательно) Еще раз проверьте набор данных на наличие обновленных имен столбцов.

data.head()

8. Экспорт набора данных для дальнейшего использования; Предполагая файл CSV

data.to_csv('filepath\\customname.csv',index=False)

Использование этого кода перед анализом поможет найти уникальность в именах столбцов, чтобы вся важная и релевантная информация была доступна, а все распространенные и неважные имена были удалены.