Привет, сообщество StackOverflow.
Я довольно новый пользователь Python, поэтому заранее извините за глупость этого вопроса! Но я пытался исправить это часами, но до сих пор не понял.
Я пытаюсь импортировать большой набор данных текста, чтобы манипулировать им в Python.
Этот набор данных находится в формате .csv, и у меня возникли проблемы с его чтением из-за проблем с кодировкой.
Я пытался закодировать его в тексте UTF-8 с помощью notepad++. Я пробовал модуль csv.reader в Python.
Вот пример моего кода:
import csv
with open('twitter_test_python.csv') as csvfile:
#for file5 in csvfile:
# file5.readline()
#csvfile = csvfile.encode('utf-8')
spamreader = csv.reader(csvfile, delimiter=str(','), quotechar=str('|')
for row in spamreader:
row = " ".join(row)
row2= str.split(row)
listsw = []
for mots in row2:
if mots not in sw:
del mots
print row2
Но когда я импортирую свои данные в Python, у меня все еще возникают проблемы с кодировкой (акценты и т. д.), независимо от того, какой метод я использую.
Как я могу закодировать свои данные, чтобы их можно было правильно прочитать с помощью Python?
Спасибо !
print u"En vrai j'en ai marre j'ai une poste \xe0 3min de chez moi et le postier il d\xe9cide de mettre mon colis dans une poste que je connais pas"
в IDLE, я правильно получаюEn vrai j'en ai marre j'ai une poste à 3min de chez moi et le postier il décide de mettre mon colis dans une poste que je connais pas
. Это означает, что ваши данные представляют собой правильную строку юникода, содержащую правильные символы с акцентом юникода. Другими словами, у вас нет проблем с кодировкой при чтении данных, но они могут возникнуть при их отображении. - person Serge Ballesta   schedule 21.03.2016