поддерживает ли iso-8859 латинский символ, мне нужно использовать iso-8859-1 в программе java для чтения файла с китайским символом, и в чем разница между этим
разница между iso-8859 и iso-8859-1,
Ответы (2)
ISO-8859 — это стандарт для 8-битных кодировок символов. 8 бит дают вам 256 комбинаций, что подходит для большинства расширений латинского алфавита, но не для китайских иероглифов.
ISO-8859-1 — это одна из «версий» ISO-8859, поддерживающая большинство западноевропейских языков (французский, немецкий, испанский и т. д.). Для центральноевропейских языков (польский, чешский, словацкий и т. д.) вам потребуется ISO-8859-2 и т. д.
Одним из различных моментов между ISO-8859-1 и ISO-8859-2 является французская буква è
в ISO-8859-1, которая находится на том же месте, что и чешская/словацкая буква č
в ISO-8859-2. Вот почему тогда нельзя было совместить эти две буквы в одном тексте.
Теперь с Unicode можно комбинировать и китайские символы.
Для китайского языка доступно несколько кодировок (например, упрощенная и традиционная). См. http://download.oracle.com/javase/6/docs/technotes/guides/intl/encoding.doc.html для списка. Наиболее распространенными являются GB2312
, также известные как EUC_CN
для упрощенного китайского и Big5
для традиционного китайского. Я также видел китайские документы, представленные в UTF-8
.