разница между iso-8859 и iso-8859-1,

поддерживает ли iso-8859 латинский символ, мне нужно использовать iso-8859-1 в программе java для чтения файла с китайским символом, и в чем разница между этим


iso
person vijay    schedule 17.01.2011    source источник


Ответы (2)


ISO-8859 — это стандарт для 8-битных кодировок символов. 8 бит дают вам 256 комбинаций, что подходит для большинства расширений латинского алфавита, но не для китайских иероглифов.

ISO-8859-1 — это одна из «версий» ISO-8859, поддерживающая большинство западноевропейских языков (французский, немецкий, испанский и т. д.). Для центральноевропейских языков (польский, чешский, словацкий и т. д.) вам потребуется ISO-8859-2 и т. д.

Одним из различных моментов между ISO-8859-1 и ISO-8859-2 является французская буква è в ISO-8859-1, которая находится на том же месте, что и чешская/словацкая буква č в ISO-8859-2. Вот почему тогда нельзя было совместить эти две буквы в одном тексте.

Теперь с Unicode можно комбинировать и китайские символы.

person eumiro    schedule 17.01.2011
comment
спасибо за ваш ответ, поэтому, если мне нужно работать с китайским иероглифом, который iso мне нужно использовать - person vijay; 17.01.2011
comment
Кстати, альтернативой ISO 8859-1 является ISO 8859-15, который почти идентичен -1, но включает знак евро (и несколько второстепенных диакритических знаков). - person DarkDust; 17.01.2011
comment
Если вам абсолютно необходим номер ISO, ищите ISO 10646. - person eumiro; 17.01.2011
comment
@vijay: Для китайских символов нет кодовой страницы ISO 8859, поскольку 8859 может предоставить только 128 дополнительных символов к стандартному набору ASCII ... но набор китайских символов превышает несколько тысяч символов. Для этого используйте вариант Unicode (UTF-8, UTF-16, UTF-32). - person DarkDust; 17.01.2011

Для китайского языка доступно несколько кодировок (например, упрощенная и традиционная). См. http://download.oracle.com/javase/6/docs/technotes/guides/intl/encoding.doc.html для списка. Наиболее распространенными являются GB2312, также известные как EUC_CN для упрощенного китайского и Big5 для традиционного китайского. Я также видел китайские документы, представленные в UTF-8.

person whjou    schedule 17.01.2011