Публикации по теме 'unicode'
Что я ожидаю от старшего инженера о работе с текстом
Мне как инженеру приходилось много работать с текстами. Может быть, это потому, что английский не мой родной язык, но я столкнулся с некоторыми распространенными ошибками и ловушками и хотел поделиться здесь парой фактов.
Проще говоря, Unicode — это таблица символов, где каждый элемент имеет соответствующую кодовую точку и часто некоторые дополнительные флаги и правила, связанные с ней. Часто существует более одного способа представления визуально идентичного текста в кодовых точках..
Реализация нормализации Unicode
Потоковая передача NFC, NFD, NFKC и NFKD, нормализация QC и нормализация с сохранением конкатенации.
Свен Ван Кекенберге, Хенрик Сперре Йохансен
Unicode - это отраслевой международный стандарт согласованного кодирования, представления и обработки текста, выраженного почти во всех мировых системах письма. Объединяющий набор символов Unicode содержит десятки тысяч записей, охватывающих 129 современных и исторических сценариев, а также несколько наборов символов.
Стандарт также..
Любопытный случай с 💩.length == 2
Недавно я отлаживал очень странный случай с одним из моих проектов Node.js. Он распечатывает мой вывод в формате (с модулем as-table ) в красиво выглядящий макет таблицы ASCII:
Для большей наглядности я попытался заменить это заголовок «время» символом 🕑 из Unicode…
Ого. Очевидно, что-то случилось. Довольно быстро я обнаружил, что вычисленная длина символа оказалась равной 2!
Изначально я подозревал ошибку в модуле, который неправильно определял истинную оптическую длину..
Проблема с обратной галочкой
Вчера столкнулся со странной проблемой. Работая над приложением Vue+Socket+Electron, я откуда-то скопировал следующий код:
headers: {
Authorization: 'Bearer '+ tok,
Accept: 'application/json'
}
За этим последовала двухчасовая отладка, а затем сеанс сопряжения отладки, где мы проследили, что приводит к неясным ошибкам подключения ко многим библиотекам поставщиков… Ничего не найдя взамен. В один момент приложение будет работать, во второй — нет. В конце концов, я начал..
Очистка текстового содержимого с помощью нормализации юникода
Как удалить \x0a, символы с диакритическими знаками или другие вещи из вашего текста, прежде чем вводить их в модель машинного обучения
При построении модели на текстовых данных мы хотим нормализовать или очистить ваши данные, чтобы избежать ненужной путаницы.
Рассмотрим заголовок, например « Samsun\x0aTV ». Поскольку \\x0a — это пробел, вы хотели бы преобразовать его в пробелы.
В противном случае ваша модель должна узнать, что \\x0a является пространством, и для этого потребуется..
Unicode, UTF-8 и многоязычная поддержка
«Вы никогда не поймете один язык, пока не поймете хотя бы два», — Джеффри Уильямс .
Вы когда-нибудь сталкивались с ситуацией, когда данные, полученные из другой системы, казались «испорченными» или «тарабарщиной»? Что-то вроде helloẀ или привет???
Читайте дальше, чтобы узнать об этом.
Азбука Морзе
Во время преподавания в Нью-Йоркском университете в 1835 году Сэмюэл Морзе доказал, что «сигналы» могут передаваться по электрическому проводу. Он создал систему, используя всего 2..
Двоичные числа и ASCII
Двоичные числа и ASCII
Двоичная система - одно из фундаментальных понятий информатики. Это связь между программным обеспечением и оборудованием. В качестве первого технического входа в diveintocs было бы полезно попытаться понять двоичные системы с десятичными, восьмеричными и шестнадцатеричными числами. После этого мы можем изучить набор символов ASCII и юникод.
Прежде чем пытаться понять двоичную систему счисления, мы должны упомянуть десятичную систему счисления. Десятичная..