Публикации по теме 'unicode'


Что я ожидаю от старшего инженера о работе с текстом
Мне как инженеру приходилось много работать с текстами. Может быть, это потому, что английский не мой родной язык, но я столкнулся с некоторыми распространенными ошибками и ловушками и хотел поделиться здесь парой фактов. Проще говоря, Unicode — это таблица символов, где каждый элемент имеет соответствующую кодовую точку и часто некоторые дополнительные флаги и правила, связанные с ней. Часто существует более одного способа представления визуально идентичного текста в кодовых точках..

Реализация нормализации Unicode
Потоковая передача NFC, NFD, NFKC и NFKD, нормализация QC и нормализация с сохранением конкатенации. Свен Ван Кекенберге, Хенрик Сперре Йохансен Unicode - это отраслевой международный стандарт согласованного кодирования, представления и обработки текста, выраженного почти во всех мировых системах письма. Объединяющий набор символов Unicode содержит десятки тысяч записей, охватывающих 129 современных и исторических сценариев, а также несколько наборов символов. Стандарт также..

Любопытный случай с 💩.length == 2
Недавно я отлаживал очень странный случай с одним из моих проектов Node.js. Он распечатывает мой вывод в формате (с модулем as-table ) в красиво выглядящий макет таблицы ASCII: Для большей наглядности я попытался заменить это заголовок «время» символом 🕑 из Unicode… Ого. Очевидно, что-то случилось. Довольно быстро я обнаружил, что вычисленная длина символа оказалась равной 2! Изначально я подозревал ошибку в модуле, который неправильно определял истинную оптическую длину..

Проблема с обратной галочкой
Вчера столкнулся со странной проблемой. Работая над приложением Vue+Socket+Electron, я откуда-то скопировал следующий код: headers: { Authorization: 'Bearer '+ tok, Accept: 'application/json' } За этим последовала двухчасовая отладка, а затем сеанс сопряжения отладки, где мы проследили, что приводит к неясным ошибкам подключения ко многим библиотекам поставщиков… Ничего не найдя взамен. В один момент приложение будет работать, во второй — нет. В конце концов, я начал..

Очистка текстового содержимого с помощью нормализации юникода
Как удалить \x0a, символы с диакритическими знаками или другие вещи из вашего текста, прежде чем вводить их в модель машинного обучения При построении модели на текстовых данных мы хотим нормализовать или очистить ваши данные, чтобы избежать ненужной путаницы. Рассмотрим заголовок, например « Samsun\x0aTV ». Поскольку \\x0a — это пробел, вы хотели бы преобразовать его в пробелы. В противном случае ваша модель должна узнать, что \\x0a является пространством, и для этого потребуется..

Unicode, UTF-8 и многоязычная поддержка
«Вы никогда не поймете один язык, пока не поймете хотя бы два», — Джеффри Уильямс . Вы когда-нибудь сталкивались с ситуацией, когда данные, полученные из другой системы, казались «испорченными» или «тарабарщиной»? Что-то вроде helloẀ или привет??? Читайте дальше, чтобы узнать об этом. Азбука Морзе Во время преподавания в Нью-Йоркском университете в 1835 году Сэмюэл Морзе доказал, что «сигналы» могут передаваться по электрическому проводу. Он создал систему, используя всего 2..

Двоичные числа и ASCII
Двоичные числа и ASCII Двоичная система - одно из фундаментальных понятий информатики. Это связь между программным обеспечением и оборудованием. В качестве первого технического входа в diveintocs было бы полезно попытаться понять двоичные системы с десятичными, восьмеричными и шестнадцатеричными числами. После этого мы можем изучить набор символов ASCII и юникод. Прежде чем пытаться понять двоичную систему счисления, мы должны упомянуть десятичную систему счисления. Десятичная..