Публикации по теме 'unicode'
Проблема с обратной галочкой
Вчера столкнулся со странной проблемой. Работая над приложением Vue+Socket+Electron, я откуда-то скопировал следующий код:
headers: {
Authorization: 'Bearer '+ tok,
Accept: 'application/json'
}
За этим последовала двухчасовая отладка, а затем сеанс сопряжения отладки, где мы проследили, что приводит к неясным ошибкам подключения ко многим библиотекам поставщиков… Ничего не найдя взамен. В один момент приложение будет работать, во второй — нет. В конце концов, я начал..
Очистка текстового содержимого с помощью нормализации юникода
Как удалить \x0a, символы с диакритическими знаками или другие вещи из вашего текста, прежде чем вводить их в модель машинного обучения
При построении модели на текстовых данных мы хотим нормализовать или очистить ваши данные, чтобы избежать ненужной путаницы.
Рассмотрим заголовок, например « Samsun\x0aTV ». Поскольку \\x0a — это пробел, вы хотели бы преобразовать его в пробелы.
В противном случае ваша модель должна узнать, что \\x0a является пространством, и для этого потребуется..
Unicode, UTF-8 и многоязычная поддержка
«Вы никогда не поймете один язык, пока не поймете хотя бы два», — Джеффри Уильямс .
Вы когда-нибудь сталкивались с ситуацией, когда данные, полученные из другой системы, казались «испорченными» или «тарабарщиной»? Что-то вроде helloẀ или привет???
Читайте дальше, чтобы узнать об этом.
Азбука Морзе
Во время преподавания в Нью-Йоркском университете в 1835 году Сэмюэл Морзе доказал, что «сигналы» могут передаваться по электрическому проводу. Он создал систему, используя всего 2..
Двоичные числа и ASCII
Двоичные числа и ASCII
Двоичная система - одно из фундаментальных понятий информатики. Это связь между программным обеспечением и оборудованием. В качестве первого технического входа в diveintocs было бы полезно попытаться понять двоичные системы с десятичными, восьмеричными и шестнадцатеричными числами. После этого мы можем изучить набор символов ASCII и юникод.
Прежде чем пытаться понять двоичную систему счисления, мы должны упомянуть десятичную систему счисления. Десятичная..
Разработка с помощью эмодзи на Ruby
Как мы все знаем, смайлики - это вершина человеческого общения.
В отличие от традиционного письменного общения, смайлики выходят за рамки языков, уменьшают многословие и помогают выявить намерения 😉
Давайте посмотрим, как Emojis может сделать не только ваши текстовые сообщения ярче, но и ваш код Ruby.
Чтобы понять, как (и почему) смайлики можно использовать в коде, важно знать: Что такое смайлики?
От 🅰️ до 💤
Компьютеры хранят все данные в двоичном формате;..
Детали Unicode для разработчиков
В прошлый раз мы прошли весь путь от азбуки Морзе до создания Unicode . И я оставил вас там с вопросом. Как можно уместить миллионы символов в 8-битную кодировку? Разве не так и началось это безумное путешествие - с коротких кодировок?
Как и было обещано, теперь мы перейдем к более технической части Unicode. Я постараюсь сделать его относительно простым, но он будет более сложным, чем предыдущая часть.
Вмещать большее в меньшее
Не совсем правильно (и не ошибочно)..
Строки Go против байтовых срезов
Я быстро прочитал эту статью о строках , и я просто хотел указать, что, хотя преобразование из string в []byte и string и обратно несложно, есть тонкая вещь, которой следует опасаться.
Возьмем модифицированную версию примера из этой статьи ( Go Playground ). Строка - 🎄 Xmas и состоит из 6 символов: 1 (символ дерева) + 1 (символ пробела) + 4 (символ слово Рождество ).
Хотя преобразование этой строки в []byte и обратно в строку работает, перебор byte среза и печать отдельных..