Если вы когда-либо работали с двоичными данными, такими как изображения, аудио или документы, вы, возможно, сталкивались с термином «кодирование Base64». Но что такое Base64 и зачем он нам нужен?

В этой статье мы рассмотрим основы кодирования Base64, принципы его работы и некоторые распространенные варианты использования.

Что такое Base64?

Base64 — это схема преобразования двоичного кода в текст, которая представляет двоичные данные в формате строки ASCII. Он обычно используется в компьютерных системах для передачи данных по каналам, которые могут обрабатывать только текст, таким как электронная почта или HTTP.

Вот пример файла PNG, который отображает изображение «Linux Tux», закодированное в Текст ASCII с использованием схемы Base64. Этот метод кодирования упрощает встраивание изображения в текстовые среды, такие как код HTML или CSS, или как часть полезной нагрузки запроса API».



Например, вы можете использовать изображение непосредственно как атрибут src элемента ‹img› в HTML, устраняя необходимость в отдельном файле изображения. Вот пример:

<!DOCTYPE html>
<html>
<body>

<h1>Linux Tux</h1>

<img src="" alt="Linux Tux" width="500" height="600">

</body>
</html>

Base64 получил свое название из-за того, что он использует набор из 64 уникальных символов для представления двоичных данных. 64 символа включают прописные и строчные буквы, цифры и два специальных символа («+» и «/»), а также символ заполнения «=».

Зачем нам нужно кодировать двоичные данные как текст?

Есть несколько причин, по которым нам может понадобиться кодировать двоичные данные как текст:

  1. Передача. Многие протоколы связи, такие как электронная почта и HTTP, предназначены для обработки текстовых данных. Если мы хотим передавать двоичные данные по этим протоколам, нам нужно сначала закодировать их как текст.
  2. Отображение. Некоторые двоичные данные, такие как изображения или аудио, не могут быть напрямую отображены в текстовой среде, такой как терминал или веб-страница. Кодируя данные в виде текста, мы можем отобразить их в виде последовательности символов, которые можно отобразить на экране.
  3. Сжатие. Текстовые данные часто могут быть сжаты более эффективно, чем двоичные данные. Кодируя двоичные данные как текст, мы можем воспользоваться методами сжатия, оптимизированными для текста.
  4. Совместимость: некоторые системы или приложения могут принимать только текстовые данные в качестве входных данных. Кодируя двоичные данные в виде текста, мы можем сделать их совместимыми с этими системами.

Как работает кодировка Base64?

Кодирование Base64 работает путем преобразования двоичных данных в текстовый формат, который можно легко передать или сохранить в виде текста. Процесс кодирования включает в себя разделение двоичных данных на 24-битные группы (3 байта) и последующее преобразование каждой группы в 4-символьную строку. Вот пошаговое объяснение того, как работает кодировка Base64:

  1. Разделите двоичные данные на 24-битные группы (3 байта), если длина двоичных данных делится без остатка на 3 байта.
  2. Для каждой 24-битной группы разбейте ее на четыре 6-битных блока.
  3. Преобразуйте каждую 6-битную единицу в соответствующий символ Base64 в соответствии с таблицей индексов Base64. Конкретное сопоставление между 6-битными единицами и символами Base64 фиксировано и определяется стандартом Base64.
  4. Объедините четыре символа Base64, чтобы сформировать 4-символьную строку.
  5. Повторите шаги 2–4 для каждой 24-битной группы в двоичных данных.
  6. Если длина двоичных данных не делится без остатка на 3 байта, дополните конец данных одним или двумя нулевыми байтами и добавьте символы «=» в конец строки Base64. Количество добавляемых символов «=» зависит от количества байтов заполнения.

Например, давайте закодируем двоичные данные «01100001 01100010 01100011» (которые представляют символы ASCII «abc») в Base64. Вот как работает процесс кодирования:

  1. Разделите двоичные данные на 24-битные группы:
    01100001 01100010 01100011
  2. Преобразуйте каждую 24-битную группу в четыре 6-битных блока:
    011000 010110 001001 100011
  3. Преобразуйте каждую 6-битную единицу в соответствующий символ Base64:
    Y W J j
  4. Объедините четыре символа Base64, чтобы сформировать 4-символьную строку:
    YWJj

Результирующая строка Base64 для «abc» — «YWJj».

Еще один пример, который объясняет использование символа заполнения «=», допустим, мы хотим закодировать двоичные данные
«01000001»
(что представляет букву «A» в ASCII) в Base64.

  1. Разделите двоичные данные на 24-битные группы, поскольку длина двоичных данных не делится без остатка на 3 байта, дополните конец данных двумя нулевыми байтами:
    01000001 00000000 00000000
  2. Преобразуйте каждую 24-битную группу в четыре 6-битных блока:
    010000 010000 000000 000000
  3. Преобразуйте каждую 6-битную единицу в соответствующий символ Base64, поскольку было добавлено заполнение из двух нулевых байтов, добавьте такое же количество символов «=» к выходной строке Base64:
    Q Q = =
  4. Объедините четыре символа Base64, чтобы сформировать 4-символьную строку:
    QQ==

Таким образом, значение «A» в кодировке Base64 равно «QQ==».

Каковы некоторые распространенные варианты использования кодировки Base64?

Кодировка Base64 обычно используется для кодирования двоичных данных таким образом, чтобы их можно было передавать по каналам, поддерживающим только символы ASCII, например, заголовки электронной почты или HTTP. Некоторые распространенные варианты использования кодировки Base64 включают:

  1. Вложения электронной почты: системы электронной почты обычно поддерживают только текст ASCII, поэтому двоичные данные, такие как изображения, аудио или документы, необходимо преобразовать в текст, прежде чем их можно будет отправить в виде вложений, что обрабатывают почтовые клиенты, такие как Gmail. преобразование автоматически, как только вы загрузите двоичное вложение.
  2. Веб-изображения: кодировка Base64 обычно используется для встраивания изображений в веб-страницы, не требуя отдельного файла изображения. Это достигается путем преобразования изображения в строку в кодировке Base64, которую можно напрямую встроить в код HTML. Поскольку HTML является текстовым форматом, данные изображения могут быть переданы в виде текста и отображены непосредственно веб-браузером.
  3. Запросы API: API обычно используют текстовые форматы данных, двоичные данные не могут передаваться напрямую как двоичные. Чтобы передать двоичные данные в виде текста, их необходимо закодировать в текстовом формате, таком как Base64. Кодировку Base64 можно использовать для представления двоичных данных в виде текста в полезных данных запроса, что позволяет передавать их как часть запроса API. Например, допустим, вы создаете мобильное приложение, которое позволяет пользователям загружать фотографии на сервер с помощью API. Когда пользователь выбирает фотографию для загрузки, она преобразуется в строку в кодировке Base64, которая затем включается в полезные данные запроса API. Затем сервер может декодировать строку Base64 обратно в двоичные данные и сохранить фотографию на сервере.
  4. Хранение данных. В некоторых случаях двоичные данные необходимо хранить в виде текста, например в CSV-файле. Однако двоичные данные нельзя хранить непосредственно в CSV-файле, поскольку он не является текстовым. Например, допустим, у вас есть файл изображения, который вы хотите сохранить в файле CSV. вы можете закодировать двоичные данные как Base64 и сохранить полученный текст в столбце CSV-файла. Если вы хотите получить данные изображения, вы можете декодировать текст в кодировке Base64 обратно в двоичные данные. Этот подход может быть полезен, когда вы хотите хранить двоичные данные в формате, легко читаемом и редактируемом человеком, например, в электронной таблице или текстовом редакторе. Однако важно отметить, что кодирование двоичных данных в формате Base64 может увеличить размер данных, поскольку каждый байт двоичных данных представлен четырьмя байтами текста в кодировке Base64. Это может привести к увеличению размера файла и замедлению времени обработки, особенно для больших объемов двоичных данных.
  5. Аутентификация. Кодировка Base64 часто используется в схемах аутентификации, таких как обычная аутентификация для HTTP-запросов, где имя пользователя и пароль кодируются в кодировке Base64 и отправляются в заголовке запроса.
  6. Параметры URL. Некоторые веб-приложения используют кодировку Base64 для кодирования данных, передаваемых в параметрах URL, поскольку некоторые символы, используемые в двоичных данных, могут вызвать проблемы с кодировкой URL.
  7. Кодирование данных для веб-служб. Для некоторых веб-служб может потребоваться отправка данных в определенном формате, например XML или JSON, а для кодирования двоичных данных в этих форматах может потребоваться кодирование Base64.
  8. Локальное хранение данных. Мобильным приложениям может потребоваться локальное хранение двоичных данных, таких как изображения или аудиофайлы, а для преобразования двоичных данных в формат, который можно легко сохранить в виде текста, можно использовать кодировку Base64. базу данных или файл.
  9. Передача изображений и файлов. При передаче изображений или файлов между устройством и сервером можно использовать кодировку Base64 для преобразования двоичных данных в строку ASCII, которую можно легко передавать по HTTP или другим сетевым протоколам.

Заключение

Кодирование Base64 — это метод представления двоичных данных в виде текста, который позволяет более легко и надежно передавать и хранить их. Он широко поддерживается многими языками программирования и системами и является хорошо зарекомендовавшим себя стандартом для кодирования двоичных данных в виде текста.

Рекомендации



Это все для этой истории :)