Распространение данных в настоящем и сохранение данных для будущего

Описание чтения и записи данных с воспроизводимостью цифровых данных с возможностью долговременного хранения на бумаге.



Две истории

Рассказ об анонимности

В последнее время мы наблюдаем информационную войну. В России источники новостей затыкают рот за критику их вторжения в Украину. В Китае онлайн-выступление отслеживается и может привести к карательным ущербам для физических лиц. Саудовская Аравия просит соседей осудить друг друга.

Мои дедушка и бабушка мигрировали из Европы в Северную Америку после Второй мировой войны. У Европы были проблемы после войны, и, как и у многих других беженцев, все, чем обладали мои бабушка и дедушка, было потеряно, поэтому переезд в новую страну, полную возможностей, захватил их воображение. Я вырос на историях, переданных мне моей бабушкой и разными тетями, и это вдохновило меня на то, чтобы читать больше.

Меня всегда поражало повествование о сожжении запрещенных книг. Естественно, мы видели это в нескольких странах на протяжении столетий, когда определенные системы верований подавлялись, но самым известным был бы рейд на Институт сексологии в Берлине в Германии в 1933 год.

Institut für Sexualwissenschaft был ведущей организацией, занимающейся изучением и пропагандой альтернативной сексуальности в Европе, и 6 мая правительственные чиновники совершили налет на это учреждение. Большая часть ранних исследований (и пропаганды) гендерных исследований была вытащена на улицу и драматически уничтожена как негерманская.

Когда люди впервые узнают об этой истории, они справедливо огорчаются из-за знаний, которые были навсегда потеряны, но есть также урок, который можно извлечь из более поздних историй о потерянных сокровищах, извлеченных из чьего-то подвала после войны. Вот как эта история крутится у меня в голове.

Магнус Хиршфельд издает прекрасную работу и раздает экземпляры всем своим ученикам. Профессор и его студенты арестованы, казнены, а их личные библиотеки разграблены и уничтожены. К счастью, Ли Шиу Тун, один из его учеников, одолжил книгу знакомому. Знакомый сочувствовал начальству НСДАП, но тоже не хотел доставлять неприятностей своему другу, поставил его на книжную полку и забыл о нем. Спустя годы, когда он умер, его жена сложила все книги в коробки и спрятала их на чердаке, где они простояли следующие 30 лет, потому что никто не искал забытую книгу в забытой коллекции.

В моем внутреннем повествовании это происходит на стороне Восточной Германии, где Сталин продолжал подавлять гомосексуальность. Книга полностью утеряна, за исключением того случая, когда ее положили в коробку и о ней забыли. У него есть шанс на новую жизнь, когда общество будет готово к переменам.

Способность быть забытым и анонимным имеет большое значение для распространения инакомыслия.

В современную эпоху, когда системы доставки информации стали более надежными, мы наблюдаем такое же разрушение знаний, хотя и гораздо более тонким образом. Поскольку стоимость распространения была снижена, мы увидели, что данные стали централизованными: гораздо проще посетить Википедию на своем телефоне, чем загрузить страницу и носить ее с собой. Кроме того, Википедия имеет открытую историю редактирования, связанную с документами, не все веб-сайты так открыты.

Это приводит к двум рискам:

  1. Существует риск того, что единственная копия в архиве одной организации будет удалена из библиотеки (веб-сервера). В приведенном выше примере Хиршфилд указал, что его библиотека должна быть передана в дар Университету в случае закрытия Института. Этого никогда не происходило, и принудительное закрытие было признано законным, гарантируя уничтожение всех копий.
  2. Такая централизация означает, что редактирование контента может происходить без сохранения исторических копий. История редактирования, будучи потерянной, никогда не сможет отследить существенное изменение мнений. Историю можно изменить.

Интернет-архив демонстрирует необходимость в этом: веб-сайты и контент регулярно удаляются из Интернета по таким безобидным причинам, как стоимость (одна из причин, по которой был разработан Git, заключалась в том, чтобы защитить OSS от потери из-за отключения общедоступных серверов), и так же гнусно, как правительства закрывают новостные станции, чтобы заставить замолчать инакомыслие. Центральные хранилища, такие как Интернет-архив, помогают защитить знания, позволяя нам наблюдать за изменениями, но также подвергают знания риску, будучи единственными хранителями истории.

Распределяя данные по множеству книжных полок, они защищены от полной потери.

Рассказ о хранении

Много лет назад я услышал историю. Не знаю, правда ли это, но это несет в себе ценный урок.

В начале 90-х стал доступен удивительный продукт, который позволил людям генерировать гораздо больше данных, чем когда-либо, и более высокого качества, чем когда-либо прежде: Microsoft Word. То, что раньше хранилось на бумаге, теперь можно было закодировать в цифровом виде и сохранить на диске. Архивариусам это нравилось, они распихивали данные по дискам слева, справа и по центру.

В конце 90-х Microsoft обновила Word.

В несовместимом формате.

Не было возможности вернуться назад и восстановить все эти долговременно хранящиеся данные. По закону им это было запрещено, так как он должен был храниться точно так же, как он был помещен на хранение (и подписан).

С другой стороны, магнитное хранилище со временем ухудшается и зависит от очень ограниченных условий окружающей среды. Очень легко повредить носитель информации.

В истории, которую мне рассказали, архивариусы библиотеки Конгресса США сказали: «Вы знаете, что не деградирует? бумага." И просто начал печатать все на бумаге, связывать бумагу и хранить в существующих хранилищах.

Что, если бы существовал способ получить лучшее из обоих миров? Что, если возможно иметь точность цифрового хранения со сроком службы бумаги; объем передачи, доступный в смарт-устройствах, с анонимностью личного разговора?

К сожалению, большая часть создаваемых сейчас данных является динамической. Под «динамическим» я подразумеваю, что вы можете взаимодействовать с самой визуализацией (прокручивать карту, вращать 3D-модель, фильтровать, искать и объединять массивные наборы данных); и как только это было напечатано на бумаге, это уже невозможно.

Кроме того, трудно перенести большие таблицы данных с бумаги на цифровой носитель. Сканирование документов в виде изображений и использование OCR для сбора таблиц информации приводит к потере значительного объема метаданных:

  • Типы данных должны быть угаданы из содержимого
  • Проблемы с выравниванием приводят к тому, что данные рассматриваются вне контекста
  • Точность символов может привести к интерпретации неправильных значений

Хотя фотография с высоким разрешением и искусственный интеллект, безусловно, улучшили качество отсканированного контента, аналоговая передача данных все еще существует, и это приведет к некоторым ошибкам.

Определение проблемы

Что, если бы был способ найти компромисс между двумя мирами: долговременное хранение бумаги с высокой точностью цифрового; анонимность частной беседы с возможностью распространения компьютерной сети?

Мы ищем средства для хранения цифровой информации на физических носителях, таких как бумага или выгравированные на камне. Мы могли бы назвать это «видимым» медиа.

Свойства цифрового

Компании, правительства и частные лица желают хранить данные в течение длительного времени для законных архивных целей. Это трудно сделать. За последние 20–30 лет стоимость цифрового хранилища снизилась по мере того, как мы перешли от бумаги к магнитному хранилищу. Это создает проблему для архивариусов, которые должны хранить результирующие объемы данных: по мере того, как нам становится дешевле производить данные, архивариусам становится все труднее хранить эти данные.

Данные должны иметь средства простой интерпретации: они должны храниться в формате, легко преобразуемом в то, что может прочитать человек. Стандарты с открытым исходным кодом выгодны, поскольку они не обременены интеллектуальной собственностью и легко понятны более широкому кругу экспертов.

Копирование цифровых данных — это то, что мы воспринимаем как должное. Когда мы делаем копию цифровых данных, это точная копия. Например, музыка теряет некоторую точность при записи в формате с высоким разрешением, однако воспроизведение песни с этого момента сохраняет точную копию (с разрешением бит).

Свойства носителя

Хотя гравировка на камне или резьба по дереву являются жизнеспособными вариантами, вес и объем этих носителей представляют собой барьер для места для хранения и веса. Льняные и хлопчатобумажные простыни представляют собой более легкие варианты, но они дороги в производстве. Майлар и проекционная пленка уменьшают размер, что дает хороший потенциал.

Современная архивная бумага представляет собой баланс стойкости, веса и объема. Каждое из них можно (и нужно) рассматривать для различных целей, фактически решение должно быть адаптируемым ко всем этим решениям. Мы обсуждаем бумагу как первичный носитель, потому что бумага имеет такую ​​богатую эволюционную историю как носитель информации.

Для механизма цифрового хранения он должен обеспечивать разумный уровень сжатия. Под сжатием мы подразумеваем количество битов информации, хранящихся на квадратный дюйм или фунт. Это означает, что он должен иметь возможность быть записанным в небольшом физическом пространстве, хотя это должно быть сбалансировано с возможностью легкого считывания.

Решение

Объединив потребности обеих этих сред, мы можем объединить существующие технологии для создания уникального решения. ePUB — это контейнерный формат с открытым исходным кодом для электронных книг, который предлагает стандартизированный (ISO/IEC TS 30135–1:2014) и необремененный формат для множества данных. Кроме того, использование 2D-штрих-кодов (в виде QR-кодов) стало повсеместным средством передачи URL-адресов, однако, по сути, они представляют собой просто двоичные буферы, способные хранить любую закодированную последовательность чисел.

ePUB

  • Разнообразное хранилище данных
  • Сжатие
  • Соответствие доступности
  • Широко потребляемый

Переход от бумажных изданий к экранным носителям принес некоторые переходные трудности. PDF был популяризирован как средство оцифровки бумаги и как промежуточное звено между бумажным и цифровым форматами. На полярно противоположном конце спектра от бумаги цифровые стандарты (например, разработанные W3C) были оптимизированы для доставки на неизвестный дисплей.

HTML представил идею переформатирования контента, чтобы приспособиться к потребностям потребителя. Это означало, что текст мог быть прочитан программой чтения с экрана, его можно было переформатировать для людей, читающих на маленьких экранах, или увеличить текст для людей с плохим зрением. Эта доступность формата породила множество других стандартов, которыми теперь управляет W3C. Эти стандарты обеспечивают максимальную доступность для наибольшего числа потребителей.

ePUB использует преимущества этих стандартов для инкапсуляции веб-сайтов в один документ. Они встраивают веб-страницы в формат файла ZIP, чтобы обеспечить просмотр всего веб-сайта. Как правило, документы разбиты на главы.

Используя общий формат ePUB, любой человек сможет прочитать цифровой документ и расшифровать его. ePUBv3 позволяет встраивать JavaScript, что означает, что вы можете встраивать карты, интерактивные диаграммы и т. д. (например, R-shiny, но автономный). В качестве общего контейнера W3C также можно встраивать файлы других форматов для использования и сохранения: наборы данных в формате CSV или доказательства в виде видео.

Штрих-коды

Вы можете кодировать цифровую информацию в штрих-коды, которые затем можно распечатать на бумаге для долгосрочного архивирования, а штрих-коды можно считывать обратно на цифровое устройство для чтения.

2 Объемные штрих-коды десятилетиями использовались как средство кодирования специализированной информации. BRML, текст или другие форматы данных были добавлены к печатным документам, таким как Водительские права и счета, чтобы дополнить текст цифровой информацией. Обычно это уникальный идентификатор документа или цифровая запись.

Кодирование ePUB должно быть тривиальным с несколькими проблемами:

  1. Схема кодирования должна быть идентифицируема читателем (должно быть достаточно информации, встроенной в данные, чтобы позволить читателю восстановить правильную форму)
  2. Размер одной книги, скорее всего, превысит объем памяти данного 2D-штрих-кода. Механизм кодирования должен иметь возможность охватывать несколько фрагментов изображения.
  3. Существует социальная проблема, которую необходимо решить, поскольку люди не могут читать коды напрямую. Возможно, они не хотят просматривать материал по юридическим, религиозным или моральным причинам. Должно быть достаточно метаданных, чтобы зритель мог решить не принимать сообщение.

Проблемы легко преодолеваются после их выявления; добавление метаданных к отдельным плиткам в виде идентификатора приложения, разбиения на страницы, заголовка, автора и темы должно предоставлять достаточную информацию, чтобы пользователи могли взаимодействовать с отдельными плитками и восстанавливать данные.

Для демонстрации возможностей был создан прототип концепции. Протокол прототипа состоит из

  1. URL: указывает на средство чтения либо для использования в Интернете (только в браузере), либо для установки в качестве PWA, либо просто как уникальный идентификатор того, что это совместимый формат.
  2. Версия протокола: при внесении изменений важно использовать правильный декодер.
  3. Разбивка на страницы: текущий номер плитки и общее количество плиток, которые необходимо преобразовать. Это обеспечивает правильную последовательность, а также меру прогресса.
  4. Библиографический. Заголовок, автор и тема позволяют читателю решить, интересен ли ему этот контент, или он может с ним взаимодействовать на законных основаниях. Можно добавить фильтры, чтобы случайные загрузки не занимали место.
  5. Родительский рейтинг: не столько для родителей, сколько для людей, которые не интересуются определенными типами контента (например, фильтрация xxx контента с рабочего устройства).
  6. Дата актуальности: некоторый контент действителен только до определенного момента и должен игнорироваться после этого времени (афиша концерта). Предложите читателю намек, что, возможно, это можно было бы удалить или проигнорировать.

Имея эту информацию в каждой плитке, чтение первого изображения может привести к тому, что пользователю будет предоставлена ​​некоторая информация, позволяющая ему решить, хотят ли они продолжить или заблокировать. Если они решат, что хотят продолжить, можно использовать разбиение на страницы, чтобы определить, в каком порядке буферы должны быть упорядочены для реконструкции.

Спецификация прототипа доступна более подробно.

Различные виды использования

Безопасные архивы

Доступ к архиву сопряжен с проблемами с разрешениями. Контролировать доступ к информации в архивах, в которых хранятся конфиденциальные данные, может быть сложно. Использование этого механизма кодирования действует как оболочка вокруг содержимого.

В описании метаданных был предложен рейтинг контента. Было бы очень легко повторно использовать эту часть протокола для использования рейтингов классификации. Пользователи, которым предлагается доступ к защищенному документу, могут попросить своего специализированного ридера сначала проверить классификационный рейтинг контента перед его декодированием. Если у человека есть достаточный уровень допуска только для просмотра некоторых связанных документов, но некоторые из документов в этой области содержат информацию, превышающую текущий уровень допуска человека, это может действовать как вторичный фильтр для ее просмотра.

Очевидно, что это будет инструмент для помощи честным субъектам в среде, а не способ вмешательства в действия злоумышленников, но это еще один уровень защиты, который помогает субъектам управлять информацией, которой они владеют.

Распространение информации

Предполагая, что вы находитесь в месте, где информация контролируется, вы можете распечатать эссе и информационные бюллетени на бумаге, которые затем можно отсканировать для последующего чтения. Например, его можно было бы напечатать в брошюре или вывесить на доске объявлений, и никто не знал бы, кто его опубликовал (остерегайтесь штрих-кодов, спрятанных на распечатках).

Одним из преимуществ в данном случае является высокая степень сжатия. В первом тесте стостраничный роман был сжат до 9 страниц штрих-кодов. Несмотря на то, что для распространения по-прежнему требуются некоторые усилия, весь роман можно было приколотить к пробковой доске.

Затем содержимое будет преобразовано во что-то, что можно будет прочитать на вашем телефоне, например, во вдохновляющий постер.

Удаленные интерактивные медиа

Учебники, плакаты и реклама имеют общий элемент необходимости отображать контент в физически контекстуальных местах: вывеска в музее, плакат, прикрепленный степлером к фонарному столбу. Доступ к сетевым коммуникациям не гарантируется и аудитория упускает возможность.

Возьмем, к примеру, табличку на вершине горы, поздравляющую альпиниста с успешным путешествием. Сообщение о цифровом опыте можно оставить вверху, но для этого потребуется настроить и включить веб-сайт на основе Wi-Fi.

В качестве альтернативы, сохранение иммерсивного опыта на самом плакате позволит сделать цифровой контент доступным, но не потребует питания для обслуживания.

Выгравирование информации на чем-то более прочном, таком как дерево или камень, может быть уместным в таких обстоятельствах, как это.

Заключение

Необходимо анонимное и долгосрочное хранение данных и информации. Свободное распространение идей и их хранение для использования в будущем является фундаментальной потребностью прогресса общества. В то время как цифровая эпоха сделала доступ к информации проще, чем когда-либо, она породила множество новых проблем.



Использование бумаги в качестве цифрового носителя информации — это новый и полезный подход к решению некоторых новых проблемных обстоятельств.

Если вам интересна эта концепция, приглашаю вас ознакомиться с прототипом концепции на GitLab. Доступно мобильное приложение, которое может конвертировать ePUB в изображения и бумагу и конвертировать обратно; прямо на вашем смартфоне.

Вы можете внести свой вклад несколькими способами:

  1. Дизайн пользовательского интерфейса: я просто взял старый из другого проекта, чтобы приступить к работе.
  2. Write a Reader: в настоящее время приложение действует как книжная полка. Некоторые функции хорошо подходят для пользовательского ридера
  3. Пользовательские фильтры: пользователи должны иметь возможность фильтровать контент по автору и названию, если они сталкиваются с чем-то, что их не интересует.
  4. Передайте несколько заметок в вашей школе: Использование системы выявляет ее проблемы. Разместите список клубов на доске объявлений в школе, используя этот механизм кодирования.

Отправьте вопрос, разместите запрос на слияние или оставьте комментарий ниже. Если вы нашли этот контент ценным, не забудьте нажать кнопку «Подписаться.



ОБНОВЛЕНИЕ — 2022–11–15

Из интернет-архива

Цифровые книги изнашиваются быстрее, чем физические книги (15 ноября 2022 г.)