Кейс по изучению коллекции компьютерных журналов в Интернет-архиве

ПРИМЕЧАНИЕ. Это набросок моего следующего проекта #DigitalHumanities и #AI/#ML. статья о моем исследовании #MAGAZINEgts. Я (предварительно) публикую это, чтобы сделать его доступным в поддержку возможности представить молниеносный доклад на предстоящем заключительном заседании Библиотека как лаборатория: новая серия исследований вычислительного использования Интернет-архива. Коллекции» в Интернет-архиве, 11 мая, 11:00 по тихоокеанскому времени / 14:00 по восточному времени. После того, как я закончу, эта статья послужит документом с изложением моей позиции для моего участия в сессии «Неконференция по вычислительной периодике: изучение новых возможностей для критических и совместных исследований» Association for Computers and Гуманитарная конференция (ACH) DH Unbound 2022.

Клеменс Нойдекер недавно выступила с презентацией на веб-семинаре, посвященной современным исследованиям технологий OCR и OLROptical Распознавание символов и Распознавание оптического макета — в Берлинской государственной библиотеке (нем. Staatsbibliothek zu Berlin; официально сокращенно SBB согласно Википедии).

Яркое и информативное выступление Клеменса — «Семинар по цифровому наследию: анализ макета и оптическое распознавание символов с помощью глубокого обучения и эвристики» — доступно на YouTube.

Я настоятельно рекомендую вам сделать перерыв в чтении и посмотреть его презентацию, если вы еще не знакомы с ней. Сама презентация — это первые полчаса видео на YouTube, а вторая половина представляет собой оживленную и интересную дискуссию в формате вопросов и ответов среди исследователей цифровых гуманитарных наук. Если у вас сейчас нет времени смотреть полное видео, вы можете ознакомиться с его презентацией, просмотрев слайды из его выступления в Google Docs.

Клеменс и его коллеги из Исследовательского центра оцифровки в SBB в основном сосредоточены на хранении исторических документов периода до середины 20-го века. Здесь я хочу сосредоточиться на потенциальных точках соприкосновения между недавно финансируемым SBB исследованием «Mensch.Maschine.Kultur» (далее M.M.K) и моими MAGAZINEgts. исследование было сосредоточено на обширной коллекции компьютерных журналов в Интернет-архиве. С этой целью я предлагаю вашему вниманию выделенную копию слайда «Будущая работа» из презентации Клеменса.

Основные моменты, которые я перечислил выше на этом слайде, предполагают потенциальные точки соприкосновения для сотрудничества между предстоящим исследованием M.M.K/OCR-D и моей работой по разработке формата хранения данных Ground TruthMAGAZINEgts — и связанные программные инструменты, обеспечивающие интегрированную модель для сложных структур документов и отображения контента. Прежде чем перейти к каждой из этих точек соприкосновения, позвольте мне кратко описать обширную коллекцию Computer Magazines в Интернет-архиве.

Коллекция компьютерных журналов в Интернет-архиве

Коллекция компьютерных журналов в Интернет-архиве – это собрание коллекций, состоящее примерно из примерно 290 многосерийных коллекций отдельных компьютерных журналов, примерно составленных с момента появления микрокомпьютеров в 1970-х годах до сегодня. Эта коллекция коллекций динамично пополняется коллективными усилиями исследователей компьютерной истории и поклонников этих изданий.

Я не могу дать вам точные данные о размере и объеме этих коллекций, поскольку это движущаяся цель. На сегодняшний день не было предпринято никаких строгих усилий для выявления дубликатов, непригодных для использования плохо оцифрованных или неправильно маркированных вкладов в этой всеобъемлющей коллекции. Однако я могу дать вам некоторые приблизительные оценки его размера и охвата. Коллекция Computer Magazines состоит примерно из 33 000 многостраничных выпусков около 290 периодических изданий, издаваемых редакциями по всему миру на десятках языков.

Я не могу дать вам точное количество страниц от общего числа страниц в этой коллекции сборников, но я могу сказать, что эти журналы охватывают весь спектр от нескольких машинописных страниц информационных бюллетеней местных групп пользователей компьютеров до крупных коммерческих ежемесячных и еженедельных публикаций, насчитывающих сотни страниц. за выпуск.

В то время как нетривиальное подмножество этих публикаций было точно помечено мета-тегами языка их редакционного контента, подавляющее большинство выпусков по умолчанию неправильно помечено как английский.

Благодаря моим усилиям по разработке набора данных Ground Truth для компьютерного журнала TOC — Table of Contents — страниц, я увидел, как много и разнообразно существует язык, который документирует глобальный феномен появления Цифрового мира, в котором мы живем сегодня.

[[[вставить коллаж из разных языков и типов компьютерных журналов ]]]

Хотя история, освещаемая в этих публикациях, недавняя, этот период имеет огромное значение для нашего коллективного культурного наследия. Сообщество исследователей цифровых гуманитарных наук окажет огромную услугу будущим поколениям историков, посвятив часть наших исследований по оцифровке этих публикаций точно так же, как мы делаем это для более отдаленных исторических документов, которые сейчас сохраняются в цифровых форматах.

Вместо того, чтобы зацикливаться на важности и разнообразии публикаций в коллекции компьютерных журналов в Интернет-архиве, я рекомендую вам ненадолго отвлечься от чтения здесь, чтобы лично увидеть этот уникальный ресурс. который находится в свободном доступе как для профессиональных исследователей, так и для заинтересованной общественности. Обязательно посетите страницу О этой коллекции коллекций, так как она дает дополнительную информацию о предметном освещении этих публикаций.

С этим кратким введением в коллекцию компьютерных журналов в Интернет-архиве давайте теперь рассмотрим точки возможного сотрудничества между моим исследованием MAGAZINEgts и недавно финансируемым исследованием «Mensch.Maschine.Kultur» в SBB.

Touchpoint 1: Мультимодальные методы анализа макета документа

Интересно, что тема мультимодализма стоит первым пунктом на слайде Клеменса Future Work, поскольку этот аспект — одна из наименее оцененных и изученных особенностей журналов. Чтобы поддержать это утверждение, позвольте мне сначала привести некоторые комментарии с полезной страницы «Что такое мультимодальность?» на веб-сайте Центра мультимодальных исследований Университетского колледжа Лондона:

Мультимодальность — это междисциплинарный подход, который понимает коммуникацию и репрезентацию как нечто большее, чем просто язык… Мультимодальные подходы предоставили концепции, методы и основу для сбора и анализа визуальных, слуховых, телесных и пространственных аспектов взаимодействия и окружающей среды, а также отношения между ними… Во-первых, мультимодальность предполагает, что репрезентация и коммуникация всегда опираются на множество модусов, каждый из которых вносит свой вклад в смысл… Во-вторых, мультимодальность предполагает, что ресурсы социально формируются с течением времени, чтобы стать смыслом… В-третьих, люди организуют смысл посредством своих выбор и настройка режимов…

По мере того, как мы продвигаемся дальше в мир рожденных цифровых технологий и все больше и больше потребляемых в цифровом формате, все меньше и меньше из нас изначально знакомо с когнитивным опытом чтения печатных журналов, газет, или другой серийно публикуемый физический документ. Журналы современной печатной эпохи — особенно коммерческие журналы массового потребления, которые зависят от субсидий на производство и распространение посредством размещения рекламы, — являются воплощением мультимодальной среды. Я много писал об этом в своей зарождающейся жизни после рака в качестве гражданского ученого в области цифровых гуманитарных наук. Самая актуальная недавняя статья, PRESSoo: разоблачение коварных структур документов в журналах, была написана в качестве дополнения к международной конференции NewsEye Прошлое — это пролог.

Как следует из названия этой статьи, исследователи цифровых гуманитарных наук обнаружат, что Онтология IFLA PRESSoo может предоставить основанную на стандартах расширяемую модель, с помощью которой можно описывать и исследовать сложные структуры документов журналов и подобных периодических изданий. периодические издания. PRESSoo — это специализированное расширение онтологии FRBRoo для библиографических ссылок, которое само по себе является расширением Концептуальной эталонной модели CIDOC-CRM для музеев, библиотеки и архивы. (Подробнее о развивающейся сети онтологий, совместимых с CIDOC-CRM, см. здесь.)

Мое исследование сосредоточено на использовании сущностей Правило выпуска и Изменение правила выпуска, чтобы зафиксировать детализированные руководящие принципы редактирования и макета, используемые для обеспечения узнаваемого бренда мультимодального «внешнего вида». » в серийно издаваемый журнал.

В задачу этой статьи не входит подробное рассмотрение особенностей того, как и почему следует рассматривать возможность использования правил выпуска PRESSoo для документирования и обнаружения сложных структур документов во время оцифровки журнала. Я рекомендую вам прочитать вышеупомянутую статью для этих деталей. Скорее, здесь я хочу сосредоточиться на том, как эти правила позволяют нам обнаруживать и документировать мультимодальную природу журналов на уровне всего выпуска и серийных изданий. Сделав это замечание, мы можем перейти к краткому изложению характера потенциального сотрудничества между исследовательской программой M.M.K/OCR-D и моей работой в MAGAZINEgts.

С появлением краудсорсинговых технологий транскрипции и машинного обучения, применяемых для курирования крупномасштабных проектов по оцифровке документов, мы стали свидетелями значительного прогресса в переходе от простого распознавания текста OCR к более сложной задаче mis en page или макет страницы, распознавание (OLR). Слайды и комментарии Клеменса Нойдекера на его веб-семинаре, упомянутые во введении к этой статье, особо указывают на то, как машинное обучение в сочетании с эвристикой выполняет машинное обучение только в задачах оцифровки OCR и OLR. Эвристика, на которую ссылается Клеменс, — это то, что Андреас Майер называет обучением известного оператора как функцией, которая должна быть включена в конвейеры машинного обучения. Эти эвристики или известные операторские функции в контексте конвейера машинного обучения составляют общие когнитивные ожидания, которые мы применяем при создании или чтении мультимодального информационного ресурса.

В то время как отдельные страницы реализуют некоторые из этих проверенных опытом ожиданий, истинная мультимодальная природа журнала полностью реализуется путем понимания дизайна или использования таких документов в целом и серийном характере этих публикаций. В то время как определение порядка чтения сегментов макета страницы на отдельной странице является сложной задачей и важно для рациональной интерпретации, опыт чтения журнала на уровне всего номера гораздо сложнее и так же, если не более, важен для полного понимания содержания. изображены в документе.

Например, когда мы читаем журнал, мы знаем, что на обложке будет указан бренд/название журнала, дата выпуска и т. д., а также различные графические и текстовые подсказки относительно того, что можно ожидать найти внутри. Внутренняя передняя обложка, внутренняя задняя и задняя обложки, скорее всего, будут рекламными объявлениями на всю страницу. На первых нескольких страницах мы ожидаем найти шапку, важнейшее оглавление и такую ​​вступительную часть, как обзорное приветственное сообщение от редактора или издателя, письма редактору и короткие повторяющиеся статьи вместе с рекламой различного размера, формы и размещения на странице. С мультимодальной точки зрения мы мгновенно распознаем шапку, но обычно не читаем ее подробно. С другой стороны, мы уделяем большое внимание странице или страницам оглавления. В зависимости от наших потребностей, ориентированных на потребителя, мы можем сосредоточиться на одних рекламных объявлениях, просто взглянув на другие, воспринимая их как импрессионистские мемы.

Затем мы узнаем, что оставили вступительную часть журнала, когда наткнулись на макеты страниц, которые распознаются как тематические статьи. Эта центральная часть журнала известна как Feature Well, название, напоминающее о богатой информацией «подпитке», которую читатель стремится получить, читая номер. Рекламы в этом разделе, как правило, меньше, чтобы не отвлекать внимание от рекомендуемого контента. Рекламодатели и дизайнеры журналов знают, что читатели, как правило, дольше остаются на каждой из страниц колодца, поэтому это рекламное место часто имеет премиальную цену и может предлагаться только на всю страницу или в других больших размерах. Читатель распознает конец раздела Feature Well, когда появляется больше и меньше объявлений вместе с менее значительными повторяющимися редакционными колонками, продолжениями статей и т. д.

Точно так же, как эти когнитивные навыки и ожидания используются при потреблении мультимодального печатного документа, мы также выиграем от разработки конвейеров оцифровки журналов, которые привносят такие эвристические или известные операторские функции в процесс сканирования и OCR/OLR. Я уточню это утверждение по мере того, как мы углубимся в оставшиеся точки соприкосновения, которые я вижу как потенциал для сотрудничества между исследовательскими миссиями M.M.K/OCR-D и MAGAZINEgts.

Touchpoint 2: извлечение изображений, классификация, поиск

Яда Яда Яда…

Touchpoint 3: Выпуск и курирование наборов данных культурного наследия для ИИ

Яда Яда Яда…

Touchpoint 4: Методы обнаружения объектов для обнаружения и классификации областей

Яда Яда Яда…

Touchpoint 5: Активное обучение, предварительная подготовка, тонкая настройка

Яда Яда Яда…

Touchpoint 6: больше высококачественных наземных данных для обучения и оценки

Яда Яда Яда…

Выводы и дальнейшая работа

Яда Яда Яда…

Джим Сэлмонс – семидесятиоднолетний человек, перенесший рак, гражданин, занимающийся цифровыми гуманитарными науками. Его основное исследование сосредоточено на разработке формата Ground Truth Storage, обеспечивающего интегрированную сложную структуру документа и модель отображения контента для изучения оцифрованных коллекций журналов и газет печатной эпохи. Падение дома в июле 2020 года привело к серьезной травме спинного мозга, из-за которой его ловкость рук и подвижность резко ухудшились.

Джиму посчастливилось получить доступ к сообществу раннего доступа GitHub Copilot Technology во время его первоначальных попыток вернуться к работе над разработкой инструментов на основе Python, представляющих его основной исследовательский интерес. Ощутив резкое положительное влияние GitHub Copilot на его собственную производительность разработки, он страстно заинтересовался разработкой программы исследований и поддержки для исследования и документирования использования этой инновационной вспомогательной технологии программирования для использования разработчиками с ограниченными возможностями. Подробнее об этом новом направлении его деятельности вы можете узнать из публикации GitHub Copilot for Disabled Developers.