
В последние годы огромное количество исторических артефактов из библиотек, музеев и архивов начали делать свое присутствие в Интернете заметным. Документы, которые никогда раньше не были доступны для всеобщего обозрения, теперь насчитывают тысячи терабайт оцифрованных изображений, ожидающих расшифровки учеными и любителями истории. Древние рукописи и средневековые документы, которые было нелегко прочитать подавляющему большинству историков, теперь переписываются целиком. Транскрипция — это процесс, в котором исторические артефакты превращаются в редактируемый текст, а в данном случае — в редактируемый в цифровом виде текст. Благодаря технологическому развитию в настоящее время технология HTR (Распознавание рукописного текста) предлагает возможность исследовать прошлое, как никогда раньше. Всего несколько лет назад сегодняшние вычислительные мощности относились к сфере воображаемого. Компьютерные системы сильно развились и теперь могут не только «читать» исторические сценарии, но и автоматически расшифровывать рукописи и архивные документы, созданные в предыдущие века.
Автоматическое распознавание исторических артефактов является сложной задачей и требует междисциплинарного подхода. Рукописные документы так же уникальны и индивидуальны, как и их авторы. За последнее десятилетие декорации технологии HTR значительно изменились, так что сегодня мы можем определить наиболее многообещающие факторы, которые сделают возможным реформирование доступа к историческим рукописным документам. Такие технологии, как распознавание образов, компьютерное зрение и анализ изображений документов, — это лишь некоторые из смежных областей, в которых за последнее десятилетие был достигнут значительный прогресс. Кроме того, мощные алгоритмы машинного обучения участвовали в обширной разработке новых методов извлечения и алгоритмов анализа макета документа, которые недавно успешно применялись в области HTR.
Еще одним существенным фактором, влияющим на консолидацию HTR, является наличие оцифрованных архивных документов. В настоящее время все больше и больше институтов воспринимают цифровизацию как естественный компонент своей миссии и вкладывают значительные ресурсы в крупномасштабные инициативы по цифровизации. Впоследствии каждый год тысячи добровольцев сотрудничают с институтами и действительно вносят свой вклад в улучшение доступности оцифрованных коллекций. К счастью, все эти понятия нашли общий язык в одной платформе.
Transkribus считается одной из наиболее важных инициатив по внедрению технологии HTR для общественности. Это программное обеспечение представляет собой революционный инструмент, основанный на языке программирования JAVA вместе с набором графических виджетов. Эта платформа была создана как часть вклада Университета Инсбрука в TranScriptorium e-Research Consortium (2013–2015), проект, который финансировался Европейским Союзом и может считаться альфа-версией программного обеспечения. Профессор Гюнтер Мюльбергер, глава группы оцифровки и электронного архивирования в Университете Инсбрука, вместе со своей командой возглавляет разработку этой сервисной платформы, которая предназначена специально для архивных институтов и специалистов по истории. Их команда получила финансовую поддержку от Европейского Союза, которая была инициирована проектом TranScriptorium и продолжена новым проектом под названием «Признание и обогащение архивных документов». Этот проект сочетает в себе новаторские исследования, гуманитарные науки, инициативы по оцифровке и маркетинговую стратегию краудсорсинга. И последнее, но не менее важное: в рамках этого проекта они стремятся реализовать виртуальную исследовательскую среду, в которой архивисты, волонтеры, ученые и ученые-компьютерщики смогут внедрять инновации для обогащения рукописных архивных материалов с использованием передовых технологий и достигать небывалых ранее результатов. -видимый доступ к архивным материалам при поддержке технологии HTR.
Проект Transkribus, который, согласно его веб-странице, стремится стать сетью для личного обучения, но также и естественным компонентом успешной экосистемы краудсорсинговой гражданской науки, кажется, является одним из далеко идущих инструментов цифровой трансформации исторических исследований. Интерфейс Transkribus — это платформо-автономный инструмент JAVA, с помощью которого пользователи могут получить доступ к услугам, предлагаемым платформой. Пользователи могут бесплатно загрузить Transkribus с подробной веб-страницы Wiki, которая дополнительно доступна в качестве руководства пользователя. За последние шесть месяцев у меня была возможность открыть для себя многие аспекты этого революционного программного обеспечения во время стажировки в Национальном архиве Нидерландов. Transkribus стал причиной, по которой я решил исследовать новые цифровые перспективы в области архивного дела. Эта платформа предлагает возможность исследовать прошлое и пространство для углубления смысла исторических документов с разных сторон.
Когда я начал работать с этой платформой как пользователь, я сразу понял, что это программное обеспечение не всегда удобно для пользователя. На первый взгляд, цифровой интерфейс платформы выглядел каким-то странным и сложным для понимания. Было много странно выглядящих кнопок и функций, которые пользователи, вероятно, никогда раньше не использовали, что создавало пугающее первое впечатление. На мой взгляд, отсутствие какого-либо встроенного введения или пилотного проекта, помогающего пользователям понять, как в достаточной мере использовать платформу, классифицирует Транскрибус как особую категорию программного обеспечения, академического программного обеспечения.
Программное обеспечение действительно хорошо разработано, но не адресовано обычному пользователю. Многообещающая платформа, такая как Transkribus, которая пытается представить технологию HTR в академическом мире, не разработанная на основе удобной для пользователя концепции, кажется довольно странной, поскольку нельзя предположить, что ученые имеют большой опыт работы с этими типами платформ. Ученые для архивных или исторических экспертов основательно разрабатывают эту краудсорсинговую экосистему. Обычные пользователи должны потратить несколько часов или, может быть, дней, прежде чем они смогут использовать программное обеспечение и эффективно работать с ним над своими проектами. Я полагаю, что команда Transkribus знает об этой проблеме, и именно по этой причине они создали серию загружаемых руководств в формате PDF, цель которых — познакомить пользователей с возможностями и функциями программного обеспечения. Каждое руководство анализирует различные аспекты системы и объясняет пользователям, как они могут эффективно эксплуатировать систему. Эти руководства бесспорно полезны, но по сравнению с современными стандартами такой подход может восприниматься некоторыми пользователями как устаревший метод. Большинство современных цифровых приложений, как правило, включают в себя вводные инструкции и подсказки, чтобы заинтересовать пользователей и заставить их чувствовать себя достаточно способными для продолжения работы с приложением. Уверенность должна быть одним из первых чувств, которые пользователи испытывают при использовании программного обеспечения, а с платформой Transkribus уверенность должна приобретаться постепенно путем постоянного изучения и экспериментирования.
Однако было бы несправедливо утверждать, что ручной подход Transkribus не был ни полезным, ни образовательным, поскольку в конечном итоге пользователи смогут понять основную идею этой платформы, а также научиться тому, как они могут работать с ней в достаточной степени. Единственным недостатком с функциональной точки зрения, на мой взгляд, является то, что пользователи могут обучаться и достигать определенного уровня знаний о работе платформы, но для этого им придется потратить значительное количество времени на изучение и ручное чтение. Это не обязательно плохое состояние, но по современным меркам длительные процессы обычно являются отрицательной характеристикой для компьютерных приложений.
Помимо проблем с интерфейсом, Transkribus предлагает своим пользователям несколько уникальных и привлекательных инструментов. Платформа хорошо спроектирована, но, по моему личному мнению, интерфейс остается серьезной проблемой для пользователей. Основным преимуществом Transkribus, по-видимому, является использование технологии HTR, но в качестве платформы для краудсорсинга команда Transkribus должна учитывать, что платформа используется не только экспертами, но также учеными, студентами и отдельными исследователями. Следовательно, разработка более удобного интерфейса кажется важной для успеха программного обеспечения.
Проект «Транскрибус» был основан в 2010 году при финансовой поддержке Совета по исследованиям в области искусства и гуманитарных наук, и до сегодняшнего дня идея этого проекта остается такой же новаторской и новаторской, как и девять лет назад. Целевые группы Транскрибуса можно разделить на четыре категории:
- Ученые-гуманитарии, которые являются экспертами высокого уровня и могут предоставить точную транскрипцию документа. Кроме того, они хотят управлять научными цифровыми изданиями рукописей.
- Архивные учреждения, которые хотят анализировать и восстанавливать информацию из огромного количества оцифрованных документов и в то же время активно участвуют в краудсорсинговых операциях для обогащения полученных данных.
- Добровольцы, которые знают, как эффективно управлять платформой, и могут принять участие в важных проектах транскрипции, таких как READ «Transcribe Bentham».
- Ученые-компьютерщики, которые стремятся разработать новые алгоритмы и методы извлечения информации и могут внести свой вклад в технический прогресс платформы.
Кроме того, разработчики системы уже планируют сделать «Транскрибус» коммерчески доступным для пользователей по всему миру. До сих пор крупные архивные и исторические институты поддерживают связь с «Транскрибусом», выражая свою заинтересованность. В 2018 году Национальный архив Нидерландов использовал Transkribus в качестве своей центральной экосистемы, чтобы основывать известные проекты на передовой технологии HTR. Согласно проекту READ, который финансирует «Транскрибус» до 2019 года, «главная цель — предварительный доступ к историческим, рукописным документам со всего мира, независимо от их алфавита, языка или даты их создания». Транскрибус, как часть проекта READ, следует той же стратегии продвижения и обещает своим пользователям возможность расшифровывать исторические документы высоко стандартизированным, гибким и надежным способом. В основном для архивной области Transkribus предлагает путь к новым возможностям доступа, обогащения и изучения архивных материалов, как никогда раньше.
Можно утверждать, что Transkribus соответствует стандартам и ожиданиям своих пользователей. Среди уникальных особенностей этой платформы — инструмент определения ключевых слов, автоматическая транскрипция, расширенный анализ макета и индивидуальное производство моделей HTR. У каждой функции есть свои преимущества и недостатки, но, по мнению Transkribus, важнее всего безопасность транскрипции. Сервер Transkribus гарантирует, что пользователи никогда не потеряют свои расшифровки или документы, которые они загрузили в систему. Однако, помимо безопасности, эта платформа также обеспечивает долгосрочный доступ к историческим и архивным артефактам, а также способствует сохранению рукописного материала через свой сервер. Таким образом, доступность в сочетании с высокотехнологичной технологией HTR, обеспечиваемой хорошо организованной технологической экосистемой, являются элементами, которые делают эту платформу почти неотразимой комбинацией для пользователей Transkribus.
«Транскрибус» может упростить задачи, на выполнение которых часто уходят годы работы, помогая ученым со сложным почерком и необычными макетами. Тем не менее, передовые технологии в сочетании с уникальными характеристиками платформы также являются доминирующими характеристиками этой системы. Серверы Университета Инсбрука используют алгоритмы машинного обучения, чтобы научить систему новым стилям письма. Система может транскрибировать текст на любом языке и типе почерка. После того, как пользователь расшифрует часть текста вручную, программный движок учится идентифицировать символы, а затем автоматически завершает задачу с впечатляющей точностью. Таким образом, идея платформы кажется исключительно простой и новаторской. Все, что нужно сделать пользователю, это передать изображение в программу и часть соответствующего текста и на основе этого текста; программа может выучить рукописный шрифт и подобные шрифты. Однако для того, чтобы сделать это должным образом, пользователи должны создать определенные обстоятельства, при которых их документы в конечном итоге будут автоматически расшифрованы.
Более того, экосистема Транскрибуса, несомненно, является большим плюсом, от которого зависит коммерческий успех платформы. У пользователей есть возможность стать частью передового с технологической точки зрения кластера, который позволяет им расширять свои возможности и знания о рукописных документах и применении технологии HTR. Все эти услуги предоставляются проектом READ в сочетании с опытом команды Transkribus бесплатно. Стандартное требование для использования этой экосистемы — средние мобильные устройства и персональные компьютеры. Scan Tent может быть блестящим подходом, который может заинтересовать потенциальных пользователей, но даже без этого оборудования пользователи по-прежнему могут создавать достаточную и достоверную сканированную и текстовую информацию для своей работы на платформе.
С другой стороны, автоматическая транскрипция может быть одним из главных преимуществ Transkribus, но успех этой операции зависит от потребностей каждого документа. Каждый текст имеет свои уникальные характеристики и требует особого индивидуального подхода. Пользователи должны иметь возможность предоставить системе точную человеческую расшифровку документа, который они хотят транскрибировать, и после этого они должны построить модель, достаточно интеллектуальную, чтобы декодировать типы почерка, которые включает документ. Короче говоря, мы приходим к выводу, что у этой платформы не одна, а несколько торговых точек. Технология, с которой работает платформа Transkribus, может предоставить полностью передовую технологию HTR для академических и исследовательских нужд, в то время как повышенная доступность расшифрованных документов через серверы в Университете Инсбрука гарантирует, что этот проект будет продолжать объединять научные и технологические достижения. Мир.
Несмотря на то, что помимо расширенных функций платформ, конкуренция в подходах к маркетингу сегодня кажется существенной проблемой для каждой сервисной платформы. В настоящее время в мире нет службы, которая предлагала бы услуги, аналогичные услугам Transkribus. В том же контексте, в настоящее время есть много компаний высокого уровня, которые, возможно, могут обойти «Транскрибус». Например. В октябре 2014 года Google объявил о своем плане преобразовать пятнадцать миллионов исторических книг в цифровую форму и бесплатно распространять их в Интернете до конца 2015 года. цифровых суррогатов, таких как Transkribus, коммерческий успех платформы резко изменится.
Короче говоря, эта часть машины даст возможность научной аудитории разработать дальнейшие методы исследования и установить совершенно новые способы работы и извлечения информации из рукописных архивных рукописей. Более важным является тот факт, что Transkribus является мощным средством, к которому пользователи имеют свободный доступ, и благодаря этому они могут достичь большинства современных технологических открытий в области HTR как часть платформы Transkribus. Transkribus предлагает своим пользователям множество передовых инструментов, в том числе:
- Архивирование текстовых коллекций и связанных с ними сканов или транскрипций
- Обогащение метаданными
- Автоматическая и ручная сегментация текста
- Установка тегов, комментирование и аннотация
- Автоматическая транскрипция
- Использование автоматических функций HTR
- Обучение собственной модели HTR для определенного шрифта
- Измерение частоты ошибок HTR и OCR
Каждый инструмент предлагает пользователям разные точки зрения на редактирование, и все они одинаково привлекательны. Transkribus, чтобы обеспечить такое расширенное распознавание и анализ текста, включает в себя передовые алгоритмы машинного обучения и обработку естественного языка. Кроме того, система содержит уникальный фрагмент исходного кода и механизмы, использующие возможности нейронных сетей. Эта сложная вычислительная структура в сочетании с видением, которое предлагает проект READ, являются основными причинами, почему эта система является такой амбициозной инициативой для архивного сообщества.
Следовательно, мы приходим к выводу, что Transkribus является исключительным технологическим продуктом, потому что он создан в соответствии с техническими высокотехнологичными спецификациями, поскольку его собственная экосистема может вместить почти любое оборудование, доступное сегодня. Транскрибус с технической точки зрения, возможно, еще не идеален, но рост, который платформа продемонстрировала за последнее десятилетие, гарантирует будущее процветание программного обеспечения. Наконец, что не менее важно, справедливо признать, что проект «Транскрибус» действительно является мощной ступенькой, которая вдохновит новую архивную эру, поскольку уже изменила способы, с помощью которых большинство европейских архивных учреждений связывались с исследованиями рукописных материалов.