Набор данных SHABD (Sampoorna Hindi Akshar Barakhadi Digital)

Хранилище изображений алфавитов хинди, состоящих из гласных, согласных и их комбинаций.

Язык хинди написан с использованием сценария деванагари, который составляет основу для 120 языков по всему миру. В Индии хинди является официальным государственным языком 12 штатов и поэтому широко используется в правительственных и юридических целях. Язык состоит из 44 алфавитов (11 гласных и 33 согласных) и нескольких специальных символов, в результате чего их количество достигает 52 [источник]:
Гласные: अ, आ, इ, ई, उ , ऊ, ऋ, ए, ऐ, ओ, औ
Согласные: क, ख, ग, घ, ङ, च, छ, ज, झ, ञ, ट, ठ, ड, ढ, ण, त, थ, द, ध, न, प, फ, ब, भ, म, य, र, ल, व, श, ष, स, ह
Комбинированные согласные: क्ष, त्र, ज ्ञ, श्र
Анусвар: (ं) как в अं
Афас: (:) как в अः
Бинарные согласные: ड़, ढ़

Язык хинди очень сложен по сравнению с английским из-за множества вариаций одного иероглифа. Таким образом, этот список можно расширить, объединив гласные с согласными в слоги. Например: क может сочетаться со всеми гласными, чтобы образовать: क, का, कि, की, कु, कू, के, कै, को, कौ, कं, कः. Точно так же все символы могут быть объединены с гласными, чтобы охватить все возможные варианты произношения согласных. Доступные наборы данных для языка состоят только из изображений основных согласных и гласных. Модели, разработанные на основе такого набора данных, ограничивают задачи OCR, поскольку они не смогут распознавать все комбинированные алфавиты. Новый набор данных SHABD, доступный на Kaggle, преодолевает этот недостаток, создавая изображения для гласных, согласных, а также их комбинаций, что делает возможными задачи OCR для всего набора символов языка хинди. Набор данных состоит из 384 классов, то есть алфавитов хинди. Изображения были сгенерированы с помощью модуля TextRecognitionDataGenerator, доступного на GitHub. Модуль генерирует новые синтетические изображения символов из заданного списка с использованием библиотек Python. Несколько шрифтов и различные комбинации значений размытия и перекоса использовались для создания в общей сложности 792 вариантов изображений для каждого класса. Каждое изображение имеет размер 32 x 32 пикселя, а значения отдельных пикселей находятся в диапазоне от 0 до 255, что указывает на серость этого пикселя.

Набор данных изображений был преобразован в файлы значений, разделенных запятыми, и разделен на обучающие (634 изображения) и тестовые (158 изображений) наборы с использованием случайной выборки из исходного набора 792 изображений. Классификатор логистической регрессии, запущенный на этом наборе данных, дал точность обучения более 90% и точность теста более 80%. Эта модель служит базовой моделью, а показатели производительности — эталонными показателями. Этот набор данных можно использовать для оптического распознавания символов и цифрового перевода языка хинди, что может помочь улучшить услуги в сфере образования, управления, бизнеса и т. д. Будущие масштабы этого проекта включают использование более продвинутых алгоритмов машинного обучения для улучшения контрольных показателей.

Набор данных SHABD (Sampoorna Hindi Akshar Barakhadi Digital)

Хранилище изображений алфавитов хинди, состоящих из гласных, согласных и их комбинаций.

Вопросы по теме