10 лучших наборов данных африканских языков для проектов по науке о данных

Хорошие наборы данных африканского языка для многочисленных задач НЛП.

В Африке более 2000языков, однако эти языки недостаточно представлены в существующей экосистеме обработки естественного языка (NLP). Одной из проблем является отсутствие полезных наборов данных по африканскому языку, которые можно использовать для решения различных социальных и экономических проблем.

В этой статье я составил список наборов данных по африканским языкам из Интернета. Эти наборы данных можно использовать в многочисленных задачах НЛП, таких как классификация текста, распознавание именованных сущностей, машинный перевод, анализ настроений, распознавание речи и моделирование тем.

Эта коллекция наборов данных была опубликована, чтобы дать вам возможность использовать свои навыки и помочь в решении различных задач.

Текстовая классификация

Наборы данных классификации текста классифицируются или организуются в разные группы на основе их содержимого.

Ниже приведен список наборов данных африканских языков для Текстовой классификации.

1. Набор данных новостей на суахили

Набор данных новостей суахили содержит более 31 000 новостных статей из различных категорий новостей, таких как местные, международные, деловые или финансовые новости, здоровье, спорт и развлечения. Язык суахили является одним из самых распространенных языков в Африке, на нем говорят 100–150 миллионов человек в Восточной Африке.

Данные были собраны с различных платформ публикации новостей внутри и за пределами Танзании. Набор данных можно использовать для разработки модели классификации с несколькими классами для классификации новостного контента в соответствии с указанными категориями.

Эта модель может использоваться новостными онлайн-платформами суахили для автоматической группировки новостей по категориям и помощи читателям в поиске конкретных новостей, которые они хотят прочитать.

Вы также можете скачать этот набор данных из datasets python library:

from datasets import load_dataset

dataset = load_dataset("swahili_news")

Примечание. Набор данных новостей на суахили имеет дисбаланс распределения категорий. Он содержит несколько новостных статей в следующих категориях:

Международные новости (6,2%)
Новости здравоохранения (4,9%)
Деловые новости (4,3%)

2. Набор данных новостей Чичева

Этот набор данных состоит из новостных статей на языке чичева. Чичева — это язык банту, на котором говорят в большей части Южной, Юго-Восточной и Восточной Африки, а именно в странах Малави и Замбии, где он является официальным языком.

Набор данных содержит набор из 3482 статей, содержащих более 930 000 слов и более 48 000 предложений. Новостные статьи Chichewa разделены на 19 категорий, таких как образование, закон/порядок.политика, культура, искусство и ремесла, сельское хозяйство, экономика и дикая природа.

Вы также можете загрузить этот набор данных по следующей ссылке: AI4D Malawi News Classification Zindi Challenge.

Распознавание именованных объектов

Наборы данных распознавания именованных объектов используются для извлечения информации путем обнаружения и классификации именованных объектов, упомянутых в неструктурированном тексте. Примерами сущностей являются имена людей, организации, местоположения, время и даты.

NER является важным компонентом многочисленных приложений, включая средства проверки орфографии, диалоговые агенты и системы локализации голосовых и диалоговых систем.

Ниже приведен список наборов данных на африканском языке для распознавания именованных объектов.

3. Наборы данных Масахане-нер

Масакхане — это массовое сообщество НЛП для Африки, созданное африканцами с миссией укреплять и стимулировать исследования НЛП на африканских языках. Сообщество создало первый крупный общедоступный высококачественный набор данных для распознавания именованных объектов (NER) на десяти африканских языках.

амхарский
хауса
игбо
Киньярванда
Луганда
Луо
Найя Пиджин
суахили
волоф
Йоруба

Вы можете прочитать исследовательскую работу здесь MasakhaNER: Распознавание именованных сущностей для африканских языков и скачать десять наборов данных NER здесь.

Машинный перевод

Машинный перевод (МП) — это задача перевода текста или речи с исходного языка на другой целевой язык. Машинный перевод можно использовать для быстрого перевода больших объемов текста без участия человека.

Наборы данных машинного перевода можно использовать для создания моделей машинного перевода для различных целей, таких как:

Внутренние электронные письма и другие письменные или устные сообщения.
Документация и инструкции для продуктов или услуг.

Ниже приведен список наборов данных африканского языка для машинного перевода.

4. Набор данных машинного перевода с французского на эве и с французского на фонгбе

Это набор параллельных корпусов для машинного перевода с французского на эве и с французского на фонгбе.

Фонбге и эве являются нигеро-конголезскими языками, на фонгбе говорят в Бенине, где говорят примерно 4,1 миллиона человек, а на эве говорят в Того и на юго-востоке Ганы, где говорят примерно 4,5 миллиона человек.

Этот набор данных содержит примерно 23 000 параллельных предложений с французского на эве и 53 000 с французского на фонгбе, собранных из блогов, рассказов, газет, ежедневных разговоров, веб-страниц и аннотированных для нейронного машинного перевода.

5. Набор данных машинного перевода с йоруба на английский

Это параллельный набор данных корпуса предложений для машинного перевода с языка йоруба на английский язык.

Йоруба — нигерско-конголезский язык, на котором говорят в Западной Африке (юго-запад Нигерии). Количество говорящих на йоруба оценивается от 45 до 55 миллионов человек.

Набор данных состоит из 10 054 параллельных йоруба-английских предложений из разных областей, таких как новости, пословицы йоруба, стенограммы фильмов, перевод локализации и книги.

6. Набор данных машинного перевода с английского на луганду

Это набор данных корпуса параллельных предложений для машинного перевода с английского языка на язык луганда.

Луганда — язык банту, один из основных языков Уганды. На нем говорят более 8,5 миллионов баганда и других жителей Кампалы (столицы Уганды).

Набор данных состоит из 15 022параллельных предложений на английском и лугандском языках. Он был создан группой исследователей из исследовательской лаборатории искусственного интеллекта и науки о данных Университета Макерере вместе с группой преподавателей, студентов и фрилансеров из луганда.

Анализ настроений

Наборы данных анализа настроений используются для интерпретации и классификации эмоций (положительных, отрицательных и нейтральных) в текстовых данных с использованием различных методов анализа текста.

Анализ настроений нашел свое применение в различных областях, таких как мониторинг социальных сетей, мониторинг брендов, обслуживание клиентов и исследования рынка.

Ниже приведен список наборов данных африканского языка для анализа настроений.

7. Тунисский набор данных

Tunizi — это первый набор данных анализа настроений в Тунисе Arabizi. Тунисский арабизи представляет собой тунисский диалект, который пишется латинскими буквами и цифрами, а не арабскими буквами.

iCompass собрал комментарии из социальных сетей, которые выражают отношение к популярным темам. Они извлекли 100 тысяч комментариев с помощью общедоступных API потоковой передачи.

Собранные комментарии были вручную аннотированы с использованием общей полярности:

Положительный (1)
Отрицательный (-1)
Нейтральный (0)

Аннотаторы были разнообразны по полу, возрасту и социальному происхождению.

Вы также можете скачать этот набор данных из datasets python library:

from datasets import load_dataset

dataset = load_dataset("tunizi")

Распознавание речи

Распознавание речи, также известное как автоматическое распознавание речи (ASR), можно определить как технологию, которая анализирует человеческую речь и формирует выходные данные, часто письменную транскрипцию, в режиме реального времени. Иногда этот процесс называют «преобразованием речи в текст».

Не путайте это с распознаванием голоса, так как распознавание голоса просто пытается идентифицировать голос отдельного пользователя.

Ниже приведен список наборов данных африканского языка для распознавания речи.

8. Набор данных распознавания речи в волоф

Волоф — это язык Сенегала, Гамбии и Мавритании. На нем говорят более 10 миллионов человек, и около 40 процентов (примерно 5 миллионов человек) населения Сенегала говорят на волоф как на родном языке.

Набор данных ASR содержит в общей сложности 6683 аудиофайла и транскрипции и был создан группой исследователей из компании Baamtu Datamation в Сенегале.

9. Набор данных распознавания речи в киньяруанда

Киньяруанда — язык банту и официальный язык Руанды. На нем говорят не менее 12 миллионов человек в Руанде, Восточной Демократической Республике Конго и на юге Уганды.

Набор данных был создан 895 говорящими разного пола и возраста на общей голосовой платформе. Набор данных содержит в общей сложности 1183 часа проверенной речи. Текущий размер набора данных составляет 40 ГБ.

Тематическое моделирование

В тематическом моделировании используются методы обучения без учителя для извлечения основной темы или набора тем, встречающихся в наборе текстовых документов.

Ниже приведен список наборов данных африканского языка для тематического моделирования.

10. Южноафриканский новостной набор данных

Это набор данных новостей из Южной Африки. Новостные данные были собраны со страниц SABC4 в Facebook. SABC — общественный вещатель из Южной Африки.

Набор данных содержит заголовки новостей (то есть краткий текст) на языках сетсвана и сепеди. Сетсвана - это язык банту, на котором говорят в Южной Африке около 8,2 миллиона человек, в то время как на сепеди в основном говорят в северных частях Южной Африки 4,7 миллиона человек.

Поскольку набор данных не аннотирован, вы можете использовать его для создания модели Topic для кластеризации данных новостей по различным новостным темам, таким как спорт, политика, культура и развлечения.

Заключительные мысли о наборах данных африканских языков

Я надеюсь, что этот список различных наборов данных по африканским языкам оказался вам полезным, и вы сможете использовать их в своем следующем проекте по науке о данных. Я буду рад увидеть, какие приложения/решения вы создадите из этих наборов данных. Если вы не смогли найти нужный набор данных, перейдите по следующим ссылкам:

Поздравляем👏👏, вы дочитали до конца этой статьи! Надеюсь, вы узнали что-то новое, что поможет вам в вашем следующем проекте по науке о данных.

Если вы узнали что-то новое или вам понравилось читать эту статью, поделитесь ею, чтобы другие могли ее увидеть. А пока, увидимся в следующем посте!

Вы также можете найти меня в Твиттере @Davis_McDavid.

И последнее: читайте другие подобные статьи по следующим ссылкам.

Познакомьтесь с лучшими победителями Восточноафриканского виртуального хакатона по машинному обучению 2021
Первый виртуальный хакатон для стран Восточной Африки.davis-david.medium.com

Как бесплатно развернуть модель машинного обучения — 7 облачных платформ для развертывания моделей машинного обучения
Я помню, как впервые создал простую модель машинного обучения. Это была модель, которая могла предсказать вашу зарплату…medium.com

Scikit-Learn 0.24: 5 основных новых функций, которые вам нужно знать
Scikit-learn остается одной из самых популярных и бесплатных библиотек машинного обучения с открытым исходным кодом для Python. …medium.com

Эта статья была впервые опубликована здесь.