Суахили (также известный как суахили) — один из самых распространенных языков в Африке. На нем говорят 100–150 миллионов человек в Восточной Африке. Суахили широко используется в качестве второго языка людьми по всему африканскому континенту и преподается в школах и университетах.
В Танзании это один из двух национальных языков (второй — английский).

ОГЛАВЛЕНИЕ

  1. Новости суахили
  2. Цель
  3. Выполнение
  4. Результаты
  5. Проблемы
  6. Где скачать?
  7. Планы на будущее

Новости суахили

Новости на суахили являются важной частью медиасферы Танзании и других стран Восточной Африки. Новости способствуют образованию, технологиям и экономическому росту страны, а новости на местных языках играют важную культурную роль во многих африканских странах.

В современную эпоху африканские языки в новостях и других сферах рискуют быть утерянными, поскольку английский становится доминирующим языком в онлайн-пространствах.

Цель

Текстовые наборы данных на африканском языке с открытым исходным кодом на суахили не часто доступны в Танзании, что приводит к отставанию в создании технологий НЛП для решения африканских проблем.

Целью этого проекта было создание набора текстовых данных с открытым исходным кодом на языке суахили, ориентированного на новостные статьи. В основном я занимаюсь сбором новостей в различных категориях, таких как местные, международные, деловые или финансовые, медицинские, спортивные и развлекательные.

Набор данных с открытым исходным кодом, и специалисты НЛП могут получить доступ к набору данных и извлечь из него уроки.

Выполнение

Я смог реализовать следующие этапы проекта для достижения цели проекта.

(a)Сбор веб-сайтов с новостями на суахили
Первый этап проекта заключается в поиске и сборе различных веб-сайтов, предоставляющих новости на языке суахили. Мне удалось найти несколько веб-сайтов, которые предоставляют новости только на суахили, а другие — на других языках, включая суахили.

(b) Понимание политики и авторских прав.
На этом этапе проекта я в основном сосредотачиваюсь на понимании их политик и авторских прав для каждого веб-сайта в отношении того, что я могу делать, а что нет. AI4D помог мне понять этот процесс, предоставив рекомендации по защите данных, которые необходимо учитывать при сборе и анализе данных.

© Понять структуру новостного веб-сайта
Каждый новостной веб-сайт был разработан с использованием различных веб-технологий, таких как PHP, Python, WordPress, Django, javascript и т. д. Основная задача — проанализировать исходный код веб-сайта с помощью инструмента веб-браузера (просмотреть исходный код страницы). Я просмотрел различные теги HTML, чтобы найти заголовки новостей, категории и ссылки для доступа к содержимому определенного заголовка.

(d) Сбор данных
Новостные статьи собирались с использованием различных инструментов и языков программирования. Эти инструменты следующие:

  • Язык программирования Python
  • блокнот Юпитер
  • Пакеты Python с открытым исходным кодом (NumPy, pandas и BeautifulSoup)

Собранные новостные статьи были сохранены в файле CSV, содержащем содержание (текст) и категорию (ярлык) конкретных новостей, например, спортивных.

(e) Анализ и очистка
Собранные новостные статьи были проанализированы и очищены от ненужной информации, такой как HTML-теги и символы, которые были собраны в процессе очистки.

Результаты

В конце этого проекта я смог достичь следующих вех

  • Сбор и систематизация около 31 000 новостей
  • Я собрал новости из шести категорий:местные, международные, новости бизнеса, здравоохранения, спорта и развлечений.

Проблемы

Основной проблемой является несбалансированность собранных новостей из разных категорий. Например, у нас мало новостей из международных новостей, новостей бизнеса и здравоохранения.

Где скачать?

Вы можете скачать наборы данных из двух разных версий. Первая версия (v0.1) была выпущена 1 декабря 2020 года, вы можете скачать набор данных с платформы zenodo здесь.
Другой способ — использовать библиотеку наборов данных python от Hugging Face.

from datasets import load_dataset
dataset = load_dataset("swahili_news")

Вторая версия (v0.2) набора данных была выпущена 18 сентября 2021 г. Эта версия содержит наборы для обучения и тестирования для классификации тем. Вы можете скачать набор данных с платформы zenodo здесь.

Я планирую убедиться, что набор данных будет доступен в библиотеке наборов данных Python для легкого доступа.

Планы на будущее

Собранный набор данных новостей имеет несбалансированное распределение тем. Он содержит несколько новостей по следующим темам: -

  • Международные новости (6,2%)
  • Новости здравоохранения (4,9%)
  • Деловые новости (4,3%)

Поэтому в мои планы входит найти больше новостных ресурсов на языке суахили и собрать больше наборов новостей по упомянутым выше темам, чтобы обеспечить больший баланс между новостными темами в наборе данных.

Это поможет специалистам по искусственному интеллекту создавать полезные модели машинного обучения, которые хорошо работают в тестовых средах.

Если вы узнали что-то новое или вам понравилось читать эту статью, поделитесь ею, чтобы другие могли ее увидеть. А пока, увидимся в следующем посте!

Вы также можете найти меня в Твиттере @Davis_McDavid.

Эта статья была впервые опубликована здесь.