Суахили (также известный как суахили) — один из самых распространенных языков в Африке. На нем говорят 100–150 миллионов человек в Восточной Африке. Суахили широко используется в качестве второго языка людьми по всему африканскому континенту и преподается в школах и университетах.
В Танзании это один из двух национальных языков (второй — английский).
ОГЛАВЛЕНИЕ
- Новости суахили
- Цель
- Выполнение
- Результаты
- Проблемы
- Где скачать?
- Планы на будущее
Новости суахили
Новости на суахили являются важной частью медиасферы Танзании и других стран Восточной Африки. Новости способствуют образованию, технологиям и экономическому росту страны, а новости на местных языках играют важную культурную роль во многих африканских странах.
В современную эпоху африканские языки в новостях и других сферах рискуют быть утерянными, поскольку английский становится доминирующим языком в онлайн-пространствах.
Цель
Текстовые наборы данных на африканском языке с открытым исходным кодом на суахили не часто доступны в Танзании, что приводит к отставанию в создании технологий НЛП для решения африканских проблем.
Целью этого проекта было создание набора текстовых данных с открытым исходным кодом на языке суахили, ориентированного на новостные статьи. В основном я занимаюсь сбором новостей в различных категориях, таких как местные, международные, деловые или финансовые, медицинские, спортивные и развлекательные.
Набор данных с открытым исходным кодом, и специалисты НЛП могут получить доступ к набору данных и извлечь из него уроки.
Выполнение
Я смог реализовать следующие этапы проекта для достижения цели проекта.
(a)Сбор веб-сайтов с новостями на суахили
Первый этап проекта заключается в поиске и сборе различных веб-сайтов, предоставляющих новости на языке суахили. Мне удалось найти несколько веб-сайтов, которые предоставляют новости только на суахили, а другие — на других языках, включая суахили.
(b) Понимание политики и авторских прав.
На этом этапе проекта я в основном сосредотачиваюсь на понимании их политик и авторских прав для каждого веб-сайта в отношении того, что я могу делать, а что нет. AI4D помог мне понять этот процесс, предоставив рекомендации по защите данных, которые необходимо учитывать при сборе и анализе данных.
© Понять структуру новостного веб-сайта
Каждый новостной веб-сайт был разработан с использованием различных веб-технологий, таких как PHP, Python, WordPress, Django, javascript и т. д. Основная задача — проанализировать исходный код веб-сайта с помощью инструмента веб-браузера (просмотреть исходный код страницы). Я просмотрел различные теги HTML, чтобы найти заголовки новостей, категории и ссылки для доступа к содержимому определенного заголовка.
(d) Сбор данных
Новостные статьи собирались с использованием различных инструментов и языков программирования. Эти инструменты следующие:
- Язык программирования Python
- блокнот Юпитер
- Пакеты Python с открытым исходным кодом (NumPy, pandas и BeautifulSoup)
Собранные новостные статьи были сохранены в файле CSV, содержащем содержание (текст) и категорию (ярлык) конкретных новостей, например, спортивных.
(e) Анализ и очистка
Собранные новостные статьи были проанализированы и очищены от ненужной информации, такой как HTML-теги и символы, которые были собраны в процессе очистки.
Результаты
В конце этого проекта я смог достичь следующих вех
- Сбор и систематизация около 31 000 новостей
- Я собрал новости из шести категорий:местные, международные, новости бизнеса, здравоохранения, спорта и развлечений.
Проблемы
Основной проблемой является несбалансированность собранных новостей из разных категорий. Например, у нас мало новостей из международных новостей, новостей бизнеса и здравоохранения.
Где скачать?
Вы можете скачать наборы данных из двух разных версий. Первая версия (v0.1) была выпущена 1 декабря 2020 года, вы можете скачать набор данных с платформы zenodo здесь.
Другой способ — использовать библиотеку наборов данных python от Hugging Face.
from datasets import load_dataset
dataset = load_dataset("swahili_news")
Вторая версия (v0.2) набора данных была выпущена 18 сентября 2021 г. Эта версия содержит наборы для обучения и тестирования для классификации тем. Вы можете скачать набор данных с платформы zenodo здесь.
Я планирую убедиться, что набор данных будет доступен в библиотеке наборов данных Python для легкого доступа.
Планы на будущее
Собранный набор данных новостей имеет несбалансированное распределение тем. Он содержит несколько новостей по следующим темам: -
- Международные новости (6,2%)
- Новости здравоохранения (4,9%)
- Деловые новости (4,3%)
Поэтому в мои планы входит найти больше новостных ресурсов на языке суахили и собрать больше наборов новостей по упомянутым выше темам, чтобы обеспечить больший баланс между новостными темами в наборе данных.
Это поможет специалистам по искусственному интеллекту создавать полезные модели машинного обучения, которые хорошо работают в тестовых средах.
Если вы узнали что-то новое или вам понравилось читать эту статью, поделитесь ею, чтобы другие могли ее увидеть. А пока, увидимся в следующем посте!
Вы также можете найти меня в Твиттере @Davis_McDavid.
Эта статья была впервые опубликована здесь.