Я искал платформы аннотирования данных машинного обучения с открытым исходным кодом для аннотирования текста и изображений для наших бизнес-требований в моей компании. Я столкнулся с несколькими инструментами с открытым исходным кодом, такими как LabelImg, ImageTagger и Dataturks. Я глубоко погрузился в вышеупомянутые инструменты и понял, что инструмент Dataturks — лучший инструмент, который соответствует нашим потребностям.

Dataturks можно использовать двумя способами.

  1. Облачная версия

Это бесплатно. Пользователь может зарегистрироваться и создавать наборы данных, загружать текстовые данные/изображения/видео и начинать аннотирование. Когда мы загружаем текстовые документы/изображения/видео, они загружаются в их облако.

  • Неограниченное количество соавторов.
  • Общедоступные данные (просмотреть может любой желающий).
  • 10 тыс. этикеток.

2. Локальная версия

Локально мы можем получить исходный код из проекта Dataturks на Github и установить платформу Dataturks локально на наш рабочий стол/ноутбук/сервер.

  • Полностью локально.
  • Частные данные.
  • Неограниченное количество пользователей, хранилище.
  • Неограниченное количество пользователей.
  • Доступ через API.
  • Интеграция рабочего процесса.

Нас интересовала версия On-Prem. Я получил исходный код от



и начал с установки. Но документация по установке оставляет желать лучшего. Сначала я попытался установить платформу через докер, в папке hope/docker есть файл докера. Но сборка докеров часто дает сбой из-за разных проблем.

Итак, на этот раз я попытался установить непосредственно на ОС Windows 10. Опять же, нет документации о том, какую версию Java и версию узла использовать. Установка столкнулась с некоторыми проблемами Node/npm одна за другой. Наконец, мне не удалось установить на ОС Windows 10.

На этот раз на Ubuntu 18.04

Я выяснил программное обеспечение и его версии, используя файл докера в Hope/docker. С нижеприведенным программным обеспечением, установленным в Ubuntu, я могу успешно создавать и запускать Dataturks локально.

Сервер MySQL 5.7.27

openjdk версии «1.8.0_222»

Apache Maven 3.6.0

узел — версия v8.10.0

npm — версия 6.12.1

Установка и запуск MySQL

apt-получить обновление

apt-get -y установить mysql-сервер

Используя приведенные выше команды, мы можем установить сервер MySQL.

Перейдите в cd Hope/docker на терминале.

и выполнить

./init.sh

Вышеупомянутая команда запустит службу MySQL, создаст базу данных «надежда», пользователя «dataturks», создаст таблицы и вставит данные в таблицы.

Создание и запуск Backend Hope: серверная часть на основе Java/Dropwizard-mysql.

кд надежда

# Если вы находитесь за прокси-сетью, установите прокси в maven settings.xml

пакет mvn -DskipTests

Приведенная выше команда создаст папку dataturks-1.0-SNAPSHOT.jar in надежда/цель.

В папке hope/ есть файл onprem.yml. Скопируйте в папку hope/target и выполните приведенную ниже команду, чтобы запустить серверную службу.

java -Djava.net.useSystemProxies=true -server -jar dataturks-1.0-SNAPSHOT.jar server onprem.yml

Бэкэнд запустится на порту 9090, указанном в файле onprem.yml. Перейдите в браузер и нажмите http://localhost:9090, по крайней мере, вы должны увидеть веб-страницу 404.

Создание и запуск Front-end Bazaar: интерфейс на основе React.

Выполните приведенные ниже команды без sudo. Если у вас возникнут проблемы с правами доступа, попробуйте sudo.

базар компакт-дисков

#Если вы находитесь за прокси, установите прокси. Установить прокси с помощью npm config
npm install — loglevel=info

установка npm — глобальный gulp-cli

cd /home/bazaar/semantic

сборка глотком

cd ..

npm запускает встроенную сборку

npm run start-onprem

Сервис запустится на http://localhost:3000

Перейдите по указанному выше URL-адресу в браузере, и вы сможете просматривать платформу Dataturks.