Я искал платформы аннотирования данных машинного обучения с открытым исходным кодом для аннотирования текста и изображений для наших бизнес-требований в моей компании. Я столкнулся с несколькими инструментами с открытым исходным кодом, такими как LabelImg, ImageTagger и Dataturks. Я глубоко погрузился в вышеупомянутые инструменты и понял, что инструмент Dataturks — лучший инструмент, который соответствует нашим потребностям.
Dataturks можно использовать двумя способами.
- Облачная версия
Это бесплатно. Пользователь может зарегистрироваться и создавать наборы данных, загружать текстовые данные/изображения/видео и начинать аннотирование. Когда мы загружаем текстовые документы/изображения/видео, они загружаются в их облако.
- Неограниченное количество соавторов.
- Общедоступные данные (просмотреть может любой желающий).
- 10 тыс. этикеток.
2. Локальная версия
Локально мы можем получить исходный код из проекта Dataturks на Github и установить платформу Dataturks локально на наш рабочий стол/ноутбук/сервер.
- Полностью локально.
- Частные данные.
- Неограниченное количество пользователей, хранилище.
- Неограниченное количество пользователей.
- Доступ через API.
- Интеграция рабочего процесса.
Нас интересовала версия On-Prem. Я получил исходный код от
и начал с установки. Но документация по установке оставляет желать лучшего. Сначала я попытался установить платформу через докер, в папке hope/docker есть файл докера. Но сборка докеров часто дает сбой из-за разных проблем.
Итак, на этот раз я попытался установить непосредственно на ОС Windows 10. Опять же, нет документации о том, какую версию Java и версию узла использовать. Установка столкнулась с некоторыми проблемами Node/npm одна за другой. Наконец, мне не удалось установить на ОС Windows 10.
На этот раз на Ubuntu 18.04
Я выяснил программное обеспечение и его версии, используя файл докера в Hope/docker. С нижеприведенным программным обеспечением, установленным в Ubuntu, я могу успешно создавать и запускать Dataturks локально.
Сервер MySQL 5.7.27
openjdk версии «1.8.0_222»
Apache Maven 3.6.0
узел — версия v8.10.0
npm — версия 6.12.1
Установка и запуск MySQL
apt-получить обновление
apt-get -y установить mysql-сервер
Используя приведенные выше команды, мы можем установить сервер MySQL.
Перейдите в cd Hope/docker на терминале.
и выполнить
./init.sh
Вышеупомянутая команда запустит службу MySQL, создаст базу данных «надежда», пользователя «dataturks», создаст таблицы и вставит данные в таблицы.
Создание и запуск Backend Hope: серверная часть на основе Java/Dropwizard-mysql.
кд надежда
# Если вы находитесь за прокси-сетью, установите прокси в maven settings.xml
пакет mvn -DskipTests
Приведенная выше команда создаст папку dataturks-1.0-SNAPSHOT.jar in
надежда/цель.
В папке hope/ есть файл onprem.yml. Скопируйте в папку hope/target и выполните приведенную ниже команду, чтобы запустить серверную службу.
java -Djava.net.useSystemProxies=true -server -jar dataturks-1.0-SNAPSHOT.jar server onprem.yml
Бэкэнд запустится на порту 9090, указанном в файле onprem.yml. Перейдите в браузер и нажмите http://localhost:9090, по крайней мере, вы должны увидеть веб-страницу 404.
Создание и запуск Front-end Bazaar: интерфейс на основе React.
Выполните приведенные ниже команды без sudo. Если у вас возникнут проблемы с правами доступа, попробуйте sudo.
базар компакт-дисков
#Если вы находитесь за прокси, установите прокси. Установить прокси с помощью npm config
npm install — loglevel=info
установка npm — глобальный gulp-cli
cd /home/bazaar/semantic
сборка глотком
cd ..
npm запускает встроенную сборку
npm run start-onprem
Сервис запустится на http://localhost:3000
Перейдите по указанному выше URL-адресу в браузере, и вы сможете просматривать платформу Dataturks.