Аннотации данных — топливо для машинного обучения и глубокого обучения

Просто оглядываясь назад на 2017 год, когда мы приступили к переходу всех наших статистических моделей на модели, основанные на нейронных сетях… и я не могу не удивиться, увидев, как мы перешли от разговоров об искусственном интеллекте (ИИ) к научной фантастике к ИИ. нынче почти везде.

Интеллектуальные приложения уже можно увидеть каждый день в наших смартфонах, их приложениях и все чаще в финтех-продуктах и новых финансовых продуктах, автомобилях и, конечно же, в интеллектуально ориентированных маркетинговых кампаниях, науках о жизни и, благодаря глубокой обработке естественного языка, во многих бизнес-решениях. На самом деле все чаще говорят об этических проблемах и ответственном ИИ, а также о том, чтобы сделать ИИ более инклюзивным для других языков.

Подробнее: Являются ли японский, испанский, французский иностранными языками для искусственного интеллекта?

На этой неделе мне посчастливилось представить разработки Pangeanic и рассказать о нашем участии в нескольких проектах EU NLP в рамках ELRC_Spain2021. Было очень приятно встретить (онлайн) так много профессионалов-единомышленников в области НЛП. И, конечно же, был поднят вопрос аннотации данных и всех усилий нескольких европейских проектов по производству все большего количества открытых данных, услуг анонимизации для государственных администраций.

ИИ должен быть самой цитируемой аббревиатурой в Интернете… он везде, но обещание хорошо работающего, индивидуального, самообучающегося и автоматизированного варианта использования ИИ редко оживает из-за одного короткого и привлекательного слова… данные!

Мир высококачественных обучающих данных

Некоторым переводческим компаниям повезло несколько лет назад, когда они обнаружили, что для создания широкого спектра приложений ИИ требуются большие наборы языковых данных. Но не все бюро переводов видели их и не везде. Поставщикам данных для ИИ необходимо мышление, направленное на решение проблем. Они должны понимать, что по мере сбора изображений, речи и текстовых данных люди должны аннотировать их. После этого данные передаются через алгоритмы, которые создают модели ИИ. Есть также ряд успешных стартапов, которые стремятся стать следующими нефтяными компаниями 21 века. Да, данные — это новое топливо. Это топливо сократит расходы в 10 раз, поэтому мы будем платить 1 доллар/евро за наши автомобили, смартфоны (если они еще будут существовать через 10 лет), услуги и т. д., за которые мы сейчас платим доллары/евро. 100.

Но что еще лучше… ИИ позволит нам делать вещи в 100 раз лучше, чем мы делаем сейчас. Это победа. Для большинства из нас этот спрос был ориентирован на клиента, и мы кое-чему научились на этом пути.

Системы машинного обучения (ML) и глубокого обучения (DL) требуют больших объемов данных для постоянного улучшения и обучения. Это наука, основанная на распознавании образов (название использовалось до того, как ИИ стал настолько популярным). Алгоритмам нужны данные в качестве топлива для выявления закономерностей и тенденций, прогнозирования результатов, категоризации и классификации данных и так далее. Задачи, на выполнение которых у нас уходят часы или дни, или для которых нужны команды людей, или которые мы просто не можем выполнить, но с которыми алгоритмы справляются очень эффективно — как серийная машина «Энигма». Тем не менее, качество данных важнее количества данных. Добавьте немного «шума» или «грязи» в систему, предвзятость подачи в виде слишком большого количества прилагательных мужского рода, слишком малого количества картинок того или иного типа, не проводите надлежащий контроль качества перед доставкой, и вы только зря потратили часы, тысячи долларов/евро, чтобы гарантировать себе низкую производительность, неточные результаты ИИ.

Итак, как обеспечить высокое качество данных? Это типичный вопрос, который возникает, когда доступность и объемы данных не были частью первоначального обсуждения при запуске проекта ИИ. Любая компания любого размера должна начать разрабатывать собственную стратегию работы с данными в 21 веке. IBM довольно успешно использует свои собственные данные для создания нескольких решений. Однако сбор и сбор данных, очистка и аннотация должны быть частью плана до начала любого проекта ИИ. И, конечно же, поиск подходящих партнеров для путешествия. Опять же, из-за своей распределенной производственной системы и частичного управления толпой языковые компании довольно хорошо адаптировались к потребностям нового рынка данных. Но рано или поздно все они узнают, что им нужны специалисты по данным и что аннотации данных являются ключевыми для всего процесса.

Что такое аннотация данных?

Аннотация данных – это процесс, посредством которого мы обогащаем наши необработанные данные, помечая их «классификационной» информацией. Если вы не знакомы с разницей между машинным обучением и глубоким обучением, давайте упростим ее, сказав, что в машинном обучении вы «помечаете» все изображения кошек с одной стороны и собак с другой, чтобы система могла учиться, тогда как в глубоком обучении модели используют разные уровни для обучения и извлечения информации из данных. Глубокое обучение — это подмножество машинного обучения.

Некоторыми популярными приложениями глубокого обучения являются системы машинного перевода (мы немного знаем об этом в Pangeanic), обработка естественного языка, классификация документов и т. д. и/или объекты наших текстов, изображений, видео и аудио. Метки предоставляют системе дополнительную информацию, поэтому они действительно делают наши данные более информативными, а наши модели способны понимать более глубокие отношения между классами, чтобы полностью понять их значение (например, что на картинке изображена кошка, а не кошка). молодой львенок, что Париж — это обычно местонахождение, но в некоторых случаях имя человека и т. д.)

Теперь мы приближаемся к тому, как работает наш собственный мозг… с помощью ссылок и ассоциаций.

Типы аннотации

Итак, теперь мы видим, что аннотация может принимать разную форму. Процессы аннотации будут зависеть от проблемы, на которой мы сосредоточены, и типа доступных данных. Четыре наиболее распространенных типа данных для аннотаций:

1. текст,

2. изображения,

3. аудио и

4. видео

При решении каждой из них требуются разные стратегии. Для каждого процесса могут потребоваться разные стратегии аннотирования, разные инструменты, разные навыки и люди. Цель состоит в том, чтобы алгоритмы ML/DL учились на человеческом опыте, имитировали наши рассуждения и производили «решения» и «понимание» в масштабе. Но как мы это делаем… об этом в следующей статье!

Аннотации данных — топливо для машинного обучения и глубокого обучения

Мир высококачественных обучающих данных

Что такое аннотация данных?

Типы аннотации

Вопросы по теме