Взлом ваших документов и данных

Авторы: Никита Армстронг и Стюарт Гринлис

Хотите начать работу с машинным обучением (ML), но не знаете, с чего начать? Тогда этот пост для тебя.

В этом году Стюарт Гринлис и я выступили на первой Белфастской конференции по искусственному интеллекту https://ai-con2019.com/. Мы были частью инженерного направления и хотели предоставить людям практический способ начать работу с машинным обучением.

В нашем выступлении мы представили некоторые концепции машинного обучения на высоком уровне и поделились некоторыми примерами кода. Весь код из примеров находится в репозитории, ссылка на который приведена ниже. Пример кода покажет вам, как начать работу с машинным обучением, используя библиотеки и данные с открытым исходным кодом.

Как вы, вероятно, знаете, данные имеют фундаментальное значение для машинного обучения, поэтому ключевым элементом любого проекта является рассмотрение того, какие данные у вас есть для решения проблемы. Когда мы думаем о данных, обычно думают о традиционных источниках структурированных данных, таких как базы данных или электронные таблицы. Однако, по мнению отраслевых аналитиков на предприятии, это часто составляет лишь около 20% имеющихся данных.

О чем мы говорили во время презентации

Мы составили практический пример использования, чтобы продемонстрировать, как люди могут использовать OCR и ML в своем бизнесе:

1. Установка сцены

Персона - Джон Смит:

Он является владельцем Smiths Auto Sales. Он владеет несколькими магазинами автозапчастей и автосалоном.

Бизнес-пример Джона:

Джон хочет стать ведущей компанией по продаже автозапчастей в Великобритании и Ирландии. Обработка входящих писем и счетов стоит Джону денег и времени. Как Джон может получить неструктурированные данные из документов, идентифицировать документы, которые ему интересны, а затем извлечь ключевые элементы для внедрения в базовые системы.

2. Образцы OCR и ML

Показал несколько примеров того, как Джон мог бы использовать технологии OCR и ML, чтобы улучшить процесс приема документов и получить представление о его данных.

Оптическое распознавание символов (OCR):

Использование Google Open Source OCR Engine - Tesseract.

Классификация текста:

Использование Scikit Learn для обучения наивного байесовского классификатора.

Распознавание именованных сущностей (NER):

Использование SpaCy позволяет производить готовые модели НЛП.

Начиная

Ознакомьтесь с кодом в репозитории, чтобы узнать, как можно использовать OCR для извлечения данных из документов, которые недоступны другими способами, а затем использовать Обработку естественного языка для классификации текста и распознавания именованных сущностей для автоматизации обработки документов / данных.

Репо: https://github.com/LibertyIT/AiCon-2019-jailbreaking-your-documents

Примечание: мы проработали ряд онлайн-руководств, чтобы собрать примеры в репозиторий, все ресурсы были вызваны в записные книжки.

Если у вас есть какие-либо вопросы или комментарии, сообщите нам об этом ниже!

Взлом ваших документов и данных

О чем мы говорили во время презентации

1. Установка сцены

2. Образцы OCR и ML

Начиная

Вопросы по теме