Авторы: Никита Армстронг и Стюарт Гринлис
Хотите начать работу с машинным обучением (ML), но не знаете, с чего начать? Тогда этот пост для тебя.
В этом году Стюарт Гринлис и я выступили на первой Белфастской конференции по искусственному интеллекту https://ai-con2019.com/. Мы были частью инженерного направления и хотели предоставить людям практический способ начать работу с машинным обучением.
В нашем выступлении мы представили некоторые концепции машинного обучения на высоком уровне и поделились некоторыми примерами кода. Весь код из примеров находится в репозитории, ссылка на который приведена ниже. Пример кода покажет вам, как начать работу с машинным обучением, используя библиотеки и данные с открытым исходным кодом.
Как вы, вероятно, знаете, данные имеют фундаментальное значение для машинного обучения, поэтому ключевым элементом любого проекта является рассмотрение того, какие данные у вас есть для решения проблемы. Когда мы думаем о данных, обычно думают о традиционных источниках структурированных данных, таких как базы данных или электронные таблицы. Однако, по мнению отраслевых аналитиков на предприятии, это часто составляет лишь около 20% имеющихся данных.
О чем мы говорили во время презентации
Мы составили практический пример использования, чтобы продемонстрировать, как люди могут использовать OCR и ML в своем бизнесе:
1. Установка сцены
Персона - Джон Смит:
Он является владельцем Smiths Auto Sales. Он владеет несколькими магазинами автозапчастей и автосалоном.
Бизнес-пример Джона:
Джон хочет стать ведущей компанией по продаже автозапчастей в Великобритании и Ирландии. Обработка входящих писем и счетов стоит Джону денег и времени. Как Джон может получить неструктурированные данные из документов, идентифицировать документы, которые ему интересны, а затем извлечь ключевые элементы для внедрения в базовые системы.
2. Образцы OCR и ML
Показал несколько примеров того, как Джон мог бы использовать технологии OCR и ML, чтобы улучшить процесс приема документов и получить представление о его данных.
Оптическое распознавание символов (OCR):
Использование Google Open Source OCR Engine - Tesseract.
Классификация текста:
Использование Scikit Learn для обучения наивного байесовского классификатора.
Распознавание именованных сущностей (NER):
Использование SpaCy позволяет производить готовые модели НЛП.
Начиная
Ознакомьтесь с кодом в репозитории, чтобы узнать, как можно использовать OCR для извлечения данных из документов, которые недоступны другими способами, а затем использовать Обработку естественного языка для классификации текста и распознавания именованных сущностей для автоматизации обработки документов / данных.
Репо: https://github.com/LibertyIT/AiCon-2019-jailbreaking-your-documents
Примечание: мы проработали ряд онлайн-руководств, чтобы собрать примеры в репозиторий, все ресурсы были вызваны в записные книжки.
Если у вас есть какие-либо вопросы или комментарии, сообщите нам об этом ниже!