Представьте, что изображения могут помочь создавать тексты, от которых покупатели не могут отказаться - тексты, которые помогают гарантировать более высокое качество, включая 100% согласованность и ориентированность на нужных покупателей. Что ж, может, это не только надолго останется в нашем воображении ..

В Esoft у нас есть высококвалифицированная команда исследователей и разработчиков, занимающихся улучшением изображений и генерацией текста. В этой статье мы дадим краткое введение в нашу работу с генерацией естественного языка, в основном выполненную нашим магистрантом Хуаном, который в основном занимается автоматизацией частей процесса генерации текста, выполняемых копирайтерами.

Будущее за созданием естественного языка

Сегодня нашим копирайтерам предоставляется набор изображений, инструкций и других источников информации, из которых они могут собрать важные характеристики данного дома и создать его увлекательное описание.

Но как насчет создания модели, которая автоматически записывает описание дома?

Мы уже знаем системы, которые точно подписывают изображения, используя огромные наборы данных с тысячами аннотированных изображений. Используемая ими архитектура аналогична архитектуре, обычно используемой для машинного перевода, которая состоит из двух блоков рекуррентной нейронной сети: кодировщика и декодера. В общих чертах, кодировщик получает входные данные, представляющие текстовую последовательность, и генерирует векторное представление фиксированной длины, которое затем декодируется в текстовую последовательность на другом языке.

Такие системы, как это одно из преимуществ этого модульного подхода кодировщика / декодера, таким образом, они подключают другой кодировщик, который теперь состоит из сверточной нейронной сети CNN. Теперь, на этот раз, кодер CNN и декодер RNN обучаются вместе. Эти системы концептуально просты, но их действительно сложно обучить, например, набор данных coco содержит 200 тыс. Помеченных изображений с 5 подписями каждое, а кодировщик был предварительно обучен с помощью imagenet, набора данных, который состоит из 14 миллионов изображений, классифицированных вручную.

Разделение конвейера на независимые модули

В главном проекте Хуана он применяет аналогичный подход, но разделяет конвейер на независимые модули. Процесс состоит из трех этапов.

Первый этап получает изображение плана этажа в качестве входных данных и строит графическое представление. На этом этапе мы используем две разные модели нейронных сетей: YoloV3 для обнаружения объектов и U-net для сегментации изображений. Для YoloV3 мы определили архитектуру, основанную на YoloV3-tiny, и мы обнаруживаем объекты на плане этажа, такие как двери, окна и тексты. Стены обнаруживаются посредством сегментации, и затем нам нужно только смешать все вместе, чтобы построить графическое представление и применить OCR к тексту.

Второй модуль получает график, который может быть дополнен данными, предоставленными пользователем, например. «Кухня была недавно отремонтирована» и выполняет интеллектуальное разделение, выбирает имена, глаголы и прилагательные, которые лучше всего представляют каждый раздел, и создает список значений представлений. Эти смысловые представления затем ставятся в очередь автору, который использует компьютерную лингвистику для генерации окончательных утверждений.

Окончательное текстовое представление будет генерировать утверждения, описывающие количество комнат или ванных комнат, то, как разные комнаты связаны между собой, имеет ли конкретная комната доступ к балкону, террасе и так далее.

Автор Хуан Франсиско Марин Вега

В Esoft мы готовы вкладывать большие средства в исследования и разработки, чтобы гарантировать нашим клиентам высочайшее качество всего, что мы доставляем. У нас есть многолетний опыт, очень квалифицированная команда ИИ из шести человек и огромные объемы данных, которые позволяют нам разрабатывать и создавать решения на основе ИИ и машинного обучения.

Чтобы узнать больше, перейдите на: www.esoft.com

Https://www.esoft.com/can-images-help-us-write-better-property-texts/