Вы когда-нибудь оказывались в зависимости от Ctrl-F, просматривая новости, длинный отчет или серию академических статей? В настоящее время нередко можно увидеть, как аналитики во всем мире используют этот простой инструмент, чтобы найти то, что они ищут в горах текста. Это явно неоптимальная стратегия. Большую часть времени, затрачиваемого на поиск в этих документах, следует выделить более ценным задачам.

Прежде чем обсуждать некоторые решения этих проблем, важно понять, почему ручной поиск с использованием Ctrl-F во многих случаях неэффективен.

Проблема с Ctrl-F

Возьмите на себя роль инвестиционного менеджера, где требуется постоянное наблюдение за последними новостями, чтобы быть впереди любых бедствий. Однако, если они несут ответственность за большое количество акций, важная информация может быть легко упущена из огромного количества поступающих отчетов. Это может закончиться очень дорого. Кроме того, в мире, где время так ограничено, знание основных тем, компаний, названий, местоположений и т. д. может позволить аналитику более эффективно расставлять приоритеты, вместо того, чтобы просеивать каждую из них.

Сегодня большинство людей просто ищут в каждом отчете определенное слово, используя Ctrl-F. Это игнорирует контекст, в котором находится слово, или несколько определений, которые может иметь слово. В конце концов им приходится утомительно просеивать множество ложных срабатываний. Это отнимает много времени даже для коротких отчетов и разочаровывает для длинных отчетов, когда обнаруживаются сотни экземпляров одного и того же слова. Ctrl-F больше похож на микроскоп и не должен использоваться для понимания ландшафта.

Иногда отчет может содержать не исходный термин, а его синоним. Например, наиболее распространенным термином для отчета о доходах является «Доходы», однако некоторые компании сообщают о своих доходах как «SalesRevenueNet» или «SalesRevenueGoodsNet». В других случаях отчет может содержать как слово, так и синоним. Например, в текущих новостях коронавирус и COVD19 будут использоваться как синонимы. Из-за этого неизбежно, что многие ключевые фрагменты информации снова будут упущены.

Отсутствие контекстуального понимания и отсутствие семантической осведомленности означает, что полагаться исключительно на Ctrl-F — это ненужная трата времени для вас и вашей команды. Но так не должно быть. Современные методы обработки естественного языка (NLP) предоставляют нам инструменты, которые позволяют аналитику быстро просмотреть отчеты и убедиться, что ничего не пропущено. О двух из них мы поговорим ниже.

Решения

Распознавание именованных объектов

Распознавание именованных объектов (NER) — это особая подзадача извлечения текстовой информации, целью которой является выявление именованных «сущностей» (которые могут включать места, имена, компании, цифры, валюты, проценты), которые содержатся в тексте, и их классификация. . Модель NER способна подбирать подходящие фразы, а не одно слово, предоставляя дополнительный контекст. Например, в приведенном ниже отрывке модель обнаруживает фразу «первый квартал 2020 финансового года», а не просто «2020» или «первый квартал», потому что из контекста ясно, что эти слова следует сгруппировать. Контекстное понимание — это функция NER, которой нет у Ctrl-F, и поэтому NER имеет в этом непосредственное преимущество.

В NER термин «сущности» довольно широк и может относиться ко многим различным предопределенным категориям, имеющим физическое или абстрактное существование. Например, ниже приведен первый абзац из пресс-релиза Apple ранее в этом году. Этот абзац был проанализирован с использованием стандартной модели NER Amazon, и некоторые релевантные слова или фразы были выделены.

Извлечение этих сущностей не так просто, как может показаться на первый взгляд. Например, Apple, корпорация должна быть дифференцирована от фруктов. NER может использовать контекст, в котором находится слово, для точной классификации. Позвольте ему устранить неоднозначность значения слова в зависимости от контекста, а затем пометьте слово соответствующим образом.

NER естественным образом ведет к другим методам извлечения и организации информации из неструктурированного текста. Например, вы можете комбинировать NER с анализом тональности (когда тексту присваивается рейтинг тональности моделью, чтобы определить, насколько он негативен, позитивен или нейтрален). Знание с первого взгляда тональности отчета, а также того, какие компании упоминаются, представляет собой мощную комбинацию. Ctrl-F не ​​приводит ни к каким другим разумным способам анализа текста.

Неструктурированный текст богат информацией, и с огромным количеством отчетов для чтения, NER может быть бесценным инструментом для быстрого извлечения и классификации ключевых имен, компаний, цифр и местоположений, чтобы можно было принять обоснованное решение о том, какие отчеты читать. . NER может использовать контекст, не присущий Ctrl-F, для поиска этих сущностей. NER также можно использовать в качестве трамплина для других форм обработки текста, таких как анализ тональности.

Полная статья с изображениями по адресу: https://blog.auquan.com/page/ctrl-f