Нет никаких сомнений в том, что мы производим огромное количество данных каждый день, но большая часть этих данных не является числовой. Таким образом, может быть очень сложно выполнить какой-либо анализ данных или традиционные задачи машинного обучения на указанных данных. К счастью, область обработки естественного языка быстро растет и расширяется. Если вы когда-нибудь задумывались, как Siri может понять, что вы говорите (или почему она не может), или как Google Ads может меняться в зависимости от того, что вы ищете, обработка естественного языка играет большую роль.

Огромным прорывом в области обработки естественного языка стал Word2Vec от Google. Word2Vec — это относительно простая двухслойная нейронная сеть, которая принимает корпус письменных работ и выводит векторы, которые показывают отношение слов в корпусе. Этот процесс позволяет глубоким нейронным сетям обрабатывать текст как числовые значения, что значительно снижает вычислительную сложность. Интересным результатом преобразования слов в векторы в некотором n-мерном пространстве является то, что вы можете увидеть, как разные слова из корпуса соотносятся друг с другом. Например, похожие слова, такие как мать и отец, будут располагаться ближе друг к другу в этом пространстве, а разнородные слова будут дальше друг от друга. Еще один забавный результат этого встраивания заключается в том, что теперь вы можете выполнять математические операции со словами и смотреть, к чему они приводят. Одним из таких забавных примеров является то, что «Человек — Животное = Этика» или «Президент — Власть = Премьер-министр». Что интересно в этих уравнениях, так это то, что они полностью основаны на словесных ассоциациях, которые сеть усвоила в результате обучения на разных корпусах. Это означает, что это не мнение одного человека о том, как соотносятся эти слова, а что-то эквивалентное общему отношению к ним всего человечества. Еще более важным, чем выполнение алгебры слов, является то, что Word2Vec позволяет проводить простой тип анализа тональности, видя, какие слова, например, название бренда, близки к нему. Например, если название вашего бренда окружено негативными словами, потренируйтесь в корпусе Twitter, что, вероятно, не очень хорошо.

Развитие обработки естественного языка и таких инструментов, как Word2Vec, позволяет использовать интересные и новые способы просмотра огромных объемов текстовых данных, которые мы генерируем каждый день.