Благодаря развитию электронной почты, текстовых сообщений и технологии преобразования голоса в текст количество письменного или машинного английского языка резко выросло. Мы общаемся с устройствами так, как совсем недавно это было в научной фантастике. Ранее неожиданные области генерируют еще больше данных, поскольку компьютеры появляются повсюду, от наших автомобилей до наших кофейников.

Обучая компьютерные программы английскому языку, мы можем разбирать и анализировать язык с более детальной детализацией, чем когда-либо прежде. Одним из доступных нам методов является обработка естественного языка или NLP, обеспечивающая более высокий уровень эффективности при обработке текстовых данных. Существует множество различных, быстро улучшающихся приложений для этой технологии, которые продолжают расти по мере того, как мы разрабатываем новые приложения и включаем различные источники информации для обучения алгоритмов. Сообщество специалистов по науке о данных уже использует некоторые из самых обширных операций с данными, которые когда-либо предпринимались, такие как алгоритмы, поддерживающие Google Search, Netflix или Amazon Alexa. Следующее изображение намекает на огромное количество и разнообразие типов данных, создаваемых для каждой минуты дня в 2018 году.

Хотя алгоритм Amazon Dot / Alexa основан на голосе и включает в себя в основном аудиоданные, они недавно включили отправку текстовых сообщений (в том числе SMS через Alexa, подключающуюся к вашему мобильному телефону). Это указывает на то, что Amazon не намерен отказываться от своих данных и будет транскрибировать всю записанную информацию. Для устройства с микрофоном, которое по определению постоянно включен, меня беспокоит, что наши частные разговоры постоянно отслеживаются, но это тема для другого дня.

Меньшие примеры НЛП еще более распространены: все наши компьютеры, сотовые телефоны и учетные записи электронной почты имеют разные уровни проверки орфографии (я просто ошибся в написании «проверка орфографии», и автозамена обнаружила это). Чат-боты AI доступны для любых предприятий, которые не могут позволить себе круглосуточное телефонное обслуживание, обнаружение / фильтрация спама находится в наших учетных записях электронной почты, и этот список можно продолжать и продолжать!
По-прежнему существуют ограничения на некоторые реализации НЛП, определяющие Сантименты по-прежнему требуют некоторого ручного ввода, например, в форме позитивных и негативных пакетов слов.

Этот ввод вручную означает, что мнение является субъективным, основанным на убеждениях программиста, проводящего анализ. В аналогичной теме, что касается субъективности анализа настроений, сленг, юмор и сарказм также находятся на более ранних стадиях. По мере того, как наш язык меняется, нам необходимо настраивать параметры до тех пор, пока алгоритмы не смогут точно обучаться без надзора. Эта настройка определяет роль как динамическую и постоянную, возможно, поэтому Data Science настолько сложна и требует, чтобы в этой области можно было быть настоящим экспертом.

Одним из элементов является сложность языка, ускоренная быстрым развитием языковых паттернов как в тексте, так и в речи. Другой пример - это постоянно развивающаяся природа популярной культуры (также известной как мемы), и одним из моих любимых примеров является мем «Алекса, играй в Despacito», как показано ниже:

Спасибо, что дочитали до конца! Меня зовут Джон Рейнольдс, я выпускник иммерсивной программы General Assembly в области науки о данных. Я глубоко заинтересован в общении / речи и каждый день стараюсь идти в ногу со временем на стыке технологий и языка. Чтобы связаться со мной, вы можете связаться со мной по электронной почте jon (dot) reynolds30 (at) gmail (dot) com или связаться со мной в LinkedIn.

Справочная информация: