Девятый модуль: захватывающие, но горько-сладкие выходные, так как это был последний модуль личного обучения для текущей когорты. Теперь учащиеся будут применять все, чему они научились за последние несколько месяцев, в заключительном проекте с отраслевыми партнерами.

На этих выходных учащиеся рассмотрели методы обработки естественного языка для извлечения знаний из текстовых данных.

Как и во всех приложениях для обработки данных, мы начали с обработки данных. Студенты ознакомились с этапами обработки текста, такими как лемматизация, токенизация и тегирование частей речи, чтобы превратить естественный язык в структурированные данные. Затем они узнали, как выполнять анализ настроений в обзорах фильмов, и рассмотрели методы контролируемой бинарной классификации с использованием ряда классификаторов, в том числе наивного байесовского, а также неконтролируемые методы, такие как кластеризация с использованием K-ближайших соседей (K-NN).

Второй день был посвящен классификации нескольких классов для проведения тематического анализа набора данных 20 групп новостей. Мы завершили день работой со сложными языковыми моделями для разработки алгоритмов прогнозирования текста. Студенты узнали, как применять word2vec для представления семантического значения слов и отношений между ними, представляя слова в виде векторов. Это помогло создать более точные текстовые последовательности, отражающие образцы человеческой речи.

Путешествие в области прикладной науки о данных…

Если вы хотите улучшить свои текущие навыки, узнать о передовых отраслевых методах и начать карьеру в области науки о данных, подайте заявку сейчас, чтобы присоединиться к нам.