Здесь, в этом блоге, я познакомлю вас с моим проектом, в котором я провел анализ настроений с помощью Python.

Для начала я выбрал набор данных фильмов IMDB из Kaggle.

Ссылка на набор данных: https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews.

Я сделал этот проект в Google Colab, потому что набор данных был довольно большим для выполнения в anaconda (Jupyter Notebook).

Теперь позвольте мне объяснить шаги, которые я выполнил в этом проекте:

Шаг 1. Импорт набора данных

Я использовал pandas для импорта набора данных

Шаг 2. Знакомство с набором данных

Используя функцию numPy .shape, мы видим, что есть 50000 строк и 2 столбца. В наборе данных много шума, поэтому необходимо правильно очистить данные, прежде чем передавать их в модель.

Шаг 3. Предварительная обработка данных

  1. Я выберу 20000 строк для анализа

2. Удалить теги HTML (не требуется для моего анализа)

3. Удалите специальные символы

4. Преобразовать все в нижний регистр

5. Удалить стоп-слова

6. Стемминг