Здесь, в этом блоге, я познакомлю вас с моим проектом, в котором я провел анализ настроений с помощью Python.
Для начала я выбрал набор данных фильмов IMDB из Kaggle.
Ссылка на набор данных: https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews.
Я сделал этот проект в Google Colab, потому что набор данных был довольно большим для выполнения в anaconda (Jupyter Notebook).
Теперь позвольте мне объяснить шаги, которые я выполнил в этом проекте:
Шаг 1. Импорт набора данных
Я использовал pandas для импорта набора данных
Шаг 2. Знакомство с набором данных
Используя функцию numPy .shape, мы видим, что есть 50000 строк и 2 столбца. В наборе данных много шума, поэтому необходимо правильно очистить данные, прежде чем передавать их в модель.
Шаг 3. Предварительная обработка данных
- Я выберу 20000 строк для анализа
2. Удалить теги HTML (не требуется для моего анализа)
3. Удалите специальные символы
4. Преобразовать все в нижний регистр
5. Удалить стоп-слова
6. Стемминг