Последовательные задачи широко используются в машинном обучении для многих приложений, таких как создание чат-ботов, языковой перевод, генерация текста и классификация текста.

Pytorch - одна из популярных библиотек глубокого обучения для создания модели глубокого обучения.

В этом руководстве мы будем работать над проблемой классификации обзоров. Мы разделим обзор фильма на два класса: положительный и отрицательный. Это будет пошаговое руководство по коду со всеми шагами, необходимыми для простейшей задачи сентиментального анализа. Это для тех, кто просто хочет начать заниматься НЛП.

Для обучения модели глубокого обучения с использованием последовательных данных мы должны выполнить два общих шага:

  1. Предварительно обработайте данные последовательности, чтобы удалить лишние слова
  2. Преобразование текстовых данных в формат тензора или массива

Шаг 1. Получите набор данных и составьте список обзоров и этикеток,

Шаг 2. Нам нужно удалить все знаки препинания, например '! ”# $% & \' () * +, -. / :;‹ = ›? @ [\\] ^ _` {| } ~ 'потому что это не очень важно для нас при интерпретации текста с использованием модели глубокого обучения

Шаг 3. Удалите знаки препинания и получите все слова из набора данных для проверки

Шаг 4. Подсчитайте все слова и отсортируйте их по количеству

Шаг 5. Создайте словарь для преобразования слов в целые числа в зависимости от количества вхождений слова.

Шаг 6. Закодируйте обзор в список целых чисел, используя указанный выше словарь.

Шаг 7. Сделайте все encoded_review одинаковой длины

Шаг 8. В нашем наборе данных есть ярлыки «Положительный» и «Отрицательный». Будет легко, если у нас будут 1 и 0 вместо «Положительный» и «Отрицательный».

Шаг 9. Разделите данные этой функции на набор для обучения и проверки.

Шаг 10. Проанализируйте данные загрузчика данных.

Шаг 11: Создание объектов DataLoader для модели Pytorch

Шаг 12: Создайте LSTM, RNN или любую другую модель архитектуры и протестируйте ее, чтобы получить лучшую точность.

Шаг 13: инициализировать модель

Шаг 14: Обучите модель

Шаг 15: Проверьте точность модели

Вот ссылка на мое ядро ​​Kaggle,



Подпишитесь на мой канал в Telegram, чтобы получать отличные блоги, проекты и возможности обучения Python, машинному обучению и наукам о данных.

Оставайтесь Pythonic.