Последовательные задачи широко используются в машинном обучении для многих приложений, таких как создание чат-ботов, языковой перевод, генерация текста и классификация текста.
Pytorch - одна из популярных библиотек глубокого обучения для создания модели глубокого обучения.
В этом руководстве мы будем работать над проблемой классификации обзоров. Мы разделим обзор фильма на два класса: положительный и отрицательный. Это будет пошаговое руководство по коду со всеми шагами, необходимыми для простейшей задачи сентиментального анализа. Это для тех, кто просто хочет начать заниматься НЛП.
Для обучения модели глубокого обучения с использованием последовательных данных мы должны выполнить два общих шага:
- Предварительно обработайте данные последовательности, чтобы удалить лишние слова
- Преобразование текстовых данных в формат тензора или массива
Шаг 1. Получите набор данных и составьте список обзоров и этикеток,
Шаг 2. Нам нужно удалить все знаки препинания, например '! ”# $% & \' () * +, -. / :;‹ = ›? @ [\\] ^ _` {| } ~ 'потому что это не очень важно для нас при интерпретации текста с использованием модели глубокого обучения
Шаг 3. Удалите знаки препинания и получите все слова из набора данных для проверки
Шаг 4. Подсчитайте все слова и отсортируйте их по количеству
Шаг 5. Создайте словарь для преобразования слов в целые числа в зависимости от количества вхождений слова.
Шаг 6. Закодируйте обзор в список целых чисел, используя указанный выше словарь.
Шаг 7. Сделайте все encoded_review одинаковой длины
Шаг 8. В нашем наборе данных есть ярлыки «Положительный» и «Отрицательный». Будет легко, если у нас будут 1 и 0 вместо «Положительный» и «Отрицательный».
Шаг 9. Разделите данные этой функции на набор для обучения и проверки.
Шаг 10. Проанализируйте данные загрузчика данных.
Шаг 11: Создание объектов DataLoader для модели Pytorch
Шаг 12: Создайте LSTM, RNN или любую другую модель архитектуры и протестируйте ее, чтобы получить лучшую точность.
Шаг 13: инициализировать модель
Шаг 14: Обучите модель
Шаг 15: Проверьте точность модели
Вот ссылка на мое ядро Kaggle,
Подпишитесь на мой канал в Telegram, чтобы получать отличные блоги, проекты и возможности обучения Python, машинному обучению и наукам о данных.
Оставайтесь Pythonic.