Распознавание рукописных цифр с помощью Scikit-learn

Распознавание рукописного текста — это проблема, которая восходит к первым автоматическим машинам, которым нужно было распознавать отдельные символы в рукописных документах.

Набор данных Digits состоит из 1797 изображений размером 8 x 8 пикселей. Каждое изображение представляет собой рукописную цифру в оттенках серого.

Гипотеза:

Набор данных Digits библиотеки Scikit-learn предоставляет многочисленные наборы данных, которые полезны для тестирования многих задач анализа данных и прогнозирования результатов.

Давайте начнем с импорта необходимых библиотек для нашей модели и загрузки набора данных digits. Чтобы импортировать модуль svm из библиотеки scikit-learn. Мы можем создать оценщик типа SVC, а затем выбрать начальную настройку, назначив значения C и общие значения гаммы. Затем эти значения могут быть скорректированы другим способом в ходе анализа.

Импорт библиотек и загрузка набора данных

2. Изображения рукописных цифр содержатся в массиве digits.images. Каждый элемент этого массива представляет собой изображение, представленное матрицей 8x8 числовых значений, соответствующих оттенкам серого от белого со значением 0 до черного со значением 15.

Необязательная команда для получения массива

3. Наш набор данных хранится в цифрах. С помощью приведенной ниже команды вы получите изображение цифры в градациях серого.

Это выходное изображение (0) состоит из 64 пикселей (8X8).

4. Числовые значения, представленные изображениями, т. е. цели, содержатся в массиве digit.targets. А также набор данных представляет собой обучающий набор, состоящий из 1797 изображений. Мы можем определить, так ли это.

Это необязательная команда только для проверки

5. Визуализация изображений и меток в нашем наборе данных.

Этот набор данных содержит 1797 элементов, поэтому давайте рассмотрим первые 1791 элемент в качестве обучающего набора, а последние шесть будем использовать в качестве проверочного набора. Мы можем детально рассмотреть эти шесть рукописных цифр, воспользовавшись библиотекой matplotlib.

Визуализация изображений шести цифр проверочного набора

6. Теперь мы обучаем оценщик svc, который мы определили ранее.

Подгонка модели

Теперь нам нужно протестировать наш оценщик, заставив его интерпретировать шесть цифр проверочного набора.

Прогнозирование модели

Как мы видим, оценщик svc научился правильно. Он способен распознавать рукописные цифры, правильно интерпретируя все шесть цифр проверочного набора.

7. Теперь давайте рассмотрим четырехэтапный шаблон моделирования Scikit-Learn.

Сначала давайте разделим наш набор данных на обучающий и тестовый наборы, чтобы убедиться, что после того, как мы обучим нашу модель, она сможет хорошо обобщать новые данные.

Разделение нашего набора данных на наборы для обучения и тестирования

Шаг 1. Импорт модели, которую мы хотим использовать.

Импорт с использованием логистической регрессии.

Шаг 2. Создание экземпляра модели.

Шаг 3. Обучение модели.

Шаг 4.Прогнозирование меток новых данных и измерение эффективности нашей модели.

8. Матрица путаницы:

Матрица путаницы — это таблица, которая часто используется для оценки точности модели классификации. Мы можем использовать Seaborn или Matplotlib для построения матрицы путаницы. Мы будем использовать Seaborn для нашей матрицы путаницы.

Код для матрицы путаницы

Матрица путаницы

Я благодарен наставникам на «https://internship.suvenconsultants.com за отличные формулировки задач и предоставление многим из нас опыта стажировки по кодированию. Спасибо www.suvenconsultants.com'

Распознавание рукописных цифр с помощью Scikit-learn

Вопросы по теме