Распознавание рукописных цифр с помощью scikit-learn в разделе Data Analytics с использованием Python

Аналитика – это систематический вычислительный анализ данных или статистики. Он используется для обнаружения, интерпретации и передачи значимых закономерностей в данных. Он также фокусируется на применении шаблонов данных для эффективного принятия решений. Это может быть полезно в областях, богатых записанной информацией; аналитика опирается на одновременное применение статистики, компьютерного программирования и операционных исследований для количественной оценки производительности. Анализ данных не ограничивается числами и строками, поскольку изображения и звуки также можно анализировать и классифицировать.

Scikit-learn (ранее scikits.learn и также известная как sklearn) — это бесплатная библиотека машинного обучения для языка программирования Python. Он включает в себя различные алгоритмы классификации, регрессии и кластеризации, включая метод опорных векторов, r случайный лес, g радиационное повышение, k-means и DBSCAN, и предназначен для взаимодействия с числовым программным обеспечением Python. и научные библиотеки NumPy и SciPy. Здесь мы собираемся проанализировать набор цифр из обучающей библиотеки Sci-Kit. Мы собираемся обучить машину опорных векторов, а затем будем предсказывать значения неизвестных рукописных цифр.

Здесь мы используем Jupyter Notebook для выполнения операций. Итак, давайте начнем сначала с импорта необходимых библиотек.

Всего в наборе данных 1797 изображений.

Весь наш набор данных хранится в цифрах. Ниже приведен пример цифры в нашем наборе данных. Он состоит из 64 пикселей (8X8). Набор данных содержит изображения рукописных цифр: 10 классов, где каждый класс относится к цифре от 0 до 9. Каждое изображение хранится в виде матриц 8x8 следующим образом (для цифры 0):

Этот набор данных состоит из 1797 изображений размером 8x8 пикселей. Каждое изображение представляет собой рукописную цифру в оттенках серого, как показано на рис.

Давайте обучим нашу SVM с первыми 1790 изображениями в нашем наборе данных. После этого мы будем использовать оставшийся набор данных в качестве наших тестовых данных и проверим точность нашей обучающей машины.

Он состоит из 6 изображений по 64 пикселя каждое (8X8) шести разных чисел. Вывод вышеуказанных тестовых данных будет производиться следующим образом:

Давайте подгоним нашу модель с помощью классификатора SVM. Здесь мы используем первые 1790 изображений для обучения модели, а остальные — для проверки.

Как мы видим, как прогнозируемые, так и целевые значения для этих данных одинаковы. Давайте проверим описание модели для некоторых наборов данных.

Как видим, мы добились 100% точности. Давайте теперь определим функцию, которая определит точность нашего SVM и обучит нашу модель с различным набором данных. Мы начнем с 3 элементов в наших обучающих данных и продвинемся до 1790 данных и сохраним точность наших моделей в словаре.

Словарь значений содержит все значения точности для данной модели.

Давайте построим наш результат словаря, чтобы визуализировать результат точности.

Вывод. Как мы ясно видим, для более чем 95 % наших моделей достигнута точность 100 %. Следовательно, мы можем легко сделать вывод, что наша модель работает с точностью более 95% времени. Следовательно, с использованием библиотеки Scikit-Learn в python анализ данных становится простым, эффективным и занимает меньше времени.

Я благодарен наставникам на «https://internship.suvenconsultants.com за отличные формулировки задач и предоставление многим из нас опыта стажировки по кодированию. Спасибо www.suvenconsultants.com'

Распознавание рукописных цифр с помощью scikit-learn в разделе Data Analytics с использованием Python

Вопросы по теме