ДЕТСКИЕ ШАГИ, ЧТОБЫ ВОЙТИ В ЧУДЕСНЫЙ МИР ГОР МАШИННОГО ОБУЧЕНИЯ И СТРАНЫ МЕЧТЫ НАУКИ ДАННЫХ

Документация - мать лучших учебных материалов в мире.

Мама держит ребенка за руки, чтобы помочь ему ходить, прыгать, подниматься по лестнице тяжелой работы и достигать высот счастья и успеха.

Точно так же программная документация помогает новичкам и продвинутым ученикам создавать потрясающие программы.

Бонусный совет: документы с открытым исходным кодом (бесплатные ресурсы)

Привет, надеюсь, у тебя все хорошо.

От всего сердца я хотел бы поблагодарить интеллектуальных изобретателей и разработчиков программного обеспечения с открытым исходным кодом, а также поддерживающее сообщество открытого исходного кода по обмену знаниями… !!!

В этой статье я буду использовать следующие ярлыки:

ML = Машинное обучение

DS = Наука о данных

Хорошо, давайте посмотрим, как попасть в чудесный мир Data Science Dream Land и Machine Learning Mountains

ШАГ-1: ЯЗЫК ПРОГРАММИРОВАНИЯ

Люди могут разговаривать с другими людьми на разных языках.

Например: английский, арабский, немецкий, французский, китайский, корейский, тамильский, телугу, хинди, японский и т. Д.

Точно так же люди могут разговаривать с компьютерами на различных языках, называемых языками программирования.

Например: Python, R, C, C ++, Java, Julia, Kotlin, Sql и т. Д.

Чтобы общаться с машиной, необходимо знать хотя бы один язык, который компьютеры (машины) могут понимать.

Исходя из своего опыта, я бы посоветовал вам сначала изучить Python, поскольку он имеет простой и легкий для понимания синтаксис.

Первым шагом к изучению DS / ML является изучение Python.

Вот Официальная документация PYTHON, которую вы можете изучить.

ШАГ-2: ПОДГОТОВКА ДАННЫХ И АНАЛИЗ

Реальные данные неоднозначны, содержат множество ошибок, и вы столкнетесь с данными с большим количеством пропущенных значений.

Существуют разные типы данных: текст (числа и буквы / строки), изображение, аудио, видео, gif и т. Д.

Данные должны быть очищены и преобразованы в определенный стандартный формат, чтобы получить из них значимую информацию. Этот процесс называется предварительной обработкой данных и включает в себя множество подэтапов.

Наш компаньон Python упрощает предварительную обработку данных, предоставляя несколько замечательных библиотек, таких как Numpy и Pandas. Вы можете установить и импортировать эти библиотеки, просто используя 2 строки кода Python.

Eg:

импортировать numpy как np

импортировать панд как pd

Второй шаг к изучению DS / ML - изучение Numpy & Pandas.

Вот Официальная документация NUMPY для вас.

Вот Официальная документация PANDAS, которую вы можете изучить.

ШАГ-3: АНАЛИЗ ДАННЫХ

Мы должны провести подробный анализ наших данных, чтобы определить, какие типы отношений имеют столбцы друг с другом, как они влияют на прогноз, каково их значение для желаемого результата?

Например: мы будем анализировать максимальное значение корреляции, минимальное значение, частоту повторения значений и их среднее значение и т. Д.

Не волнуйтесь, у наших товарищей Нумпи и Панды есть несколько замечательных заранее написанных кодов для детального анализа данных.

БОНУСНЫЙ СОВЕТ: знаете ли вы, что Pandas может обрабатывать миллионы строк данных? Удивительно… не правда ли…?

Третий шаг к изучению DS / ML - детальное изучение Numpy и Pandas.

ШАГ 4: ВИЗУАЛИЗАЦИЯ ДАННЫХ

Визуализация - это искусство представления графической версии данных, помогающее улучшить анализ. Визуализировать проще, чем просматривать всю кучу данных, а также упрощает представление наших взглядов и идей другим людям.

Мы будем визуализировать наши данные с помощью графиков и графиков, таких как гистограмма, круговая диаграмма, гистограмма, линейная диаграмма и т. Д.

Не волнуйтесь, наше сообщество с открытым исходным кодом уже создало готовые к использованию библиотеки визуализации, такие как Matplotlib, Seaborn, Bokeh и т. Д. Импортируя эти библиотеки, мы можем создавать потрясающие визуальные эффекты и графики с помощью всего нескольких строк кода.

Вот Официальная документация MATPLOTLIB, которую вы можете изучить.

Вот Официальная документация SEABORN, которую вы можете изучить.

ШАГ 5: ПОСТРОЕНИЕ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ

Наши данные готовы ... Хммм ... Далее следует самый важный этап машинного обучения. Мы построим одну или несколько моделей машинного обучения для извлечения закономерностей из данных. Модели машинного обучения помогут Машине извлекать полезные сведения из данных. Как только он все узнает, наши машины будут выполнять почти все сложные задачи, которые им возложены, которые невозможно выполнить людям.

Существует несколько моделей машинного обучения, таких как регрессия, классификация, случайные леса, наивный байесовский алгоритм, деревья решений и т. Д. Считайте, что вам повезло, потому что некоторые добросердечные блестящие разработчики уже построили эти модели и открыли их исходный код (сделали их свободно доступными для использования).

Вы можете легко импортировать все модели из соответствующих модулей машинных библиотек, таких как Tensorflow, Scikit-learn, Pytorch, Theano и т. Д. Вы можете изучать эти библиотеки одну за другой.

Если вы новичок, я бы посоветовал вам дать толчок изучению Scikit-Learn, поскольку он проще и проще по сравнению с другими библиотеками и требует меньше строк кода.

Вот Официальная документация SCIKIT-LEARN, которую вы можете изучить.

Вот Официальная документация PYTORCH, которую вы можете изучить.

Вот Официальная документация TENSORFLOW, которую вы можете изучить.

БОНУСНЫЙ СОВЕТ:

Для ML Начните с Scikit-Learn. Начав глубоко изучать машинное обучение, вы откроете для себя еще один чудесный мир глубокого обучения. Затем для следующего шага вы можете выбрать Pytorch или Tensorflow.

Для облегчения изучения и краткого кода выберите Pytorch.

Для кода производственного уровня выберите Tensorflow.

ШАГ-6: ОЦЕНКА

Все сделано. Что дальше…? Пришло время проверить, правильно ли работают модели, которые мы построили, и служат ли они своему назначению? Есть ли проблемы или ошибки в наших данных, коде или моделях? Мы оцениваем модели, используя некоторые меры, такие как точность, точность, отзыв, матрица неточности и т. Д.

Если после оценки наши модели не соответствуют желаемым требованиям, мы повторяем некоторые из вышеперечисленных шагов и корректируем нашу существующую модель или выбираем другую модель для достижения желаемых результатов. Наш чемпион Scikit-Learn сделает за нас всю тяжелую работу и поможет нам в оценке наших моделей с помощью своих потрясающих встроенных функций.

Таким образом, изучение библиотек машинного обучения с открытым исходным кодом на их свободно доступных веб-сайтах документации делает нашу жизнь проще и продуктивнее. Я надеюсь, что эта статья откроет вам путь в мир науки о данных и машинного обучения, используя свободно доступные ресурсы, предоставленные нашим фантастическим сообществом разработчиков с открытым исходным кодом.

Спасибо, что потратили драгоценное время на чтение этой статьи.

Это моя первая статья. Я тепло приветствую ваши предложения и отзывы. Заранее спасибо !

При желании вы можете связаться со мной через Gmail, Twitter, Github, Linkedin.

Вот мой сайт: https://sites.google.com/view/srilakshmi

Эта статья изначально была опубликована на странице https://sites.google.com/view/srilakshmi/blog/article-1.