Начните свое путешествие по науке о данных с правильной ноги.

Привет, меня зовут Абхинав, и это мой первый блог. Я надеюсь, что вы найдете некоторое понимание этого.

Я был очарован данными и тем, как они управляют нашим окружением, от наших домов до наших метрополитенов, данные революционизируют все в то, что должно быть веком ИИ.

Я изо всех сил пытался понять это обширное поле и еще более обширную информацию, которая приходит с ним. Я был как собака на рыбном рынке, взволнованный (и это хорошо) неопровержимыми данными о том, как изучать науку о данных, но без надлежащего плана это заменит ваше интеллектуальное «я».

Давайте начнем с требований, и нужно отправиться в это путешествие, но прежде чем мы это сделаем, вы должны знать статистику (самое важное) или пойти дальше и ознакомиться с ней:

Питон

Это язык, который большинство людей предпочитает для различных библиотек и контента, который идет с ним, в качестве языка программирования.

Такие понятия, как классы, наследование, объекты (то есть основы каждого языка программирования) и т. д.
Начнем с таких библиотек, как NumPy (для работы с математикой), Pandas (для работы с фреймами данных), scikit-learn (встроенные модели, метрики для оценки), matplotlib и seaborn (для визуализации данных).

2. SQL и Web Scrapper (извлечение данных)

Где взять данные для работы? А вот и SQL, мы должны познакомиться с ним, чтобы извлекать данные из баз данных и работать с ним. Управление данными, репозиторий, обновление происходит с помощью SQL. На мой взгляд, это самый недооцененный инструмент для Data Scientist.

Иногда нам приходится извлекать данные из Интернета, в этом случае появляется веб-скребок, который удаляет данные из Интернета. Используемые библиотеки: BeautifulSoup, запросы, urllib и т. д. (требуются некоторые знания HTML)

3. Исследовательский анализ данных (EDA)

Прежде чем мы поместим наши данные в нашу модель, мы должны подготовить их, чтобы наша модель могла хорошо проводить время, выполняя свою работу.

Нулевые значения, дублирование, категориальные значения, выбросы, корреляция, распределение наших данных, дисбаланс данных и подобные вещи должны быть устранены.

С последующим:

Визуализация данных (Tableau или PowerBI), где мы визуализируем, что происходит с нашими данными.
Анализ данных, когда мы определяем тенденции и события в наших данных, дополнительно изучаем их, чтобы раскрыть весь их потенциал и получить дополнительную информацию.

Вы можете использовать pandas, numpy и sklearn для EDA.

4. Моделирование

Четвертое, с чем мы должны познакомиться. Чтобы получить представление о данных, мы должны соответствующим образом применять статистические методы. Scikit-learn предоставляет нам API-интерфейсы моделей, вы можете начать с них.

но рано или поздно вы должны научиться кодировать эти модели с нуля.

Линейная регрессия и семья (регрессия)
Логистическая регрессия (классификация)
Наивный Байес
Машина опорных векторов (SVM)
Древо решений
Случайный лес

После того, как мы ознакомимся с ними, мы должны перейти к более продвинутым алгоритмам:

Повышение градиента
XGboost
Алгоритм кластеризации (K-means, Dbscan и др.)
Временные ряды (AR, MA, ARIMA, SARIMAX, Prophet и т. д.)
Анализ основных компонентов (PCA)
Линейный дискриминантный анализ (LDA)

Хорошо разобравшись с ними, мы можем заняться обработкой естественного языка, глубоким обучением и такими проектами, как рекомендательные системы.

Мы не должны себя ограничивать. Все дело в эволюции, в конце концов, данные окружают нас повсюду; что мы делаем, что мы видим, что мы обоняем, что мы воспринимаем, это данные.

Алгоритмов гораздо больше, но самое главное — выбрать, какой из них применить к соответствующей постановке задачи.

5. Интерпретация

После моделирования наших данных мы должны интерпретировать их в соответствии с нашими целями и требованиями.

Для задач регрессии мы учитываем точность, R², MSE (среднеквадратическую ошибку) и т. д.
Для классификации мы учитываем матрицу путаницы, точность, полноту, оценку F1, AUC (площадь под кривой) и т. д.

Мы можем использовать sklearn для интерпретации нашей модели, в нем есть большинство необходимых моделей и расширений.

Ниже приведена кульминация анализа данных и таблицы.

6. Развертывание

После и когда мы будем довольны результатами моделирования, после повторения вышеуказанных процессов столько раз, сколько захотим, мы можем переключить внимание на развертывание нашей модели.

Для развертывания нашей модели требуется определенный набор навыков, с которым мы и приступаем к веб-разработке.

HTML и CSS (для внешнего вида и макета нашего сайта)
Javascript (для логики)
Flask или Django для среды развертывания
Git, чтобы эффективно управлять всем нашим кодом.

Это работа веб-разработчика.

Но если вы можете создать комплексное продуктивное приложение, нет ничего лучше этого. Большинство людей используют Heroku в сочетании с flask для развертывания своего приложения.

Я бы не сказал, что это все, что нужно специалисту по данным, который проводит большую часть своего времени, собирая и исследуя данные. Но это минимальная структура, которую следует иметь в виду, если он хочет глубоко погрузиться в постоянно расширяющуюся и требовательную область данных.

Я надеюсь, что вы найдете некоторую помощь, если вы здесь. Спасибо, что вы здесь.

Начните свое путешествие по науке о данных с правильной ноги.

Вопросы по теме