Привет, меня зовут Абхинав, и это мой первый блог. Я надеюсь, что вы найдете некоторое понимание этого.
Я был очарован данными и тем, как они управляют нашим окружением, от наших домов до наших метрополитенов, данные революционизируют все в то, что должно быть веком ИИ.
Я изо всех сил пытался понять это обширное поле и еще более обширную информацию, которая приходит с ним. Я был как собака на рыбном рынке, взволнованный (и это хорошо) неопровержимыми данными о том, как изучать науку о данных, но без надлежащего плана это заменит ваше интеллектуальное «я».
Давайте начнем с требований, и нужно отправиться в это путешествие, но прежде чем мы это сделаем, вы должны знать статистику (самое важное) или пойти дальше и ознакомиться с ней:
- Питон
Это язык, который большинство людей предпочитает для различных библиотек и контента, который идет с ним, в качестве языка программирования.
- Такие понятия, как классы, наследование, объекты (то есть основы каждого языка программирования) и т. д.
- Начнем с таких библиотек, как NumPy (для работы с математикой), Pandas (для работы с фреймами данных), scikit-learn (встроенные модели, метрики для оценки), matplotlib и seaborn (для визуализации данных).
2. SQL и Web Scrapper (извлечение данных)
Где взять данные для работы? А вот и SQL, мы должны познакомиться с ним, чтобы извлекать данные из баз данных и работать с ним. Управление данными, репозиторий, обновление происходит с помощью SQL. На мой взгляд, это самый недооцененный инструмент для Data Scientist.
Иногда нам приходится извлекать данные из Интернета, в этом случае появляется веб-скребок, который удаляет данные из Интернета. Используемые библиотеки: BeautifulSoup, запросы, urllib и т. д. (требуются некоторые знания HTML)
3. Исследовательский анализ данных (EDA)
Прежде чем мы поместим наши данные в нашу модель, мы должны подготовить их, чтобы наша модель могла хорошо проводить время, выполняя свою работу.
- Нулевые значения, дублирование, категориальные значения, выбросы, корреляция, распределение наших данных, дисбаланс данных и подобные вещи должны быть устранены.
С последующим:
- Визуализация данных (Tableau или PowerBI), где мы визуализируем, что происходит с нашими данными.
- Анализ данных, когда мы определяем тенденции и события в наших данных, дополнительно изучаем их, чтобы раскрыть весь их потенциал и получить дополнительную информацию.
Вы можете использовать pandas, numpy и sklearn для EDA.
4. Моделирование
Четвертое, с чем мы должны познакомиться. Чтобы получить представление о данных, мы должны соответствующим образом применять статистические методы. Scikit-learn предоставляет нам API-интерфейсы моделей, вы можете начать с них.
но рано или поздно вы должны научиться кодировать эти модели с нуля.
- Линейная регрессия и семья (регрессия)
- Логистическая регрессия (классификация)
- Наивный Байес
- Машина опорных векторов (SVM)
- Древо решений
- Случайный лес
После того, как мы ознакомимся с ними, мы должны перейти к более продвинутым алгоритмам:
- Повышение градиента
- XGboost
- Алгоритм кластеризации (K-means, Dbscan и др.)
- Временные ряды (AR, MA, ARIMA, SARIMAX, Prophet и т. д.)
- Анализ основных компонентов (PCA)
- Линейный дискриминантный анализ (LDA)
Хорошо разобравшись с ними, мы можем заняться обработкой естественного языка, глубоким обучением и такими проектами, как рекомендательные системы.
Мы не должны себя ограничивать. Все дело в эволюции, в конце концов, данные окружают нас повсюду; что мы делаем, что мы видим, что мы обоняем, что мы воспринимаем, это данные.
Алгоритмов гораздо больше, но самое главное — выбрать, какой из них применить к соответствующей постановке задачи.
5. Интерпретация
После моделирования наших данных мы должны интерпретировать их в соответствии с нашими целями и требованиями.
- Для задач регрессии мы учитываем точность, R², MSE (среднеквадратическую ошибку) и т. д.
- Для классификации мы учитываем матрицу путаницы, точность, полноту, оценку F1, AUC (площадь под кривой) и т. д.
Мы можем использовать sklearn для интерпретации нашей модели, в нем есть большинство необходимых моделей и расширений.
Ниже приведена кульминация анализа данных и таблицы.
6. Развертывание
После и когда мы будем довольны результатами моделирования, после повторения вышеуказанных процессов столько раз, сколько захотим, мы можем переключить внимание на развертывание нашей модели.
Для развертывания нашей модели требуется определенный набор навыков, с которым мы и приступаем к веб-разработке.
- HTML и CSS (для внешнего вида и макета нашего сайта)
- Javascript (для логики)
- Flask или Django для среды развертывания
- Git, чтобы эффективно управлять всем нашим кодом.
Это работа веб-разработчика.
Но если вы можете создать комплексное продуктивное приложение, нет ничего лучше этого. Большинство людей используют Heroku в сочетании с flask для развертывания своего приложения.
Я бы не сказал, что это все, что нужно специалисту по данным, который проводит большую часть своего времени, собирая и исследуя данные. Но это минимальная структура, которую следует иметь в виду, если он хочет глубоко погрузиться в постоянно расширяющуюся и требовательную область данных.
Я надеюсь, что вы найдете некоторую помощь, если вы здесь. Спасибо, что вы здесь.