Публикации по теме 'data'
Урок по веб-скрейпингу данных
Это первая часть хроники моего пути к построению модели прогнозирования цен на бывшие в употреблении электрогитары с использованием алгоритмов машинного обучения.
Я начал проект по машинному обучению, который изначально должен был стать завершающим проектом моей аспирантуры, но этой весной я решил сменить факультативы на последний семестр. Я работаю над этим с таким же рвением и дисциплиной, но не стремлюсь получить оценку «зачет/незачет» в стенограмме.
Я влюбился в мой последний..
Никогда не стройте модель, пока не просмотрите свои данные.
Понимание ваших данных является ключом к успешному анализу
Многим покажется забавным, что любой специалист по данным не будет смотреть на свои данные перед построением модели. Большинство специалистов по данным увлекаются приобретенными навыками машинного или глубокого обучения и очень хотят показать это в своем анализе, но забывают самое главное: данные.
Неверные данные
Следует признать, что не все данные представляют ценность для вашего бизнеса, и это подводит нас к концепции..
🚢 Кластеризация названий китобойных судов с конвейерами scikit-learn и Plotly (включая код!)
Наглядный материал за неделю, выпуск 2: Как назвать корабль на основе китобойных рейсов и кластеризации k-средних
Это еженедельная серия, в которой я выбираю один из наборов данных, представленных в еженедельном информационном бюллетене Data is Plural , и визуализирую его часть. Читать первый выпуск здесь .
🔢 Набор данных
Выбранный на этой неделе набор данных из Выпуска данных от 26 января во множественном числе:
Управление файлами конфигурации в Python: полное руководство по чтению, написанию и обновлению…
Файлы конфигурации являются неотъемлемой частью управления настройками и параметрами проекта. Они предлагают гибкий и удобный способ хранения и извлечения параметров конфигурации. В Python модуль `configparser` предоставляет мощное решение для работы с файлами конфигурации в стиле INI, такими как `config.ini`. Этот исчерпывающий пост в блоге проведет вас через процесс чтения, написания и обновления файлов config.ini с помощью модуля Python configparser. Мы изучим технические детали и..
Проблема с градиентным усилением (Гремлины с градиентным усилением)
Введение
С появлением деревьев решений с градиентным усилением (GB) (adaBoost, XGBoost, LGBM) такие системы приобрели заметную популярность по сравнению с другими методами на основе деревьев, такими как Random Forest (RF). Хотя оба они имеют свое место в дорожной карте науки о данных, по моему опыту я предпочитаю модели GB, а не RF из-за невероятно высокой скорости обучения.
Хотя, как следует из названия, у меня есть проблема с моделями ГБ, которая обычно не разъясняется специалистам..
Обнаружение погоды с помощью машинного обучения:
Задача:
В этом блокноте мы будем классифицировать погоду по изображению (солнечно или облачно).
Предварительная обработка -
Во-первых, импортируйте все необходимые библиотеки -
Загрузите данные и разархивируйте их, чтобы получить доступ к изображениям и этикеткам из вашей записной книжки.
Перечислите все имена папок в вашем наборе данных и проверьте количество классификаций, которые нужно сделать:
Выход:
{'cloudy': 0, 'sunny': 1}
Чтобы лучше понять наш набор..
3 параметрический тест с R
Использованный набор данных
Этот рассказ является продолжением этой статьи .
# Получить рабочий каталог getwd ()
# Установить рабочий каталог setwd («C: \\ Users \\ batur \\ Desktop \\ R Tutorial»)
# Прочитать файл данных csv и сохранить как фрейм данных bankChurnersData = read.csv (file = ”BankChurners.csv”)
Столбцы #Drop имеют номера 22 и 23 df ‹- bankChurnersData [-c (22:23)]
#Encode Attrition_Flag столбец df как фактор - двоичная переменная df $ Attrition_Flag = factor..