Публикации по теме 'data'


Урок по веб-скрейпингу данных
Это первая часть хроники моего пути к построению модели прогнозирования цен на бывшие в употреблении электрогитары с использованием алгоритмов машинного обучения. Я начал проект по машинному обучению, который изначально должен был стать завершающим проектом моей аспирантуры, но этой весной я решил сменить факультативы на последний семестр. Я работаю над этим с таким же рвением и дисциплиной, но не стремлюсь получить оценку «зачет/незачет» в стенограмме. Я влюбился в мой последний..

Никогда не стройте модель, пока не просмотрите свои данные.
Понимание ваших данных является ключом к успешному анализу Многим покажется забавным, что любой специалист по данным не будет смотреть на свои данные перед построением модели. Большинство специалистов по данным увлекаются приобретенными навыками машинного или глубокого обучения и очень хотят показать это в своем анализе, но забывают самое главное: данные. Неверные данные Следует признать, что не все данные представляют ценность для вашего бизнеса, и это подводит нас к концепции..

🚢 Кластеризация названий китобойных судов с конвейерами scikit-learn и Plotly (включая код!)
Наглядный материал за неделю, выпуск 2: Как назвать корабль на основе китобойных рейсов и кластеризации k-средних Это еженедельная серия, в которой я выбираю один из наборов данных, представленных в еженедельном информационном бюллетене Data is Plural , и визуализирую его часть. Читать первый выпуск здесь . 🔢 Набор данных Выбранный на этой неделе набор данных из Выпуска данных от 26 января во множественном числе:

Управление файлами конфигурации в Python: полное руководство по чтению, написанию и обновлению…
Файлы конфигурации являются неотъемлемой частью управления настройками и параметрами проекта. Они предлагают гибкий и удобный способ хранения и извлечения параметров конфигурации. В Python модуль `configparser` предоставляет мощное решение для работы с файлами конфигурации в стиле INI, такими как `config.ini`. Этот исчерпывающий пост в блоге проведет вас через процесс чтения, написания и обновления файлов config.ini с помощью модуля Python configparser. Мы изучим технические детали и..

Проблема с градиентным усилением (Гремлины с градиентным усилением)
Введение С появлением деревьев решений с градиентным усилением (GB) (adaBoost, XGBoost, LGBM) такие системы приобрели заметную популярность по сравнению с другими методами на основе деревьев, такими как Random Forest (RF). Хотя оба они имеют свое место в дорожной карте науки о данных, по моему опыту я предпочитаю модели GB, а не RF из-за невероятно высокой скорости обучения. Хотя, как следует из названия, у меня есть проблема с моделями ГБ, которая обычно не разъясняется специалистам..

Обнаружение погоды с помощью машинного обучения:
Задача: В этом блокноте мы будем классифицировать погоду по изображению (солнечно или облачно). Предварительная обработка - Во-первых, импортируйте все необходимые библиотеки - Загрузите данные и разархивируйте их, чтобы получить доступ к изображениям и этикеткам из вашей записной книжки. Перечислите все имена папок в вашем наборе данных и проверьте количество классификаций, которые нужно сделать: Выход: {'cloudy': 0, 'sunny': 1} Чтобы лучше понять наш набор..

3 параметрический тест с R
Использованный набор данных Этот рассказ является продолжением этой статьи . # Получить рабочий каталог getwd () # Установить рабочий каталог setwd («C: \\ Users \\ batur \\ Desktop \\ R Tutorial») # Прочитать файл данных csv и сохранить как фрейм данных bankChurnersData = read.csv (file = ”BankChurners.csv”) Столбцы #Drop имеют номера 22 и 23 df ‹- bankChurnersData [-c (22:23)] #Encode Attrition_Flag столбец df как фактор - двоичная переменная df $ Attrition_Flag = factor..