Публикации по теме 'sklearn'


5 лучших библиотек для освоения машинного обучения
Привет, всем Nomadev здесь, вернулся с еще одним блогом о технологиях. Сегодня мы кратко обсудим 5 лучших библиотек для освоения машинного обучения. Машинное обучение — это когда компьютер запрограммирован с возможностью самообучения и улучшения своей производительности для выполнения конкретной задачи. Python — один из самых популярных языков программирования для этой задачи, и он заменил многие языки в отрасли, одной из причин является его обширная коллекция библиотек. Библиотеки..

Полное руководство по разработке функций — часть I
Инжиниринг элементов — это процесс использования знаний предметной области для извлечения признаков из необработанных данных. Эти функции можно использовать для повышения производительности алгоритмов машинного обучения. В целом разработка функций состоит из следующих подэтапов: Преобразование функции Особенности строительства Выбор функции Извлечение признаков Преобразование функции В преобразовании функций у нас есть следующий вид обработки Вменение отсутствующих..

Машинное обучение в реальной жизни: работа с недостающими значениями в необработанных данных
Предварительная обработка очень важна для реального машинного обучения, и часто мы видим набор данных с большим количеством Н / Д , что является проблемой для всех инженеров по машинному обучению. Здесь мы представляем три нескольких метода, которые часто используются в соревнованиях по науке о данных, особенно с помощью мощи Pandas и Numpy, для борьбы с этими непослушными «НЕТ» ЦЕННОСТИ Несколько полезных API-интерфейсов Pandas для обнаружения Н / Д: isnull() : создать..

Как повысить прогностическую эффективность вашего классификатора?
Когда вы обучаете модель машинного обучения, вы должны рассмотреть следующие шаги, чтобы повысить эффективность прогнозирования вашего классификатора: Можно ли добавить больше помеченных данных для обучения модели? Обычно модели машинного обучения работают лучше по мере увеличения размера набора данных. Если у вас есть возможность добавить больше данных (желательно разнообразных), сделайте это. Вам может быть интересно, можем ли мы продолжать добавлять больше данных, чтобы продолжать..

Прогнозы Зала баскетбольной славы с помощью Python
Зал славы часто является источником разногласий среди любителей баскетбола. Только лучшие из лучших должны быть допущены, но есть так много факторов, которые влияют на решения избирателей. Здесь мы пытаемся смоделировать принятие ими решений и оценить вероятность того, что игроки будут проголосованы. Историю Tableau, содержащую визуализации, связанные с этим проектом, можно найти здесь . Блокнот ipython, содержащий код для этого проекта, можно найти здесь . Мы использовали данные,..

Прогнозирование доступности отеля на год : задача машинного обучения
Эта задача связана с прогнозированием годовой доступности различных отелей на основе определенных характеристик, чтобы компания могла принять решение о сотрудничестве с отелем в отношении средств размещения. Если вы хотите попрактиковаться, данные и полный код для справки можно найти по адресу: https://github.com/negiadventures/predicting_hotel_availability.git . Описание данных Обработка данных и визуализация data = pd.read_csv("train.csv") data.head() data.describe()..

О перекрестной проверке временных рядов
Максимизация полезности данных временных рядов с помощью интеллектуального подразделения. Несмотря на то, что данные повсюду и мы создаем их каждый день на зеттабайты больше, высококачественные данные, доступные для анализа, являются ценным товаром. Подобно тому, как великие повара максимально используют животных и продукты, из которых они готовят, ученые, работающие с данными, должны стремиться максимизировать полезность любых данных, с которыми они работают. Один из способов,..