Публикации по теме 'statistics'


Теория логистической регрессии для практиков
Ключевая прикладная интуиция для специалистов по данным Это мои сводные заметки по теории логистической регрессии, предназначенные для практиков в области науки о данных. Я объясняю, когда и почему использовать логистическую регрессию, ключевую математическую теорию и как интерпретировать результаты модели и оценки коэффициентов для заинтересованных сторон. Оглавление 1) Что такое логистическая регрессия? 2) Когда следует использовать логистическую регрессию? 3) Почему мы..

Анализ главных компонентов (PCA) 101 с использованием R
Улучшение предсказуемости и классификации по одному параметру за раз! «Визуализируйте» 30 измерений с помощью 2D-графика! Не забудьте подписаться на мой профиль , если вам понравилась эта статья и вы хотите увидеть больше! Настраивать В этой статье мы будем использовать набор данных по раку молочной железы, штат Висконсин, из репозитория машинного обучения UCI в качестве наших данных. Если хотите, продолжайте и загрузите его для себя: wdbc <- read.csv("wdbc.csv",..

Индекс Джини против энтропии для получения информации в деревьях решений
Индекс Джини и энтропия являются критериями расчета прироста информации. Алгоритмы дерева решений используют прирост информации для разделения узла. И Джини, и энтропия являются мерами загрязнения узла. Узел, имеющий несколько классов, является нечистым, тогда как узел, имеющий только один класс, является чистым. Энтропия в статистике аналогична энтропии в термодинамике, где она означает беспорядок. Если в узле есть несколько классов, в этом узле есть беспорядок. Прирост..

Мой набор инструментов для временных рядов
Мои предпочтительные модели для анализа временных рядов Что касается прогнозирования временных рядов, я убежден, что чем проще модель, тем лучше. Однако не все временные ряды одинаковы. Некоторые временные ряды имеют четко выраженный тренд - мы часто видим это на экономических данных, например: Другие показывают более стационарный узор - например, ежемесячное количество авиапассажиров: Выбор модели временных рядов будет сильно зависеть от типа временных рядов, с которыми вы..

Capstone Project: регрессионный анализ для прогнозирования цен на автомобили с использованием Python
Простая и множественная линейная регрессия для прогнозирования цены автомобиля Автор: Ганс и Райнер Данные - это просто резюме тысяч историй - расскажите несколько из этих историй, чтобы сделать данные значимыми. Чип и Дэн Хит, авторы книги Made to Stick, Switch Введение В современную эпоху автомобиль стал одной из потребностей городского сообщества. Как правило, цена автомобиля может варьироваться в зависимости от марки и технических характеристик. Обычно тот, кто..

Типы данных
Говорят, что специалист по данным — это «самая сексуальная должность в 21 веке». Почему это такая востребованная должность в наши дни? Короткий ответ заключается в том, что за последнее десятилетие произошел массовый взрыв данных, генерируемых и сохраняемых компаниями, а также вами и мной. Иногда мы называем это «большими данными», и нам хочется анализировать, извлекать закономерности, делать выводы, делать прогнозы с огромным количеством данных, лежащих вокруг. Специалисты по..

Применение PCA к кривой доходности
Узнайте, как применить одно из самых популярных приложений анализа основных компонентов с использованием текущих финансовых данных в Python. Кривая доходности - это линия, которая отображает различные процентные ставки по облигациям с одинаковым кредитным качеством и разными сроками погашения. Утверждается, что государственные облигации имеют незначительный риск дефолта, поскольку правительство может просто занять больше денег для финансирования их выплат. Согласно теории ожиданий..