Публикации по теме 'statistics'
Теория логистической регрессии для практиков
Ключевая прикладная интуиция для специалистов по данным
Это мои сводные заметки по теории логистической регрессии, предназначенные для практиков в области науки о данных. Я объясняю, когда и почему использовать логистическую регрессию, ключевую математическую теорию и как интерпретировать результаты модели и оценки коэффициентов для заинтересованных сторон.
Оглавление
1) Что такое логистическая регрессия? 2) Когда следует использовать логистическую регрессию? 3) Почему мы..
Анализ главных компонентов (PCA) 101 с использованием R
Улучшение предсказуемости и классификации по одному параметру за раз! «Визуализируйте» 30 измерений с помощью 2D-графика!
Не забудьте подписаться на мой профиль , если вам понравилась эта статья и вы хотите увидеть больше!
Настраивать
В этой статье мы будем использовать набор данных по раку молочной железы, штат Висконсин, из репозитория машинного обучения UCI в качестве наших данных. Если хотите, продолжайте и загрузите его для себя:
wdbc <- read.csv("wdbc.csv",..
Индекс Джини против энтропии для получения информации в деревьях решений
Индекс Джини и энтропия являются критериями расчета прироста информации. Алгоритмы дерева решений используют прирост информации для разделения узла.
И Джини, и энтропия являются мерами загрязнения узла. Узел, имеющий несколько классов, является нечистым, тогда как узел, имеющий только один класс, является чистым. Энтропия в статистике аналогична энтропии в термодинамике, где она означает беспорядок. Если в узле есть несколько классов, в этом узле есть беспорядок.
Прирост..
Мой набор инструментов для временных рядов
Мои предпочтительные модели для анализа временных рядов
Что касается прогнозирования временных рядов, я убежден, что чем проще модель, тем лучше.
Однако не все временные ряды одинаковы. Некоторые временные ряды имеют четко выраженный тренд - мы часто видим это на экономических данных, например:
Другие показывают более стационарный узор - например, ежемесячное количество авиапассажиров:
Выбор модели временных рядов будет сильно зависеть от типа временных рядов, с которыми вы..
Capstone Project: регрессионный анализ для прогнозирования цен на автомобили с использованием Python
Простая и множественная линейная регрессия для прогнозирования цены автомобиля
Автор: Ганс и Райнер
Данные - это просто резюме тысяч историй - расскажите несколько из этих историй, чтобы сделать данные значимыми. Чип и Дэн Хит, авторы книги Made to Stick, Switch
Введение
В современную эпоху автомобиль стал одной из потребностей городского сообщества. Как правило, цена автомобиля может варьироваться в зависимости от марки и технических характеристик.
Обычно тот, кто..
Типы данных
Говорят, что специалист по данным — это «самая сексуальная должность в 21 веке». Почему это такая востребованная должность в наши дни?
Короткий ответ заключается в том, что за последнее десятилетие произошел массовый взрыв данных, генерируемых и сохраняемых компаниями, а также вами и мной. Иногда мы называем это «большими данными», и нам хочется анализировать, извлекать закономерности, делать выводы, делать прогнозы с огромным количеством данных, лежащих вокруг.
Специалисты по..
Применение PCA к кривой доходности
Узнайте, как применить одно из самых популярных приложений анализа основных компонентов с использованием текущих финансовых данных в Python.
Кривая доходности - это линия, которая отображает различные процентные ставки по облигациям с одинаковым кредитным качеством и разными сроками погашения. Утверждается, что государственные облигации имеют незначительный риск дефолта, поскольку правительство может просто занять больше денег для финансирования их выплат. Согласно теории ожиданий..