Публикации по теме 'modeling'


Python: моделирование кредитного скоринга. Под капотом
Распространенной проблемой в науке о данных является предсказание бинарного результата или проблема бинарной классификации. Проще говоря, задача состоит в том, чтобы предсказать будущую «плохую» или будущую «хорошую» производительность — будущую покупку, кредитный дефолт, отток (человек, который не будет продолжать обслуживание) и так далее. Для построения прогноза можно применять разные подходы, но в целом каждая такая модель будет давать в результате класс (0 или 1, хороший или..

Поиск корня в Python
Это может быть просто и эффективно, поверьте мне. Независимо от того, являетесь ли вы ученым, инженером или кем-то еще, поиск корней — это проблема, с которой вы столкнетесь по пути, занимаясь числовыми задачами. Неважно, пытаетесь ли вы решить физическую модель, проводите какие-то операционные исследования для распределения ресурсов, планируете маршрут или выполняете подгонку данных, поиск корней будет в любом случае. Python сам по себе медленный, но кто вообще решает проблемы на..

Реализация и объяснение случайного леса в Python
Дерево решений — строительный блок Дерево решений  – это самый мощный и популярный инструмент для классификации и прогнозирования. Дерево решений представляет собой древовидную структуру, похожую на блок-схему, где каждый внутренний узел обозначает проверку атрибута, каждая ветвь представляет результат проверки, а каждый конечный узел содержит метку класса. Представление дерева решений. Деревья решений классифицируют экземпляры, сортируя их вниз по дереву от корня до некоторого..

Почему простые модели часто лучше
Значение бритвы Оккама в науке о данных и машинном обучении В науке о данных и машинном обучении простота является важной концепцией, которая может оказать существенное влияние на характеристики модели, такие как производительность и интерпретируемость. Слишком сложные решения, как правило, отрицательно влияют на эти характеристики, увеличивая вероятность переобучения, снижая эффективность вычислений и снижая прозрачность выходных данных модели. Последнее особенно важно для областей,..

Оценка и проверка модели
15-й день #15DaysOfStats 1️⃣ Метрики оценки. Такие метрики, как точность, воспроизводимость, полнота, оценка F1 и AUC, оценивают производительность модели. Например, точность измеряет процент правильных прогнозов. Понимание метрик помогает эффективно оценивать модели. 2️⃣ Train-Test Split: включает разделение данных на обучающие и тестовые наборы. Набор поездов строит модель, в то время как набор тестов оценивает ее производительность на невидимых данных, показывая, насколько..

Как избежать переобучения и недообучения
Прежде чем мы перейдем к экспериментам, стоит немного напомнить о переоснащении и недообучении. Все эксперименты должны проводиться на разных частях ваших данных. Набор данных для обучения . Используйте этот набор для обучения модели, 70–80 % ваших данных являются стандартными. Набор данных для проверки/разработки . Используйте этот набор для настройки гиперпараметров модели и оценки экспериментов. 10–15 % ваших данных — это стандарт. Набор тестовых данных . Используйте этот..

Прогноз цен на жилье: пример линейной регрессии
Введение. Линейная регрессия — это контролируемый алгоритм машинного обучения, который используется для прогнозирования непрерывного значения. Он основан на идее поиска линии наилучшего соответствия, которую можно использовать для прогнозирования значения зависимой переменной на основе значения независимой переменной. Обычно формула линейной регрессии выглядит следующим образом: * y = mx + b* В этом тематическом исследовании будет проводиться прогнозирование цен на жилье...