Публикации по теме data-science

Публикации по теме 'data-science'

Создайте kNN с нуля — Python

С перекрестной проверкой k -Fold (с нуля) В этой статье мы поймем, как работает алгоритм k-ближайших соседей (kNN), и построим алгоритм kNN с нуля. Мы также оценим наш алгоритм с помощью перекрестной проверки k-Fold, которая также разработана с нуля. После прохождения этого урока вы будете знать: Пошаговое кодирование алгоритма k -Nearest Neighbours Как использовать k-ближайших соседей, чтобы сделать прогноз для новых данных Пошаговое руководство по кодированию перекрестной..

Будь простым, глупым - наивный байесовский классификатор

Конспект лекций FAU по распознаванию образов, CODEX Будь простым, глупым - наивный байесовский классификатор Сказки из мира с независимыми измерениями Это конспекты лекции FAU на YouTube Распознавание образов . Это полная стенограмма видео лекции и соответствующие слайды . Исходники слайдов доступны здесь . Надеемся, вам понравится это не меньше, чем видео. Эта стенограмма была почти полностью сгенерирована машиной с использованием AutoBlog , и в нее были внесены лишь..

Понимание трех наиболее распространенных функций потерь для регрессии машинного обучения

⭐️ Если вы любите узнавать что-то новое, ознакомьтесь с моим информационным бюллетенем: Могущественные знания Функция потерь в машинном обучении - это мера того, насколько точно ваша модель машинного обучения способна предсказать ожидаемый результат, то есть основную истину. Функция потерь будет принимать в качестве входных данных два элемента: выходное значение нашей модели и истинное ожидаемое значение. Выходные данные функции потерь называются потерями , которые являются мерой..

Какова роль наборов данных в машинном обучении?

Наборы данных Чтобы понять контекст того, что такое набор данных, и роль, которую он играет в машинном обучении (ML), мы должны сначала обсудить компоненты набора данных. Набор данных или набор данных - это просто набор данных. Самый простой и наиболее распространенный формат для наборов данных, которые вы найдете в Интернете, - это электронная таблица или формат CSV - отдельный файл, организованный в виде таблицы из строк и столбцов. Но некоторые наборы данных будут храниться в..

Доверительный интервал, расчет и характеристики

Что такое доверительный интервал, как его рассчитать и его важные характеристики Доверительный интервал (CI) очень важен в статистике и науке о данных. В этой статье я собираюсь объяснить доверительный интервал, способы его вычисления и его важные характеристики. Доверительный интервал (ДИ) - это диапазон значений. Он выражается в процентах и должен содержать наилучшую оценку статистического параметра. Доверительный интервал 95% означает 95% уверенности, что наш параметр..

4 причины, по которым ваша точная модель может оказаться недостаточно хорошей

Когда мы учились в школе и нам давали решить задачу, мы обычно прекращали работу над задачей, как только находили ответ, и записывали этот ответ на бумаге. Это может быть справедливым подходом к заданиям в начальной школе, но такой подход не годится ни в высшем образовании, ни в жизни. К сожалению, многие люди продолжают это усвоенное поведение во взрослой жизни, в университете и/или на работе. Следовательно, эти люди упускают новые возможности для обучения, открытий, признания и..

Категориальные данные

Понимание проектирования функций (часть 2) Категориальные данные Стратегии работы с дискретными категориальными данными Вступление Мы рассмотрели различные стратегии разработки функций для работы со структурированными непрерывными числовыми данными в предыдущей статье этой серии . В этой статье мы рассмотрим другой тип структурированных данных, который носит дискретный характер и обычно называется категориальными данными. Работать с числовыми данными часто проще, чем с..