Публикации по теме 'classification'


Опорные векторные машины
Машины опорных векторов (SVM) — это тип алгоритма машинного обучения, который можно использовать для задач классификации и регрессии. Они работают, находя лучшую линию (или гиперплоскость), которая разделяет точки данных на разные классы. Например, представьте, что у вас есть набор данных с двумя классами точек, показанными синими и красными точками на рисунке ниже. Алгоритм SVM найдет лучшую линию, которая отделяет синие точки от красных точек, как показано сплошной черной линией на..

Изучите инструменты для анализа справедливости в классификации —«Что, если» от Google
Справедливость классификации часто беспокоит общественность и пользователей приложений-классификаторов. Однако что такое справедливость? И как определить, является ли классификационная модель «справедливой» или нет? Чтобы ответить на эти вопросы, я использовал Немецкий кредитный набор данных для обучения простого классификатора логистической регрессии. Затем я использую инструмент Что, если от Google, чтобы изучить и определить предвзятость в классификаторе. (необязательно)..

Обучение науке о данных: день 10 - Классификация, K-ближайшие соседи и перекрестная проверка
В предыдущих постах мы рассказывали о регрессии. Классификация, регрессия и сходство - это 3 основных метода извлечения полезных знаний из данных. Сегодня мы поговорим о классификации, ближайших соседях и перекрестной проверке. Классификация По сути, классификация проходит через отдельных лиц в популяции, чтобы попытаться представить признаки. В этом примере ось X - это функция, называемая функцией 1, а ось Y - это функция, называемая функцией 2. Зеленая линия в середине..

Простая настройка улучшает обнаружение выхода за пределы распределения для любого классификатора
Авторы: Ульяна Ткаченко, Джонас Мюллер, Кертис Г. Норткатт Любой, кто пытался обучать модели ML на реальных наборах данных (а не на идеально подобранных данных, с которыми мы работаем в школе), вероятно, имел дело с выбросами в данных. Проблема с большинством алгоритмов обнаружения выбросов и вне распределения (OOD) заключается в том, что они делают большое предположение — что модель одинаково надежна во всех классах — в большинстве случаев это большое предположение ложно. Например,..

Master SparkML: практическое руководство по машинному обучению
Раскройте потенциал SparkML с помощью нашего практического руководства. Откройте для себя машинное обучение, которое стало простым и эффективным. Добро пожаловать в это вводное руководство по SparkML. Мир данных растет экспоненциально, и традиционные инструменты анализа данных часто не работают при работе с большими данными. Здесь в игру вступает Apache Spark. Благодаря способности выполнять обработку в памяти и запускать сложные алгоритмы в масштабе, Spark является важным..

Простая проблема классификации обнаружения спама ML в блоках данных
Шаг 1. Отобразите общедоступный набор данных sms_spam_collection сообщества databricks. %fs ls /databricks-datasets/sms_spam_collection/data-001/ Вывод: [FileInfo(path=’dbfs:/databricks-datasets/sms_spam_collection/data-001/smsData.csv’, name=’smsData.csv’, size=113674, upgradeTime=1447882401000)] Шаг 2: Прочитайте файл в искровом фрейме данных. импортировать pandas как pd из sklearn.model_selection import train_test_split из sklearn.feature_extraction.text import CountVectorizer..

Как выбрать класс для нечистого листового узла
Математика Как выбрать класс для нечистого листового узла В этой статье мы обсудим, как выбрать класс нечистого листового узла в дереве решений. Для простоты воспользуемся титаническим набором данных от Kaggle . Давайте посмотрим на обучающий набор данных. Вот распределение того, выжили или погибли пассажиры: В этом наборе 549 (62%) пассажиров погибают, а 342 (38%) выживают. Ради обсуждения давайте рассмотрим дерево решений с нулевой глубиной (вы поймете, почему). При..