Публикации по теме 'learning-curve'
Модели машинного обучения на диете данных
Как размер тренировочного набора влияет на производительность
Если вы потратили какое-то время на обучение моделей машинного обучения на больших наборах данных, скорее всего, вы столкнулись с некоторыми аппаратными ограничениями и были вынуждены отрезать часть своих данных. В этой записи блога мы изучаем влияние обучения моделей машинного обучения на (случайный) выбор набора данных и показываем, что более шести наборов данных разного размера можно сохранить не менее 95 %..
Это самое начало моего писательского пути!
Каждый программист - автор…
Как страстный читатель классных статей на Medium, я наконец нашел необходимый уровень смелости, чтобы начать делиться своими образовательными достижениями во время моего буткемпа с полным стеком.
Это буткемп с плотным графиком, и нетрудно представить, что у меня нет такой роскоши, как эффективно использовать время. Следовательно, у меня не так много времени, чтобы писать и редактировать. Таким образом, я нашел промежуточное решение, которое могло..
Диагностика машинного обучения
Оцените гипотезу модели
Произвольное разделение данных на обучающий набор, проверочный набор и тестовый набор (6:2:2) Используйте проверочный набор для выбора модели Используйте тестовый набор для оценки ошибки обобщения
Выберите быстрый и грязный алгоритм, чтобы сначала выполнить анализ
Диагностика предвзятости и дисперсии
График ошибки обучения и ошибки проверки в зависимости от сложности модели (например, степени полиномов)
Если вы уже выбрали модель с достаточной..
Как работает функция learning_curve из scikit-learn?
Определяет перекрестно проверенные результаты обучения и тестов для разных размеров обучающих наборов.
Генератор перекрестной проверки разделяет весь набор данных k раз на обучающие и тестовые данные. Подмножества обучающего набора с различными размерами будут использоваться для обучения оценщика и оценки для каждого размера обучающего подмножества, а также будет вычислен набор тестов. После этого оценки будут усреднены по всем k запускам для каждого размера обучающей подгруппы...