Правильно ли вы разделяете набор данных?

Оценка производительности приложения - это процесс, в котором разделение набора данных является основным этапом.

Определив ситуацию, в которой подходит приложение машинного обучения, с целью оптимизации некоторых технических, операционных или бизнес-процессов и недопущения того, чтобы ваша организация обгоняла конкурентов, мы должны предпринять первые шаги для правильно построить проект.

Сначала это делается путем сосредоточения внимания на доступном наборе данных. По большей части наши данные будут служить нам ориентиром при разработке приложения для машинного обучения. С помощью эмпирического процесса, вооруженного такими показателями, как точность, отзывчивость, среди прочего, мы будем оценивать эффективность приложение машинного обучения.

Показатели для оценки

Точность, отзыв (чувствительность), оценка F1 и точность - это показатели, используемые для оценки производительности модели машинного обучения. Без использования этих показателей для оптимизации модели приложение может быть предвзятым или иметь ошибки, которые обнаруживаются только после того, как приложение находится в производственной среде.

После оценки полученных результатов мы начинаем новую итерацию цикла разработки, корректируя нашу сетевую архитектуру / алгоритм машинного обучения, набор данных и другие соответствующие компоненты приложения.

Оценка производительности приложения - это процесс, в котором разделение набора данных является основным этапом. Вы можете сделать это разделение несколькими способами. Для иллюстрации мы будем использовать наиболее распространенное в литературе деление «80/10/10». В этом подразделении мы отделяем 80% наших данных для обучения модели, 10% для оценки во время разработки проекта - также называемого набором для разработки - и оставшиеся 10% для набора тестов, которые мы используем для тестирования нашей модели. . »

Вы когда-нибудь задумывались о применимости этого «традиционного» деления? Долгое время разделение данных «80/10/10» - или одна из аналогичных пропорций - считалось стандартом для разработки моделей машинного обучения.

Применимо ли это разделение сегодня при работе с огромными наборами данных?

Выполнение неправильного разделения набора данных может без необходимости увеличить время разработки вашего проекта. В зависимости от количества доступных образцов вы можете проводить оценки своей модели ежедневно или даже с более высокой частотой на излишне больших наборах .

Несмотря на то, что создается впечатление, что определение модели для достижения определенного результата довольно просто, это далеко от истины. Без внедрения итеративного процесса невозможно добиться прорыва в проблеме машинного обучения.

Помните, что проект машинного обучения состоит из очень итеративного процесса.

Разработка модели, которая даст нам удовлетворительные результаты, - это очень итеративный процесс. Если мы не структурируем наш набор данных должным образом в отношении количества доступных образцов, каждая итерация разработки, безусловно, будет стоить вашей команде все больше и больше.

Надеюсь, вам понравилось читать этот пост.

Если вам нравится этот быстрый и понятный контент, посвященный машинному обучению, оставьте свой отзыв и подпишитесь на меня в Twitter.

Спасибо за уделенное время. Будьте осторожны и продолжайте кодировать!

Правильно ли вы разделяете набор данных?

Оценка производительности приложения - это процесс, в котором разделение набора данных является основным этапом.

Помните, что проект машинного обучения состоит из очень итеративного процесса.

Вопросы по теме