Как работает перекрестная проверка в продуктах данных

В современном мире компании придают наибольшее значение цифровой трансформации, чтобы выжить в конкурентной среде. Использование данных для получения информации и прогнозов на будущее играет решающую роль, помогая компаниям принимать обоснованные решения на основе данных. На данный момент было бы правильно определить данные как сегодняшнее золото. Таким образом, ясно видно, что большая часть инвестиций делается в этой области, и мы также можем понять это по количеству предприятий, которые действуют на основе анализа данных.

Однако этот переход может вызвать некоторые неблагоприятные ситуации. Создание сквозных приложений с данными для получения основных идей и ключевых выводов может занять много времени или денег в зависимости от выбора при проектировании конвейеров данных.

С точки зрения науки о данных проектирование и создание комплексных приложений машинного обучения также называют продуктами данных. В этой статье мы сосредоточимся на том, что такое продукты данных, почему мы должны использовать их в нашей производственной среде и на рабочей логике перекрестной проверки в продуктах данных.

Что такое информационные продукты?

В области анализа данных мы можем разделить все процессы на три этапа: обработка данных, отчетность и машинное обучение. Инжиниринг данных состоит из приема необработанных данных из различных источников в озеро данных или хранилище данных, выполнения заданий ETL (извлечение, преобразование и загрузка) в необработанных данных и вставки этих обработанных данных в любую аналитическую базу данных для подачи машинного обучения или этап отчетности с агрегированными данными.

На этапе отчетности агрегированные данные должны быть эффективно визуализированы с помощью любого инструмента бизнес-аналитики, чтобы находить ключевую информацию и принимать более обоснованные решения на основе данных.

С другой стороны, этап машинного обучения в основном включает в себя извлечение новых функций из агрегированных данных, разработку правильной гипотезы о бизнес-проблеме, построение успешной модели машинного обучения путем максимизации точности прогнозов, развертывание ее в производственной среде, и мониторинг конвейера, чтобы убедиться в качестве данных и рабочем процессе.

Таким образом, любой программный сервис или инструмент, который создает конвейер от приема данных до визуализации данных или фазы машинного обучения, можно назвать продуктом данных.

Почему мы должны использовать продукты данных?

Группы данных применяют процесс обслуживания данных, пишут задания извлечения-преобразования-загрузки (ETL), разрабатывают гипотезы для улучшения моделей машинного обучения путем анализа данных и развертывания новой версии модели во многих случаях. раз в их повседневной работе, и это может быть сложным и трудоемким, чтобы решить проблемы, с которыми они столкнулись. Вы также должны убедиться в согласованности, надежности и качестве данных при выполнении этих рутинных процессов.

Именно на этом этапе продукты данных предлагают успешно управлять всем процессом за счет автоматизации, мониторинга и отладки сквозных конвейеров. Они облегчают обслуживание системы и экономят большую часть вашего времени. Помимо этих преимуществ, информационные продукты могут предоставлять необработанные данные, обработанные агрегированные данные, данные в качестве службы машинного обучения и данные в качестве результатов анализа.

Что такое перекрестная проверка в информационных продуктах?

В конвейерах машинного обучения одной из наиболее распространенных трудностей является предвзятость данных, которая может привести к резкому провалу в успехе прогнозов модели. Результирующая модель машинного обучения выбирается после процесса разделения обучения и тестирования, который является методом оценки для поиска наиболее эффективной модели для производственной среды. Многие компании и организации имеют огромный набор данных, и этот набор данных должен быть однородно разделен на части для обучения, чтобы предотвратить проблему смещения.

Перекрестная проверка в машинном обучении — это статистический метод оценки средней производительности оценки многих независимых моделей машинного обучения путем разделения различных частей набора данных на тестовые стороны в каждом прогнозе. Это означает, что вы можете узнать подробную статистику производительности обученных моделей, получив минимальные, максимальные и средние оценки производительности.

Благодаря этому статистическому подходу группы данных могут получить важную информацию об ограничениях конечной модели, которая будет развернута в рабочей среде как услуга. В дополнение к этому, команда получает возможность давать полезные отзывы и результаты клиентам и заинтересованным сторонам.

Как работает перекрестная проверка в продуктах данных

В основном есть две подгруппы перекрестной проверки с точки зрения рабочей логики, которые представляют собой исчерпывающие и неисчерпывающие подходы. В исчерпывающем подходе продукт данных оценивает все возможные пары, разделяя данные на поезд и тесты. С другой стороны, неполный подход не позволяет рассчитать все способы разбиения наборов обучающих тестов. Мы можем перечислить пять распространенных типов перекрестной проверки, а именно: метод удержания, перекрестная проверка K-кратности, стратифицированная перекрестная проверка K-кратности, перекрестная проверка с пропуском p и перекрестная проверка без исключения.

В общей рабочей логике перекрестной проверки данные будут разделены на обучающие и тестовые наборы в определенной пропорции, которая составляет %80-%20, что исходит из принципа Парето. После процесса разделения данные будут смоделированы с использованием набора поездов и оценены их производительность с помощью набора тестов. В каждой итерации в качестве тестового набора для прогнозирования будет использоваться разная комбинация точек данных. Наконец, средняя точность будет оцениваться по результатам каждой итерации, и таким образом для производственной среды может быть выбрана наиболее производительная модель.

Как описано выше, конвейер может быть слишком сложным в зависимости от количества итераций, и его работа может занять слишком много времени. Это означает, что должно быть достаточно вычислительных источников для выполнения всех систем. Поэтому нам необходимо интегрировать продукты данных в наши пайплайны.

Заключение

Большинство организаций продолжают разрабатывать ориентированные на данные проекты для принятия бизнес-решений, и перекрестная проверка будет оставаться частью этой системы. Я надеюсь, что вы нашли эту статью информативной и помогли вам понять, что такое перекрестная проверка и как она работает в продуктах данных.

Как работает перекрестная проверка в продуктах данных

Что такое информационные продукты?

Почему мы должны использовать продукты данных?

Что такое перекрестная проверка в информационных продуктах?

Как работает перекрестная проверка в продуктах данных

Заключение

Вопросы по теме