Вы согласитесь со мной, что прогностическая аналитика для безопасности пищевых продуктов требует большого количества науки. Я считаю, что здесь тоже нужен художественный подход. Не все будут одинаково пытаться решить проблему аналитики безопасности пищевых продуктов. Создание машины для прогнозирования безопасности пищевых продуктов требует довольно сложного подхода по двум основным причинам.

Во-первых, потому что это не так просто, как кажется.

Да, существует множество наборов данных по безопасности пищевых продуктов (например, Европейский RASSF или различные наборы данных US FDA Data Dashboard), которые можно использовать для обучения и тестирования алгоритма ИИ. Также существует множество алгоритмов машинного обучения с открытым исходным кодом и других алгоритмов, которые можно использовать.

Но выбор, обучение и развертывание алгоритма искусственного интеллекта, который может эффективно и с высокой точностью прогнозировать события, связанные с безопасностью пищевых продуктов, может стать довольно трудоемкой задачей.

Во-вторых, потому что неясно, насколько на это можно положиться.

Да, вы можете выбрать и развернуть сложный алгоритм машинного обучения, чтобы он мог точно предсказать некоторые из уже имевшихся отзывов продуктов. Вы также можете объединить общедоступные данные об отзыве с внутренними отзывами, чтобы обучить алгоритм, который будет адаптирован для конкретного сектора промышленности или цепочки поставок.

Но постоянный мониторинг и оценка алгоритма искусственного интеллекта, чтобы гарантировать, что он обеспечивает надежные прогнозы и может поддерживать критически важные для бизнеса решения, - это не то же самое, что и проведение одноразового эксперимента по прогнозированию.

Я твердо убежден в том, как должна работать прогнозная аналитика безопасности пищевых продуктов.

В своей докторской степени я много экспериментировал с совместной фильтрацией, семейством« рекомендательных системных алгоритмов », которые пытаются предсказать, что понравится людям. Я провел обширное обучение и тестирование алгоритмов, используя как синтетические, так и реальные наборы данных. Я изучил, какие параметры работают лучше всего в каждой постановке задачи, используя соответствующие наборы данных. Я даже разработал онлайн-систему, которая помогает специалистам по данным в разработке и проведении таких экспериментов по анализу данных.

Затем мы также потратили много времени и ресурсов в Agroknow, исследуя, как алгоритмы искусственного интеллекта могут служить задачам прогнозирования безопасности пищевых продуктов. Наша последняя работа была обширным экспериментом, который мы представили в этом году на конференции GFSI в Сиэтле. Мы применили методы машинного обучения к очень большому набору данных об отзыве продуктов питания и отказах на границе, пытаясь предсказать опасности и инциденты, связанные с безопасностью пищевых продуктов, которые, как мы можем ожидать, будут иметь тенденцию к появлению в 2020 году.

Этот опыт повлиял на то, как мы разрабатываем нашу собственную машину для прогнозирования безопасности пищевых продуктов.

Правильно выберите проблему

На какой вопрос вы пытаетесь ответить? Какие важные измерения вы хотите исследовать? Какие соответствующие гипотезы вы пытаетесь подтвердить статистически значимым образом?

В нашем эксперименте GFSI мы искали ответы на три вопроса, связанных с предсказанием:

  1. В отношении каких категорий ингредиентов следует ожидать больше инцидентов, связанных с безопасностью пищевых продуктов в 2020 году?
  2. Какие виды угроз безопасности пищевых продуктов мы можем ожидать больше в течение следующих 12 месяцев?
  3. Если мы сосредоточимся на определенной категории продуктов, например, шоколадных изделиях, какие ингредиенты являются наиболее уязвимыми и какие проблемы с безопасностью пищевых продуктов следует ожидать?

Вопрос №1 касается «инцидентов, связанных с безопасностью пищевых продуктов». Мы имеем в виду два типа инцидентов: отзыв пищевых продуктов и отказы от пищевых продуктов на границе (т. Е. Отказы от импорта).

Практически он спрашивает:

  • Учитывая, что у меня есть доступ к историческим данным обо всех отзывах пищевых продуктов и отказах на границе, которые имели место до декабря 2019 года, классифицированных в соответствии с сырьем и ингредиентами, которые были связаны с отзывом…
  • … можно ли с высокой степенью уверенности предсказать, сколько инцидентов, связанных с безопасностью пищевых продуктов, у нас будет для каждой категории ингредиентов в 2020 году?

Вот таблица, в которой представлены категории ингредиентов, по которым мы должны ожидать увеличения количества отзывов продуктов и отказов на границе в течение 2020 года.

Используйте данные, которые имеют смысл для этой проблемы

Какие подмножества данных имеет смысл использовать для каждого из важных вопросов?

Например, если сосредоточиться на вопросе № 1, нам нужно как можно больше исторических данных об отзыве пищевых продуктов и отказах на границе. Тем не менее, необходимо принять некоторые решения по отбору данных:

  • Заинтересованы ли мы в глобальной картине, используя очень большой глобальный набор данных для построения общего прогноза безопасности пищевых продуктов?
  • Или нам нужен подмножество данных, связанных только с конкретными интересующими географическими регионами, такими как США или Европейский Союз?
  • Кроме того, следует ли нам разрезать данные в соответствии с категориями продуктов, к которым они относятся, удаляя нерелевантные отзывы и отклонения продуктов, чтобы они не влияли на прогноз?

В нашем эксперименте мы решили изучить все возможные варианты. Мы хотели увидеть, что глобальный набор данных может помочь нам предсказать все типы и места возникновения рисков для безопасности пищевых продуктов. Мы также сосредоточились на шоколадных продуктах и ​​их ингредиентах, создав подмножество, которое включало все отзывы шоколадных продуктов и бракованные границы.

Это дало нам возможность поиграть с множеством вариантов данных.

Будьте готовы к серьезной работе по подготовке, разделению и повторному объединению данных

Проще говоря, алгоритмы ИИ пытаются построить математическую модель либо до того, как система будет развернута в реальных условиях, либо во время работы.

Например, машинное обучение с учителем строит модель, которая делает прогнозы на основе доказательств при наличии неопределенности. Алгоритм контролируемого обучения принимает известный набор входных данных и известные ответы на данные (выход). Затем он обучает модель генерировать разумные прогнозы при поступлении неизвестных данных.

Обычно это делается путем разделения реальных исторических данных на обучающие и тестовые подмножества: алгоритм параметризуется с использованием обучающих данных, затем его прогностические возможности оцениваются с использованием данных тестирования.

Как мы делаем надежные прогнозы?

Существует несколько методов подготовки и комбинирования данных, чтобы модель могла давать надежные прогнозы. К ним относятся несколько методов разделения данных и перекрестной проверки, а также способы гарантировать, что обучающие и тестовые распределения данных похожи. Затем в игру вступают такие проблемы с данными, как обработка отсутствующих или несогласованных данных. Опять же, существует множество методов, которые помогут решить, например, отсутствующие значения данных .

В зависимости от используемых методов входные данные могут нуждаться в дальнейшей категоризации или разделении на определенные группы или классы (методы классификации); или быть сформулированными в диапазонах данных и действительных числах, таких как вероятность возникновения инцидента (методы регрессии).

Что в итоге?

Прежде чем мы сможем развертывать алгоритмы, необходимо провести серьезную обработку данных и управление ими.

Если вы нацелены на научный эксперимент или исследование, это нормально. Однако для предоставления надежных и эффективных услуг прогнозирования безопасности пищевых продуктов необходимо серьезно рассмотреть способ непрерывной обработки, управления и объединения входных данных .

Для нашего эксперимента у нас уже есть наборы исторических данных на нашей платформе данных, которая предлагает ряд расширенных функций управления и манипулирования данными. Для каждого алгоритмического эксперимента исходные наборы данных были разделены на разные версии входных данных, которые хранились в разных форматах данных и в разных местах.

Но вот что самое интересное:

Таким образом, мы создали несколько подмножеств, версий и комбинаций одних и тех же исторических данных.

(Фотография любезно предоставлена ​​House of Bots, с https://www.houseofbots.com/news-detail/4463-1-deep-learning-algorithms-already-hitting-its-limitations)

Используйте как можно больше алгоритмов ИИ для всех этих комбинаций данных.

Как найти и параметризовать алгоритм, который будет лучше всего работать для конкретной задачи и комбинации данных? Ну, путем обширного тестирования и параметризации. Это означает пробовать как можно больше алгоритмов и вариантов.

В нашем докладе о прогнозировании GFSI мы работали с 4 различными семействами алгоритмов машинного обучения с учителем и одним семейством алгоритмов глубокого обучения. Нам пришлось попробовать разные параметры для каждого алгоритма, выполнить разные проходы по входным данным, чтобы увидеть, какой тип прогнозных моделей был построен, уточнить, пересмотреть и снова запустить.

Панель экспериментов на нашей платформе данных помогла нам запланировать и автоматизировать выполнение многих из этих задач. Наличие алгоритмов, уже реализованных в виде компонентов платформы, позволило выполнять каждый вариант с разными комбинациями данных, пока мы не нашли подходящие наборы данных для каждого типа алгоритма.

Таким образом, мы выполнили две полные итерации: в одной были получены прогнозы на основе глобального набора данных о происшествиях с пищевыми продуктами; и один, использующий данные конкретно о шоколадных продуктах и ​​ингредиентах.

Какие результаты мы получили для важнейших ингредиентов, используемых в шоколадных продуктах?

В следующей таблице показан пример прогнозов опасности пищевых продуктов для арахиса. Алгоритм более чем на 98% уверен, что в 2020 году инциденты с афлатоксином продолжатся.

Сосредоточьтесь на правильных показателях прогноза

Как мы можем измерить, правильно ли работает алгоритм прогнозирования? Есть так много показателей, которые можно использовать. Поэтому очень важно выбрать правильные для конкретной задачи прогнозирования.

Можно использовать классические метрики поиска и классификации информации, такие как Точность и отзыв. Или другие простые метрики машинного обучения, которые измеряют точность и охват алгоритма. В идеале выбор показателей оценки должен быть связан с постановкой проблемы.

Он также должен отражать реальные настройки, в которых ожидается, что алгоритм будет работать.

Я могу думать о сценариях, в которых точность классификации алгоритма должна быть высокой. Например, в случае системы прогнозирования, которая предполагает, следует ли проводить лабораторные испытания конкретных продуктов или на предмет конкретных опасностей.

Принятие неправильного решения означает, что:

  • будут проводиться ненужные (и дорогие) лабораторные тесты для сырья или опасностей, которые нам не следует искать.
  • или мы пропустим тест на важную возникающую опасность, и это может остаться незамеченным в соответствии с нашими процедурами мониторинга пищевых рисков.

В нашем эксперименте с GFSI нас больше интересовал охват, чем точность. То есть мы хотели понять тенденции инцидентов и поэтому искали численный прогноз: какое количество (#) инцидентов, связанных с безопасностью пищевых продуктов, нам следует ожидать в 2020 году?

Неточный прогноз не был критичным в нашем сценарии: нас больше интересовало выявление тенденций.

С другой стороны, хорошее освещение было критичным. Невозможность рассчитать прогноз для одной или нескольких категорий продуктов будет означать, что мы не будем иметь ни малейшего представления о том, чего ожидать в следующие 12 месяцев.

Подумайте об операциях

При оценке операций необходимо ответить на ряд вопросов. Как часто следует проводить такие обширные эксперименты? Когда следует использовать новые данные и сравнивать выбранный алгоритм с другими вариантами? Если необходимо, как можно повторно обучить или параметризовать модель?

А как насчет экспертных знаний, которые исходят от пользователей? Как человеческий опыт и знания из реальной жизни могут питать модель прогнозирования, исправляя или проверяя прогнозы? Как алгоритм учитывает такие входные данные?

Как следует визуализировать результаты прогнозов, чтобы они могли стать более полными и актуальными для задач мониторинга и предотвращения пищевых рисков, которые они призваны поддерживать? Какие визуальные информационные панели и модальности интерфейса можно использовать? Как пользователи реагируют на каждую визуализацию и что они считают более полезным и удобным?

Так оно и есть.

Вот почему наша команда уделяет этому этапу все свое внимание и энергию.

Мы сделали экспериментальную часть. Мы использовали множество комбинаций данных. Мы подобрали алгоритмы прогнозирования, подходящие для каждого случая клиента.

Теперь мы будем работать над панелями прогнозирования, интегрируя наше программное обеспечение для мониторинга и предотвращения рисков для безопасности пищевых продуктов.

Мы хотим быть уверены, что делаем это так, чтобы это было удобным для наших пользователей.

Мы будем делиться новостями о нашей прогнозной аналитике безопасности пищевых продуктов. А пока не стесняйтесь тестировать существующие функции FOODAKAI.

Первоначально написано Никосом Мануселисом, генеральным директором и соучредителем Agroknow