Я пытаюсь создать решение для управления данными (DM), включающее прием большого объема данных, прохождение некоторых правил домена данных, замену (обогащение), пометку ошибочных данных перед их отправкой в систему ниже по потоку. Проверка правил и замена значений могут быть чем-то простым, например, допустимыми пороговыми числовыми значениями, которым должны удовлетворять элементы данных, или чем-то более сложным, например поиском с помощью основных данных для пула значений домена.
Как вы думаете, Apache Flink может быть хорошим кандидатом для такой обработки? Могут ли быть определены операторы flink для поиска (с основными данными) для каждого кортежа, проходящего через него? Я думаю, что есть некоторые недостатки использования Apache Flink для последнего вопроса: 1) поиск может быть блокирующей операцией, которая замедлит пропускную способность, 2) контрольная точка и сохранение состояния оператора не могут быть выполнены, если операционные функции должны получать основные данные откуда-нибудь.
Какие мысли? Есть ли какой-нибудь другой инструмент, который лучше всего подходит для указанного выше варианта использования?
Спасибо