В связи с моим вопросом у меня есть процесс потоковой передачи, написанный на Python.
Я заметил, что каждый Reducer
получает все значения, связанные с несколькими ключами, через sys.stdin
.
Я бы предпочел, чтобы sys.stdin имел только значения, связанные с одним ключом. Возможно ли это с помощью Hadoop? Я полагаю, что другой процесс для каждого ключа был бы идеальным, но не могу найти конфигурацию, обеспечивающую такое поведение.
Может ли кто-нибудь помочь мне с информацией или кодом, который может помочь мне в этом?