Клиент HDFS для Windows? Реэкспортировать как CIFS?

Хотя общий вопрос о Hadoop/HDFS в Windows уже поднимался ранее, я не видел, чтобы кто-нибудь представил вариант использования, который я считаю наиболее важным для поддержки Windows: как конечные станции Windows могут участвовать в среде HDFS и потреблять файлы, хранящиеся в HDFS.

В частности, предположим, что у нас есть хорошая среда HDFS на базе Linux с множеством узлов и выполняемых аналитических заданий и т. д., и все в порядке. Как рабочие столы Windows также могут потреблять файлы? Допустим, наша аналитика находит интересные файлы из миллионов в основном неинтересных. Теперь мы хотим перенести их в настольное приложение для визуализации и т. д. Наиболее естественный способ для рабочего стола использовать их — через общий ресурс Windows, надеюсь, через сервер Windows.

Реализация CIFS в Windows на несколько порядков лучше, чем в Samba — я утверждаю это как факт, а не как предмет для обсуждения. Это не означает, что Samba нельзя заставить работать, но есть веские причины отдавать предпочтение экспорту этой файловой системы HDFS как CIFS.

Это можно сделать с помощью некоторого рабочего процесса, в котором у нас есть внутренний процесс, который берет интересные файлы и копирует их. Но во многих случаях это обременительно и не дает аналитику, скованному Windows, свободы исследовать файлы самостоятельно.

Следовательно, то, что я действительно ищу, это:

  • Windows-сервер
  • HDFS как «смонтированная» файловая система; Windows считается «клиентом» HDFS.
  • Экспортируйте эту файловую систему из Windows в качестве сервера CIFS.
  • Использование файлов на рабочем столе Windows
  • Правильно ли работают все обычные групповые разрешения Windows (например, путем сопоставления со списками управления доступом NFSv4).

Кстати, если мы заменим «HDFS» на «GPFS» в этом вопросе, все заработает. На данный момент это ключевое различие между HDFS и GPFS в моей среде. Да, есть еще много точек сравнения, но я бы не хотел сейчас сосредотачиваться на GPFS и HDFS в целом.

Может ли кто-нибудь добавить тег #GPFS?


person ckg    schedule 25.10.2012    source источник
comment
stackoverflow.com/questions/38921725/ Посмотрите ссылку   -  person Selam Getachew    schedule 15.05.2017


Ответы (1)


В частности, предположим, что у нас есть хорошая среда HDFS на базе Linux с множеством узлов и выполняемых аналитических заданий и т. д., и все в порядке. Как рабочие столы Windows также могут потреблять файлы?

HDFS предоставляет REST API через WebHDFS и HttpFS для различных операций. Доступ к REST API можно получить из многих языков. Также обратите внимание, что эти языки также имеют библиотеки для простого программирования с REST API.

Не пробовал, но, согласно документации Hadoop, должна быть возможность также монтировать HDFS на машину Windows.

person Praveen Sripati    schedule 25.10.2012