Хотя общий вопрос о Hadoop/HDFS в Windows уже поднимался ранее, я не видел, чтобы кто-нибудь представил вариант использования, который я считаю наиболее важным для поддержки Windows: как конечные станции Windows могут участвовать в среде HDFS и потреблять файлы, хранящиеся в HDFS.
В частности, предположим, что у нас есть хорошая среда HDFS на базе Linux с множеством узлов и выполняемых аналитических заданий и т. д., и все в порядке. Как рабочие столы Windows также могут потреблять файлы? Допустим, наша аналитика находит интересные файлы из миллионов в основном неинтересных. Теперь мы хотим перенести их в настольное приложение для визуализации и т. д. Наиболее естественный способ для рабочего стола использовать их — через общий ресурс Windows, надеюсь, через сервер Windows.
Реализация CIFS в Windows на несколько порядков лучше, чем в Samba — я утверждаю это как факт, а не как предмет для обсуждения. Это не означает, что Samba нельзя заставить работать, но есть веские причины отдавать предпочтение экспорту этой файловой системы HDFS как CIFS.
Это можно сделать с помощью некоторого рабочего процесса, в котором у нас есть внутренний процесс, который берет интересные файлы и копирует их. Но во многих случаях это обременительно и не дает аналитику, скованному Windows, свободы исследовать файлы самостоятельно.
Следовательно, то, что я действительно ищу, это:
- Windows-сервер
- HDFS как «смонтированная» файловая система; Windows считается «клиентом» HDFS.
- Экспортируйте эту файловую систему из Windows в качестве сервера CIFS.
- Использование файлов на рабочем столе Windows
- Правильно ли работают все обычные групповые разрешения Windows (например, путем сопоставления со списками управления доступом NFSv4).
Кстати, если мы заменим «HDFS» на «GPFS» в этом вопросе, все заработает. На данный момент это ключевое различие между HDFS и GPFS в моей среде. Да, есть еще много точек сравнения, но я бы не хотел сейчас сосредотачиваться на GPFS и HDFS в целом.
Может ли кто-нибудь добавить тег #GPFS?