Индексирование с помощью Solr-spark и Alluxio: невозможно получить доступ к файлам в Alluxio

Я индексирую документы для solr, используя java. Мой код отлично работает, когда я индексирую файлы на своем компьютере. Но когда я пытаюсь проиндексировать файлы, расположенные в alluxio, у меня возникает исключение «Нет файловой системы для схемы: alluxio». Я добавил зависимости alluxio в файл pom.

Вот код:

public class SparkTestMain {

	public static void main(String[] args) {

	    


            new SparkRead().loadDocuments(
                    "alluxio://XXX.XXX.XXX.XX:19998/**/"       );

	}

}

В SparkRead я выполняю индексацию из пути к файлу: документы JavaRDD = sc.textFile(pathToFile) здесь, pathToFile = "alluxio://XXX.XXX.XXX.XX:19998/**/"

Вот ошибка:

Exception in thread "main" java.io.IOException: No FileSystem for scheme: http
	at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2579)
	at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2586)
	at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:89)
	at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2625)
	at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2607)
	at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:368)
	at org.apache.hadoop.fs.Path.getFileSystem(Path.java:296)
	at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:256)
	at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:228)
	at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:313)
	at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:200)
	...


person Dilak    schedule 12.07.2018    source источник


Ответы (1)


Вот doc с веб-сайта проекта Alluxio, объясняющая, почему вы можете увидеть «Нет файловой системы для схемы: alluxio».

О: Это сообщение об ошибке появляется, когда ваши приложения (например, MapReduce, Spark) пытаются получить доступ к Alluxio как к файловой системе, совместимой с HDFS, но схема alluxio:// не распознается приложением. Убедитесь, что ваш файл конфигурации HDFS core-site.xml (в вашей установке Hadoop по умолчанию или spark/conf/, если вы настраиваете этот файл для Spark) имеет следующее свойство:

<configuration>
  <property>
    <name>fs.alluxio.impl</name>
    <value>alluxio.hadoop.FileSystem</value>
  </property>
</configuration>

В ваших опубликованных сообщениях об ошибках я видел «Нет файловой системы для схемы: http», а не «Нет файловой системы для схемы: alluxio». "http" - это опечатка?

person apc999    schedule 01.08.2018