Как мне собрать эти метрики на консоли (Spark Shell или Spark submit job) сразу после выполнения задачи или задания.
Мы используем Spark для загрузки данных из Mysql в Cassandra, и он довольно большой (например: ~ 200 ГБ и 600 млн строк). Когда задача выполнена, мы хотим проверить, сколько строк было обработано искрой? Мы можем получить число из пользовательского интерфейса Spark, но как мы можем получить это число («Записанные выходные записи») из оболочки Spark или в задании отправки искры.
Пример команды для загрузки из Mysql в Cassandra.
val pt = sqlcontext.read.format("jdbc").option("url", "jdbc:mysql://...:3306/...").option("driver", "com.mysql.jdbc.Driver").option("dbtable", "payment_types").option("user", "hadoop").option("password", "...").load()
pt.save("org.apache.spark.sql.cassandra",SaveMode.Overwrite,options = Map( "table" -> "payment_types", "keyspace" -> "test"))
Я хочу получить все метрики пользовательского интерфейса Spark для вышеуказанной задачи, в основном размер вывода и количество записанных записей.
Пожалуйста помоги.
Спасибо за ваше время!