У меня есть куча HTML-файлов в моем Data Lake Store, и я хотел бы получить их полный исходный код в виде таблицы (всего одна колонка с кодом из всех файлов, формат вывода для меня не актуален, но, вероятно, tsv ). Я не могу найти способ использовать стандартные экстракторы или что-либо в Интернете, которое мне подходит. Должен ли я писать собственный экстрактор для этого?
Я пробовал Extractors.Tsv() и Extractors.Text() с целой кучей разделителей. Я сначала попробовал:
@data =
EXTRACT source string
FROM "<MY DIRECTORY IN ADL>"
USING Extractors.Text(delimiter:'');
Это не сработало, так как мне не нравится отсутствие разделителя, но также, когда я пытался использовать разделители, которых нет в html-файлах, это не сработало.
У кого-нибудь есть идея, как это сделать? Мне кажется, что я просто тупой, поэтому я надеюсь, что кто-то здесь немного умнее.
Было бы даже лучше, чем просто исходный код, если бы у меня был исходный код + имя файла в двух столбцах, но я хочу начать с малого.
Благодарю вас!