Итерация через файл graphml для извлечения значений узлов

У меня есть тысячи файлов grapgml, в каждом из которых хранятся данные в узлах. Я хочу перебирать каждый файл и извлекать данные из узлов, а затем сохранять их в виде CSV или JSON. Ниже приведен небольшой фрагмент кода. Я хочу извлечь значения, соответствующие d2, d3, d4. Любая помощь будет оценена по достоинству.

<?xml version='1.0' encoding='utf-8'?>
<graphml xmlns="http://graphml.graphdrawing.org/xmlns" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://graphml.graphdrawing.org/xmlns http://graphml.graphdrawing.org/xmlns/1.0/graphml.xsd">
  <key attr.name="key" attr.type="long" for="edge" id="d8" />
  <key attr.name="length_word" attr.type="long" for="node" id="d6" />
  <key attr.name="chunk_no" attr.type="long" for="node" id="d1" />
  <key attr.name="position" attr.type="long" for="node" id="d3" />
  <key attr.name="morph" attr.type="string" for="node" id="d5" />
  <key attr.name="pre_verb" attr.type="string" for="node" id="d7" />
  <key attr.name="lemma" attr.type="string" for="node" id="d4" />
  <key attr.name="cng" attr.type="long" for="node" id="d0" />
  <key attr.name="word" attr.type="string" for="node" id="d2" />
  <graph edgedefault="directed">
    <node id="1">
      <data key="d2">maDu</data>
      <data key="d0">3</data>
      <data key="d4">maDu</data>
      <data key="d7" />
      <data key="d5">iic.</data>
      <data key="d3">0</data>
      <data key="d1">1</data>
      <data key="d6">5</data>
    </node>
    <node id="2">
      <data key="d2">maDu</data>
      <data key="d0">71</data>
      <data key="d4">maDu</data>
      <data key="d7" />
      <data key="d5">acc. sg. n.</data>
      <data key="d3">0</data>
      <data key="d1">1</data>
      <data key="d6">5</data>
    </node>

person Raj Ratn    schedule 23.09.2020    source источник


Ответы (1)


В XSLT 3.0 вы можете преобразовать один файл, используя:

<xsl:transform version="3.0"
     xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
     xpath-default-namespace="http://graphml.graphdrawing.org/xmlns">
  <xsl:output method="json"/>
  <xsl:template match="/">
    <xsl:sequence select="array{//node ! 
          map{'d2':string(data[@key='d2']),
              'd3':string(data[@key='d3']),
              'd4':string(data[@key='d4'])}})"/>
  </xsl:template>
</xsl:transform>

Для обработки нескольких файлов добавьте, например (если файлы доступны как data/dir/*.xml)

<xsl:template name="xsl:initial-template">
  <xsl:apply-templates select="collection('data/dir?select=*.xml')"/>
</xsl:template>

Синтаксис URI коллекции здесь специфичен для Saxon.

Не испытано.

person Michael Kay    schedule 24.09.2020
comment
Эй, Майкл, не могли бы вы предложить способ сделать это на питоне. Как я могу использовать XSLT 3.0? Если возможно какое-либо другое решение, пожалуйста, дайте мне знать. - person Raj Ratn; 27.09.2020
comment
Продукт Saxon/C реализует XSLT 3.0 и имеет привязку к Python. - person Michael Kay; 27.09.2020