Обработка одного XML-документа несколько раз

Использование пакета Haskell hxt для меня все еще немного удивительно. Особенно нотация Arrow и результирующие типы - это волшебство.

Я до сих пор не мог справиться со следующим: я хочу обработать файл XML, который состоит в основном из двух частей. Один сохраняет определение объектов, второй - использование/назначение объектов. Сначала я хочу написать некоторую обработку hxt, чтобы получить структуры данных Haskell в части 1, после этого обработать часть 2 и, наконец, объединить обе структуры данных, прочитанные в реальной логике программы.

Обработка файла теперь в целом проходит нормально благодаря руководству по стрелкам. Но я хотел бы иметь теперь одну нотацию do, выполняющую три шага: прочитать документ (ленивый), обработать полученную структуру один раз с помощью первого процессора, а затем снова обработать ту же структуру с помощью второго процессора. Чего я не хочу, так это дважды вызывать «readDocument», как в следующем примере.

import Text.XML.HXT.Core
import Data.Char(toUpper)
import Data.Tree.NTree.TypeDefs

play filename = do 
                  results <- runX (getAllAddresses filename) 
                  results2 <- runX (getAllAddressesUsages filename) 
                  print results 
                  print results2 



getAllAddresses :: FilePath -> IOSArrow XmlTree [(String,NTree XNode)]
getAllAddresses filename =
    readDocument [withValidate no] filename >>>
    getChildren >>>
    isElem >>> hasName "main" >>>
    getChildren >>>
    isElem >>> hasName "part1" >>>
    getChildren >>>
    isElem >>> hasName "address" >>>
    listA(getAddress)                 -- create a list for each variable, so use listA



getAddress :: IOSArrow XmlTree (String,NTree XNode)
getAddress =
    getChildren >>>
    isElem >>>
         (
          neg ( hasName "location") >>>   -- all elements being no "location"
          getName &&& (getChildren)       -- get the name and the value for each element
         ) 
    <+>     
    ( 
      hasName "location" >>>              -- work on all nodes within the  "location" subcontainer
      getChildren >>> 
      isElem >>>
      ( getName &&& (getChildren) )       -- get the name and the value for each element
     )




getAllAddressesUsages :: FilePath -> IOSArrow XmlTree [(String,NTree XNode)]
getAllAddressesUsages filename =
    readDocument [withValidate no] filename >>>
    getChildren >>>
    isElem >>> hasName "main" >>>
    getChildren >>>
    isElem >>> hasName "part2" >>>
    getChildren >>>
    listA(getAddressUsagePurpose2)                 -- create a list for each variable, so use listA

getAddressUsagePurpose2 :: IOSArrow XmlTree (String,NTree XNode)
getAddressUsagePurpose2 =
    hasName "use_obj-names_for_purpose_2" >>>            -- work on all nodes with usage 2
    ( getName &&& (getChildren) )                        -- get the name and the value for each element

Пример данных:

<main>
 <part1>
  <address>
    <obj-name>one</obj-name>
    <name>peter 1</name>
    <street>streetname 1</street>
    <location>
      <country>Germany</country>
      <state>Baden Wuerttemberg</state>
   </location>
   </address>
  <address>
    <obj-name>two</obj-name>
    <name>peter 2</name>
    <street>streetname 2</street>
    <location>
      <country>Germany</country>
      <state>Nordrhein Westfalen</state>
      </location>
   </address>
 </part1>
 <part2>
   <use_obj-names_for_purpose_1>
     <obj-name>two</obj-name>
   </use_obj-names_for_purpose_1>
   <use_obj-names_for_purpose_2>
     <obj-name>two</obj-name>
   </use_obj-names_for_purpose_2>
 </part2>
</main>

Итак, формальный вопрос:

Как должна выглядеть монада в функции play, чтобы получить что-то вроде этого:

readXmlDocument :: String -> IOSArrow XmlTree (NTree XNode)
readXmlDocument filename = readDocument [withValidate no] filename

play filename = do 
             document <- readXmlDocument filename
             allAddresses <- getAllAddresses document
             allPurposes <- getAllAddressesUsages document
             result <- processLogics allAddresses allPurposes 
             print result

Как мне перейти от монад к стрелкам, обратно к монадам, далее к простым данным и обратно к монадам.

И почему я делаю это как?


person E.S.    schedule 24.02.2013    source источник


Ответы (1)


Одним из решений проблемы является следующее:

Используйте расширение языка Arrow и используйте выражение «proc» для обработки документа, прочитанного в одной функции в двух путях процессора. Результат объединяется в кортеж. Тем не менее, этот кортеж содержит две стрелки, которые необходимо запустить. Это делается двумя приложениями функции runX.

Тем не менее, я точно не знаю, загружается ли файл этой конструкцией один или два раза после того, как результаты бота объединяются в следующем вычислении.

{-# LANGUAGE Arrows #-}

import Text.XML.HXT.Core
import Data.Char(toUpper)
import Data.Tree.NTree.TypeDefs


play filename = (runX addresses, runX usages)
    where (addresses,usages)=(analyseXml (readXmlDocument filename))

analyseXml :: IOSArrow XmlTree (NTree XNode) -> (IOSArrow XmlTree [(String,NTree XNode)],IOSArrow XmlTree String)
analyseXml = proc document -> do 
               allAddresses <- getAllAddresses -< document
               allUsages <- getAllAddressesUsages -< document
               returnA -< (allAddresses,allUsages)

readXmlDocument :: String -> IOSArrow XmlTree (NTree XNode)
readXmlDocument filename = readDocument [withValidate no] filename



getAllAddresses :: IOSArrow XmlTree (NTree XNode) -> IOSArrow XmlTree [(String,NTree XNode)]
getAllAddresses document =
    document >>>
    getChildren >>>
    isElem >>> hasName "main" >>>
    getChildren >>>
    isElem >>> hasName "part1" >>>
    getChildren >>>
    isElem >>> hasName "address" >>>
    listA(getAddress)                 -- create a list for each variable, so use listA



getAddress :: IOSArrow XmlTree (String,NTree XNode)
getAddress =
    getChildren >>>
    isElem >>>
         (
          neg ( hasName "location") >>>   -- all elements being no "location"
          getName &&& (getChildren)       -- get the name and the value for each element
         ) 
    <+>     
    ( 
      hasName "location" >>>              -- work on all nodes within the  "location" subcontainer
      getChildren >>> 
      isElem >>>
      ( getName &&& (getChildren) )       -- get the name and the value for each element
     )




getAllAddressesUsages :: IOSArrow XmlTree (NTree XNode) -> IOSArrow XmlTree String
getAllAddressesUsages document =
    document >>>
    getChildren >>>
    isElem >>> hasName "main" >>>
    getChildren >>>
    isElem >>> hasName "part2" >>>
    getChildren >>>
    isElem >>> hasName "use_obj-names_for_purpose_2" >>>
    getChildren >>>
    isElem >>> hasName "obj-name" >>>
    getChildren >>>
    getText                 -- create a list with objects for each short-name. So use listA

Выполнение может быть сделано следующим образом:

*Main>  snd ( play  "../tmp/haskell/test.xml")
["two"]

*Main>  fst ( play  "../tmp/haskell/test.xml")
[[("obj-name",NTree (XText "one") []),("name",NTree (XText "peter 1") []),("street",NTree (XText "streetname 1") []),("country",NTree (XText "Germany") []),("state",NTree (XText "Baden Wuerttemberg") [])],[("obj-name",NTree (XText "two") []),("name",NTree (XText "peter 2") []),("street",NTree (XText "streetname 2") []),("country",NTree (XText "Germany") []),("state",NTree (XText "Nordrhein Westfalen") [])]]
*Main>
person E.S.    schedule 24.02.2013