Python/R: генерировать кадр данных из XML, когда не все узлы содержат все переменные?

Рассмотрим следующий XML пример

library(xml2)

myxml <- read_xml('
<data>
  <obs ID="a">
  <name> John </name>
  <hobby> tennis </hobby>
  <hobby> golf </hobby>
  <skill> python  </skill>
  </obs>
  <obs ID="b">
  <name> Robert </name>
  <skill> R </skill>
  </obs>
  </data>
')

Здесь я хотел бы получить кадр данных (R или Pandas) из этого XML, который содержит столбцы name и hobby.

Однако, как вы видите, возникает проблема выравнивания, поскольку во втором узле отсутствует hobby, а у Джона есть два увлечения.

в R я знаю, как извлекать определенные значения по одному, например, используя xml2 следующим образом:

myxml%>% 
  xml_find_all("//name") %>% 
  xml_text()

myxml%>% 
  xml_find_all("//hobby") %>% 
  xml_text()

но как я могу правильно выровнять эти данные в кадре данных? То есть, как я могу получить фрейм данных следующим образом (обратите внимание, как я соединяю с | два увлечения Джона):

# A tibble: 2 × 3
    name           hobby            skill
   <chr>           <chr>            <chr>
1   John          tennis|golf       python
2 Robert            <NA>            R

В R я бы предпочел решение с использованием xml2 и dplyr. В Python я хочу получить фрейм данных Pandas. Кроме того, в моем xml есть еще много переменных, которые я хочу проанализировать. Я хотел бы решение, которое позволяет пользователю анализировать дополнительные переменные, не слишком возясь с кодом.

Спасибо!

РЕДАКТИРОВАТЬ: спасибо всем за эти замечательные решения. Все они были действительно хороши, с большим количеством деталей, и было трудно выбрать лучший. Спасибо еще раз!


person ℕʘʘḆḽḘ    schedule 28.05.2017    source источник
comment
вопрос отредактирован. Спасибо!   -  person ℕʘʘḆḽḘ    schedule 28.05.2017
comment
Спасибо. Может быть, что-то в жилах myxml %>% xml_find_all("/data/obs") %>% map(function(x) sapply(c("name","hobby"), function(y) xml_text(xml_find_first(x,y)))) %>% do.call(rbind, .)?   -  person lukeA    schedule 28.05.2017
comment
может быть, вы можете использовать это как решение и объяснить, что вы делаете с sapply? еще раз спасибо~   -  person ℕʘʘḆḽḘ    schedule 28.05.2017
comment
йв. Я добавлю в качестве ответа, если не появятся лучшие варианты. Почему-то кажется, что это решение, но не совсем хорошее. Давайте ждать...   -  person lukeA    schedule 28.05.2017
comment
Я отредактировал вопрос, чтобы он был более широким. Решение на Python тоже хорошо   -  person ℕʘʘḆḽḘ    schedule 30.05.2017
comment
Вот интересный пост, который получил R и Решение для Python. (Например, интересно, можно ли все это сымитировать с помощью пакета reticulate и RStudio. хм)   -  person lukeA    schedule 30.05.2017
comment
спасибо, но не уверен, что это решение работает, когда отсутствуют такие узлы.   -  person ℕʘʘḆḽḘ    schedule 30.05.2017


Ответы (4)


pandas

import pandas as pd
from collections import defaultdict
import xml.etree.ElementTree as ET


xml_txt = """<data>
  <obs ID="a">
  <name> John </name>
  <hobby> tennis </hobby>
  <hobby> golf </hobby>
  <skill> python  </skill>
  </obs>
  <obs ID="b">
  <name> Robert </name>
  <skill> R </skill>
  </obs>
  </data>"""

etree = ET.fromstring(xml_txt)

def obs2series(o):
    d = defaultdict(list)
    [d[c.tag].append(c.text.strip()) for c in o.getchildren()];
    return pd.Series(d).str.join('|')

pd.DataFrame([obs2series(o) for o in etree.findall('obs')])

         hobby    name   skill
0  tennis|golf    John  python
1          NaN  Robert       R

Как это работает

  • построить дерево элементов из строки. В противном случае сделайте что-нибудь вроде et = ET.parse('my_data.xml')
  • etree.findall('obs') возвращает список элементов в структуре xml, которые являются 'obs' тегами.
  • Я передаю каждый из них pd.Series конструктору obs2series
  • Внутри obs2series я перебираю все дочерние узлы в одном элементе 'obs'.
  • defaultdict по умолчанию равно list, что означает, что я могу добавить значение, даже если ключ не был замечен раньше.
  • Я получаю словарь списков. Я передаю это pd.Series, чтобы получить серию списков.
  • Используя pd.Series.str.join('|'), я конвертирую это в серию строк, как и хотел.
  • Мое понимание списка в начале, которое зацикливалось на наблюдениях, теперь представляет собой список серий и готово для передачи конструктору pd.DataFrame.
person piRSquared    schedule 31.05.2017
comment
Спасибо чувак! хороший. не могли бы вы немного объяснить, что вы делаете в функции? Я не очень хорошо знаком с xml.etree - person ℕʘʘḆḽḘ; 31.05.2017
comment
@Noobie, надеюсь, это поможет - person piRSquared; 31.05.2017
comment
спасибо, как вы думаете, это устойчиво к множеству дубликатов или отсутствующих узлов? производительность хорошая? - person ℕʘʘḆḽḘ; 31.05.2017
comment
@Noobie, это надежно для многих дубликатов, поскольку списки становятся длиннее, а соединение просто объединяет их. Я должен перебирать все дочерние узлы в каждом наблюдении. Я обернул оба понимания. Производительность должна быть приличной, никаких гарантий возврата денег или чего-то подобного. Кстати, я обновил функцию. - person piRSquared; 31.05.2017

Общее решение R, не требующее жесткого кодирования переменных.
Использование xml2 и purrr от tidyverse:

library(xml2)
library(purrr)

myxml %>% 
  xml_find_all('obs') %>%      
  # Enter each obs and return a df
  map_df(~{

    # Scan names
    node_names <- .x %>% 
      xml_children() %>% 
      xml_name() %>%
      unique()        

    # Remember ob
    ob <- .x

    # Enter each node
    map(node_names, ~{

      # Find similar nodes
      node <- xml_find_all(ob, .x) %>%
        xml_text(trim = TRUE) %>%
        paste0(collapse = '|') %>% 
        'names<-'(.x)
        # ^ we need to name the element to 
        #   overwrite it with its 'sibilings'

    }) %>% 
      # Return an 'ob' vector
      flatten()        
  })

#> # A tibble: 2 × 3
#>     name       hobby  skill
#>    <chr>       <chr>  <chr>
#> 1   John tennis|golf python
#> 2 Robert        <NA>      R

Что оно делает:

  1. Он «входит» в каждый obs, находит и сохраняет имена узлов в этих наблюдениях.
  2. Для каждого узла найдите все похожие узлы в obs, сверните их и сохраните в списке.
  3. Сглаживает список, перезаписывая элементы с тем же именем.
  4. rbind (неявно в map_df()) каждый "плоский" список в результирующий data.frame.

Данные:

myxml <- read_xml('
                  <data>
                  <obs ID="a">
                  <name> John </name>
                  <hobby> tennis </hobby>
                  <hobby> golf </hobby>
                  <skill> python  </skill>
                  </obs>
                  <obs ID="b">
                  <name> Robert </name>
                  <skill> R </skill>
                  </obs>
                  </data>
                  ')
person GGamba    schedule 31.05.2017
comment
Привет ! Спасибо за ответ. Почему вы думаете, что он не будет хорошо работать с несколькими дубликатами? это действительно так в моих данных.... - person ℕʘʘḆḽḘ; 31.05.2017
comment
Я думаю, это скорее неэффективность, чем проблема с плохой производительностью. Для каждого узла (например, hobby) будут найдены все его подобные узлы (xml_find_all('hobby')). И тогда только оставить последний в любом случае. - person GGamba; 31.05.2017
comment
На самом деле, теперь, когда я думаю об этом, простой unique() на node_names устранит проблему.. глупый я.. - person GGamba; 31.05.2017
comment
Привет ! всего несколько замечаний. Я не понимаю синтаксис для node_names <- .x (почему здесь точка?) и ( 'names<-'(.x) что это значит? ) - person ℕʘʘḆḽḘ; 02.06.2017
comment
также, почему тильда в map(node_names, ~{. чувак, твой код слишком изощрен для такого новичка, как я :D - person ℕʘʘḆḽḘ; 02.06.2017
comment
вызов @ggamba - person ℕʘʘḆḽḘ; 02.06.2017
comment
в функции purrr::map* и многих других в том же пакете ~ является сокращением для function(x), а в следующем за ним выражении . или .x представляет аргумент x. purrr предоставляет отличные альтернативы *apply, map, reduce и другим базовым функциям функционального программирования R. Вы можете прочитать подробнее о муррр здесь - person HubertL; 02.06.2017
comment
@GGamba Спасибо, это мне очень помогло!. Однако я не понимаю «имена‹-» (.x) и почему их нужно сглаживать в конце. - person Pablo Olmos de Aguilera C.; 26.03.2020

XML

Создайте функцию, которая может обрабатывать отсутствующие или несколько узлов, а затем примените ее к obs узлам. Я добавил столбец id, чтобы вы также могли видеть, как использовать xmlGetAttr (используйте "." для узла obs и ведущий "." для других узлов, чтобы он относился к текущему узлу в наборе).

xpath2 <-function(x, ...){
    y <- xpathSApply(x, ...)
    ifelse(length(y) == 0, NA,  paste(trimws(y), collapse=", "))
}  
obs <- getNodeSet(doc, "//obs")   
data.frame( id = sapply(obs, xpath2, ".", xmlGetAttr, "ID"),
          name = sapply(obs, xpath2, ".//name", xmlValue),
       hobbies = sapply(obs, xpath2, ".//hobby", xmlValue),
         skill = sapply(obs, xpath2, ".//skill", xmlValue))

  id   name      hobbies  skill
1  a   John tennis, golf python
2  b Robert         <NA>      R

xml2

Я не очень часто использую xml2, но, возможно, возьму узлы obs, а затем применю xml_find_all, если есть повторяющиеся теги, вместо использования xml_find_first.

obs <-  xml_find_all(myxml, "//obs")  
lapply(obs, xml_find_all, ".//hobby")

data_frame(
     name = xml_find_first(obs, ".//name") %>% xml_text(trim=TRUE),
  hobbies = sapply(obs, function(x)  paste(xml_text( xml_find_all(x, ".//hobby"), trim=TRUE), collapse=", " ) ),
    skill = xml_find_first(obs, ".//skill") %>% xml_text(trim=TRUE)
)

# A tibble: 2 x 3
    name      hobbies  skill
   <chr>        <chr>  <chr>
1   John tennis, golf python
2 Robert                   R

Я протестировал оба метода с помощью файла medline17n0853.xml на ftp NCBI. Это файл размером 280 МБ с 30 000 узлов PubmedArticle, и XML-пакету потребовалось 102 секунды для анализа опубликованных идентификаторов, журналов и объединения нескольких типов публикаций. Код xml2 выполнялся 30 минут, а затем я его убил, так что это может быть не лучшим решением.

person Chris S.    schedule 30.05.2017
comment
спасибо Крис, это здорово. Однако я просил решение xml2, потому что оно кажется более устойчивым к утечкам памяти, а мой XML очень большой. Можете ли вы адаптировать свой код, используя этот аналогичный пакет? - person ℕʘʘḆḽḘ; 30.05.2017
comment
Возможно, вы пытаетесь избежать проблемы, которой не существует, за исключением, может быть, людей, которые используют Windows и просматривают XML-файлы для создания новых XML-документов для каждого узла? - person Chris S.; 30.05.2017
comment
хорошо, я использую окна: D - person ℕʘʘḆḽḘ; 31.05.2017
comment
Благодарю. Я пытаюсь понять, почему ваше решение xml2 неэффективно. - person ℕʘʘḆḽḘ; 31.05.2017
comment
Итак, вы знаете, почему ваше решение в xm2 терпит неудачу? - person ℕʘʘḆḽḘ; 03.06.2017

В R я бы, вероятно, использовал

library(XML)
lst <- xmlToList(xmlParse(myxml)[['/data']])
(df <- data.frame(t(sapply(lst, function(x) {
  c(x['name'], hobby=paste0(x[which(names(x)=='hobby')], collapse="|"))
}))) )
#       name           hobby
# 1    John   tennis | golf 
# 2  Robert   

и, возможно, сделать некоторую полировку, используя df[df==""] <- NA и trimws(), чтобы удалить пробелы.


Or:

library(xml2)
library(dplyr)
`%|||%` <- function (x, y) if (length(x)==0) y else x 
(df <- data_frame(
  names = myxml %>% 
    xml_find_all("/data/obs/name") %>% 
    xml_text(trim=TRUE), 
  hobbies = myxml %>% 
    xml_find_all("/data/obs") %>% 
    lapply(function(x) xml_text(xml_find_all(x, "hobby"), T) %|||% NA_character_)
))
# # A tibble: 2 × 2
#    names   hobbies
#    <chr>    <list>
# 1   John <chr [2]>
# 2 Robert <chr [1]>
person lukeA    schedule 30.05.2017
comment
Спасибо! не могли бы вы немного объяснить, что вы делаете с материалом sapply? - person ℕʘʘḆḽḘ; 30.05.2017
comment
Я имею в виду, ты можешь просто немного разложить то, что ты здесь делаешь? (df <- data.frame(t(sapply(lst, function(x) { c(x['name'], hobby=paste0(x[which(names(x)=='hobby')], collapse="|"))? Спасибо! - person ℕʘʘḆḽḘ; 30.05.2017
comment
@Noobie sapply перебирает список и выбирает значения с именами name и hobby. Я использовал which, потому что хобби может быть несколько. Каждая итерация возвращает вектор имен и увлечений, разделенных вертикальной чертой. - person lukeA; 31.05.2017
comment
@Noobie Однако, если ваш xml очень большой, использование списка, вероятно, не лучший способ. Может быть, что-то вроде `%|||%` <- function (x, y) { if (length(x)==0) y else x }; data_frame(names = myxml %>% xml_find_all("/data/obs/name") %>% xml_text(trim=TRUE), hobbies = myxml %>% xml_find_all("/data/obs") %>% lapply(function(x) xml_text(xml_find_all(x, "hobby"), T) %|||% NA_character_)), чтобы вернуться к xml2 и dplyr? Я бы предпочел хранить хобби в списке, а не разделять их по трубам... - person lukeA; 31.05.2017
comment
Спасибо! Вы не против добавить это решение к предыдущему решению? сейчас тяжело читать. кстати, что, черт возьми, такое ``%|||%` ‹-`? :D никогда не видел такого в моей нубской жизни! - person ℕʘʘḆḽḘ; 31.05.2017
comment
@Noobie Ты прав, только что сделал это; Я беззастенчиво украл его у purrr::`%||%` (‹- работает для значений NULL, но мне нужен был для 0-длин). Но я думаю, что это скорее показуха. ;-) - person lukeA; 31.05.2017
comment
решение xml2 очень элегантно, но теперь кадр данных содержит список символов? как вы можете получить именно желаемый результат? Спасибо! - person ℕʘʘḆḽḘ; 02.06.2017
comment
вызывая @lukeA - person ℕʘʘḆḽḘ; 02.06.2017
comment
@Noobie: я удалил предыдущий комментарий, я не знаю, как я его придумал. Просто сделайте df$hobbies <- sapply(df$hobbies,paste,collapse=","). - person lukeA; 02.06.2017