У меня есть следующий код в html
<section>
<section>
<h2>Title1</h2>
<p>Text1</p>
<p>Text1</p>
</section>
<section>
<h2>Title2</h2>
<p>Text2</p>
<p>Text2</p>
</section>
<section>
<h2>Title3</h2>
<p>Text3</p>
<p>Text3</p>
</section>
</section>
<section>
<h2>Title2-1</h2>
<p>Text2-1</p>
<p>Text2-1</p>
</section>
<section>
<h2>Title3-1</h2>
<p>Text3-1</p>
<p>Text3-1</p>
</section>
class RUSpider(BaseSpider):
name = "ru"
allowed_domains = ["http://127.0.0.1:8000/"]
start_urls = [
"http://127.0.0.1:8000/week2/1_am/#/",
"http://127.0.0.1:8000/week1/1/",
"http://127.0.0.1:8000/week3/1_am/"
]
rules = [
Rule(SgmlLinkExtractor(), follow=True)
]
def parse(self, response):
filename = response.url.split("/")[3]
hxs = HtmlXPathSelector(response)
divs = hxs.select('//div')
sections = divs.select('//section').extract()
# print sections.extract
#class definition for scrapy and html selector
for each in sections: #iterate over loop [above sections]
soup = BeautifulSoup(each)
sp= soup.prettify()
elements = soup.findAll("section".split())
print len(elements),'sublength'
if len(elements ) > 1:
for element in elements:
for subelement in element:
print subelement,'element'
else:
item = RItem() # create Index Item
item['html_content'] = each
print each
yield item
Часть результата правильно отформатирована, хотя некоторые разделы без подразделов разбиваются на отдельные элементы.
Я хочу каждый раздел отдельно. Я имею в виду, так как 1 раздел имеет другие разделы. Я хочу перебрать эти разделы и получить их по отдельности, чтобы я мог отслеживать цикл. Поскольку некоторые разделы не имеют подразделов, нет необходимости их перебирать.
Есть ли лучший способ сделать это в BeautifulSoup? Я хочу следующий вывод
<section>
<h2>Title1</h2>
<p>Text1</p>
<p>Text1</p>
</section>
<section>
<h2>Title2</h2>
<p>Text2</p>
<p>Text2</p>
</section>
<section>
<h2>Title3</h2>
<p>Text3</p>
<p>Text3</p>
</section>
<section>
<h2>Title2-1</h2>
<p>Text2-1</p>
<p>Text2-1</p>
</section>
<section>
<h2>Title3-1</h2>
<p>Text3-1</p>
<p>Text3-1</p>
</section>
section
, в которых есть тегиh2
,p
? какой типeach
здесь? это объект типаbs4.element.Tag
? как ты получилsections
? - person salmanwahed   schedule 29.10.2014