Я хочу извлечь данные между тегом html «заголовок» и в теге «мета», я хочу извлечь значение атрибута URL, а также текст непосредственно перед «?».
<html lang="en" id="facebook" class="no_js">
<head>
<meta charset="utf-8" />
<script>
function envFlush(a) {function b(c){for(var d in)c[d]=a[d];}if(window.requireLazy){window.requireLazy(['Env'],b);}else{window.Env=window.Env||{};b(window.Env);}}envFlush({"ajaxpipe_token":"AXjbmsNXDxPlvhrf","lhsh":"4AQFQfqrV","khsh":"0`sj`e`rm`s-0fdu^gshdoer-0gc^eurf-3gc^eurf;1;enbtldou;fduDmdldourCxO`ld-2YLMIuuqSdptdru;qsnunuxqd;rdoe"});
</script>
<script>CavalryLogger=false;</script>
<noscript>
<meta http-equiv="refresh" content="0; URL=/notes/kursus-belajar-bahasa-inggris/bahasa-inggris-siapa-takut-/685004288208871?_fb_noscript=1" />
</noscript>
<meta name="referrer" content="default" id="meta_referrer" />
<title id="pageTitle">
" CARA CEPAT BELAJAR BAHASA INGGRIS MUDAH DAN MENYENANGKAN "
</title>
<link rel="shortcut icon" href="https://fbstatic-a.akamaihd.net/rsrc.php/yl/r/H3nktOa7ZMg.ico" />
например, CARA CEPAT BELAJAR BAHASA INGGRIS MUDAH DAN MENYENANGKAN и 685004288208871.
Я попробовал следующий код:
>>> soup.title.contents
выход
[u'" CARA CEPAT BELAJAR BAHASA INGGRIS MUDAH DAN MENYENANGKAN "']
В этом мне не нужны символы '[]' , 'u' и одинарные кавычки.
Кроме того, при реализации следующего:
>>> soup.meta.contents
Я получаю o/p как:
[]
Пожалуйста, помогите мне в этом. Я новичок в BeautifulSoup.
soup.title.text
это то, что вы хотите.u'...'
существует только потому, что интерактивная оболочка вызываетrepr
для возвращаемого значения. - person Aran-Fey   schedule 11.12.2014