2016-06-03 14 views
-2

Ich versuche, eine HTML-Seite mit schönen Suppe zu analysieren und speichern Sie es als kleinere HTML-Dateien. Ich habe zwei Fragen: 1. Gibt es eine Möglichkeit, dass ich Inhalte zwischen zwei Spannen, zum Beispiel zu bekommen:Inhalt zwischen zwei span class

<SPAN CLASS="c7">Q2 2016 Apple Inc Earnings Call - Final</SPAN> I am feeling lucky today   <SPAN CLASS="c7">Event Brief of Q1 2016 Apple Inc Earnings Call - Final</SPAN> 

Ich suche den Text ziehen ‚ich das Glück heute fühle‘ und speichern Sie es als

Q2 2016 Apple Inc Earnings Call - final.html

ich habe um beautifulsoup spielen, konnte aber nicht einen Weg finden, um dies zu erreichen. Jede Hilfe mit diesem wird sehr geschätzt.

Danke

+0

Haben Sie versucht, reguläre Ausdrücke oder einfache String-Split-Operationen zu verwenden? – StardustGogeta

+0

[Verwandte Frage] (https://stackoverflow.com/questions/37579220/parsing-html-with-python-and-dumping-it-in-csv). @Rvs, wenn Sie möchten, können Sie einen Moderator bitten, Ihre beiden Konten zusammenzuführen. Vergessen Sie nicht, die [Tour] (https://StackOverflow.com/tour) durchzugehen, um zu verstehen, wie stackoverflow funktioniert. Die [Hilfe] (https://stackoverflow.com/help) bietet viele gute Hinweise, die Ihre Chancen verbessern, gute Antworten zu erhalten, indem Sie in Ihren Fragen vollständiger sind. Hör zu. –

+0

Es ist sehr einfach in Ihrem Beispiel HTML, aber ohne zu sehen, was sonst dort ist, ist es unmöglich zu wissen –

Antwort

-1
import re 

text= '''<SPAN CLASS="c7">Q2 2016 Apple Inc Earnings Call - Final</SPAN> I am feeling lucky today  <SPAN CLASS="c7">Event Brief of Q1 2016 Apple Inc Earnings Call - Final</SPAN>''' 
text2= '<span></span>You<span>Hola</span>Hey<span></span>' 
pattern = '</(?:SPAN|span)>(?P<content>[\w\d\s]*)<(?:SPAN|span)' 

print(re.findall(pattern, text)) 
print(re.findall(pattern, text2)) 

reguläre Ausdrücke verwenden, können Sie alle Inhalte zwischen span-Tags finden und ausdrucken auf einmal heraus. Oben habe ich das sowohl mit Ihrem als auch mit meinem eigenen Exemplar getestet.

Verwandte Themen