2012-03-25 17 views
0

Ich habe ein Stückchen HTML ich aus der Quelle meines Twitter-Timeline nahm, hier gezeigt:Python, BeautifulSoup - Parsing aus einem Tweet

http://pastebin.com/deefvbYw

Das ist ein Tweet ich für ein Beispiel verwenden werden. Ich kann nicht für das Leben von mir bekommen es zu kooperieren. Ich will es zeigen:

Dmitri @TheFPShow „Ich tue dies die ganze Zeit ... youtube.com/watch?v=DF9WP8...“

Wenn jemand einige Vorschläge bieten könnte das sein würde groß.

+6

Sie wirklich [Twitters API] (https://dev.twitter.com/) statt Parsen des HTML verwenden sollten. – phihag

+1

Wo ist dein Code? Was hast du probiert? – Mig

Antwort

1
soup = BeautifulSoup(twit) 

name_tag = soup('strong', {'class': 'fullname js-action-profile-name show-popup-with-id'}) 
user = name_tag[0].contents[0] 

action_tag = soup('span', {'class': 'username js-action-profile-name'}) 
at_sign = action_tag[0].contents[0].contents[0] 
show_name = action_tag[0].contents[1].contents[0] 

twit_text = soup('p', {'class': 'js-tweet-text'}) 
message = twit_text[0].contents[0] 
url = twit_text[0].contents[1]['data-expanded-url'] 

print user, at_sign, show_name, message, url 

Der Ausgang:

Dmitri @ TheFPShow I do this all the time... http://www.youtube.com/watch?v=DF9WP87KNPk