Ich möchte alle Hashtags von einer bestimmten Website extrahieren: Zum Beispiel "Ich liebe #stack overflow weil #people sind sehr #helfen!" Dies sollte die 3 Hashtags in eine Tabelle ziehen. In der Website, die ich dort bin Targeting ist eine Tabelle mit einer #tag Beschreibung können wir So finden #love diese Hashtag über die Liebe sprichtHashtags python html
Das ist meine Arbeit:
#import the library used to query a website
import urllib2
#specify the url
wiki = "https://www.symplur.com/healthcare-hashtags/tweet-chats/all"
#Query the website and return the html to the variable 'page'
page = urllib2.urlopen(wiki)
#import the Beautiful soup functions to parse the data returned from the
website
from bs4 import BeautifulSoup
#Parse the html in the 'page' variable, and store it in Beautiful Soup
format
soup = BeautifulSoup(page, "lxml")
print soup.prettify()
s = soup.get_text()
import re
re.findall("#(\w+)", s)
Ich habe eine Frage in der Ausgang: die erste ist, dass die Ausgabe wie folgt aussehen: [u'eeeeee‘, u'333333' , u'222222' , u'222222' , u'222222' , u'222222' , u'222222 ', u'222222', u'222222 ', u'AASTGrandRoundsacute'
Die Ausgabe verkettet den Hashtag mit dem ersten Wort in der Beschreibung. Wenn ich mit dem Beispiel vergleiche, das ich vor der Ausgabe aufgerufen habe, ist 'Lovethis'.
Wie kann ich nur das eine Wort nach dem Hashtag extrahieren.
Danke
das 'u' ist nicht wirklich da. Es wird von Python angezeigt, um Ihnen zu sagen, dass der String neben ihm in [Unicode] (https://en.wikipedia.org/wiki/Unicode) ist. https://Stackoverflow.com/a/599653/3072566 – litelite
Vielen Dank das ist nützlich! –