Suchen nach Telefonnummern von mehreren Standorten. Also jede Seite hat es mehr als wahrscheinlich in verschiedenen Abschnitten/Klassen/Formate etc.Suchen nach Telefonnummern
Ich habe eine harte Zeit, Telefonnummern mit Regex oder Klassen zu finden.
So jede mögliche Hilfe
meinen Code geschätzt wird, ist
def parse1(self, response):
hxs = Selector(response)
titles = hxs.xpath('/html/body')
items = []
for titles in titles:
item = GenericCrawlerItem()
item["phone"] = re.findall('/^\s*(?:\+?(\d{1,3}))?([-. (]*(\d{3})[-.)]*)?((\d{3})[-. ]*(\d{2,4})(?:[-.x ]*(\d+))?)\s*$/gm', response.body)
item["phone"] = titles.xpath('//div[contains(text(), "tel")]/text()').extract()
items.append(item)
return items
Dank!
edit: die Formate i gesucht bin hauptsächlich Standard im Verdacht stehen, wie:
(xxx)xxx-xxxx
xxx)xxx-xxxx
xxx.xxx.xxxx
xxx xxx xxxx
x(xxx)xxx-xxxx
x(xxx)xxx.xxxx
x.xxx.xxx.xxxx
+x(xxx)xxx-xxxx
+x.xxx.xxx.xxxx
Auch wenn sie nicht sind, jeder von ihnen ausfüllen. ein Paar wäre super hilfreich!
Sie sagen nur, dass es verschiedene Formate gibt..specify die Formate – rock321987
Danke für den Kopf! Aktualisierte Frage –
Es ist Python, keine Notwendigkeit für '/..../ gm', entferne diese Schrägstriche und' gm'. Versuchen Sie 'r '(?: \ +? (\ D {1,3}))? ([-. (] * (\ D {3}) [-.)] *)? ((\ D {3}) [-.] * (\ d {2,4}) (?: [-. x] * (\ d +))?) " –