2017-07-05 8 views
0

Ist es möglich, Text von Bildelement verschrotten, wie im Bild:von Bild in Python Lese Text Selen

Picture

ich sonst noch alles, aber

Salzufer 16 
10587 Berlin 

in der Bin Form eines Bildes?

Ich verwende Selenium WebDriver und müssen Daten wie Adresse kratzen, Kontakt, Zweig der Wirtschaftstätigkeit ..

+0

das scheint mehr wie 'OCR' als Web Scraping. – TheDarkKnight

+0

Es scheint, als wäre Text verschlüsselt und JavaScript entschlüsselt es zur Laufzeit. Es sollte jedoch nicht mit Selen passieren. –

Antwort

0

verwenden Wenn Sie die HTML (Suche nach der Adresse) überprüfen Sie werden sehen, dass die Adresse erscheint tatsächlich in einem JavaScript-Code, das erzeugt ein google Karte.

Sie können dies mit einem regulären Ausdruck ausnutzen.

Angenommen, Sie haben den Teil, wo Sie die Suche durchführen, bereits codiert und müssen nun nur noch die Adresse extrahieren. Ihr Selen-Objekt wird Treiber genannt. Dann wäre es so etwas wie folgt:

import re 
page_source = driver.page_source 
add_pattern = '{address: \"(.*?)\"}' 
address = re.search(page_source, add_pattern).group(1) 
print(address) 
0

Es scheint, dass der Text, den Sie suchen in der „Text“ Argument des textRender.aspx eingebettet ist Datei. Sie können erwägen, es rückzuentwickeln.

Ansonsten für allgemeinere Zwecke OCR können Sie Google Vision-APIs https://cloud.google.com/vision/

+0

Für den ersten Teil der Antwort, können Sie genauer sein? Was soll ich machen? –