von Bild in Python Lese Text Selen

Ist es möglich, Text von Bildelement verschrotten, wie im Bild:von Bild in Python Lese Text Selen

ich sonst noch alles, aber

Salzufer 16 
10587 Berlin

in der Bin Form eines Bildes?

Ich verwende Selenium WebDriver und müssen Daten wie Adresse kratzen, Kontakt, Zweig der Wirtschaftstätigkeit ..

Quelle

2017-07-05 Dejan Samardžija

das scheint mehr wie 'OCR' als Web Scraping. – TheDarkKnight

Es scheint, als wäre Text verschlüsselt und JavaScript entschlüsselt es zur Laufzeit. Es sollte jedoch nicht mit Selen passieren. –

verwenden Wenn Sie die HTML (Suche nach der Adresse) überprüfen Sie werden sehen, dass die Adresse erscheint tatsächlich in einem JavaScript-Code, das erzeugt ein google Karte.

Sie können dies mit einem regulären Ausdruck ausnutzen.

Angenommen, Sie haben den Teil, wo Sie die Suche durchführen, bereits codiert und müssen nun nur noch die Adresse extrahieren. Ihr Selen-Objekt wird Treiber genannt. Dann wäre es so etwas wie folgt:

import re 
page_source = driver.page_source 
add_pattern = '{address: \"(.*?)\"}' 
address = re.search(page_source, add_pattern).group(1) 
print(address)

Quelle

2017-07-05 12:42:51 jlaur

Es scheint, dass der Text, den Sie suchen in der „Text“ Argument des textRender.aspx eingebettet ist Datei. Sie können erwägen, es rückzuentwickeln.

Ansonsten für allgemeinere Zwecke OCR können Sie Google Vision-APIs https://cloud.google.com/vision/

Quelle

2017-07-05 12:10:09

Für den ersten Teil der Antwort, können Sie genauer sein? Was soll ich machen? –

von Bild in Python Lese Text Selen

Antwort

Verwandte Themen