2016-12-28 2 views
1

Ich versuche, durch eine MHT-Dateien zu öffnen und zu verarbeiten und die Standortdaten des Händlers abkratzen. Immer wenn ich auf eine Webseite mit "tricky" Format der HTML stoße, laufe ich immer auf dasselbe Problem. Es stellt sich:Ersetzen Sie n in MHT-Datei

a href = "http://www.google.com/maps?s=123 main st" ......

in

a href="http://www.= 
google.com/maps?=12= 
3 main st" 

Alles, was ich habe Bisher versucht hat nicht funktioniert, um die Linie zurück zu ihm selbst zu nehmen. Ich kann die Adresse immer noch nicht abziehen.

a = a.replace(r'=\n', '') 

oder

a = a.replace(r'\n', '') 

oder sogar versucht,

a = a.replace(r'[0D]', '') 

und gerade versucht,

a = a.sub(r'\n', '') 

und alles, was ich bekam, war der Fehler ‚str Objekt hat kein Attribut "sub", und es tut das Gleiche mit oder ohne t er 'r' im Code.

Nichts hat bisher funktioniert. Wie ersetze ich das = \ n, das immer erscheint, wenn ich gehe, um eine mht Datei anzusehen.

I

a = open('Filename.mht', 'r') 
b = a.read() 
a.close() 
+0

Können Sie uns den Code zeigen, den Sie verwenden, um die MHT-Datei zu erhalten und wie Sie sie öffnen? –

+0

Hat meine Antwort für Sie funktioniert? –

Antwort

0

tun str = str.replace("\n","") Works für mich verwenden. Also, wenn Sie

string = '''a href="http://www.= 
google.com/maps?=12= 
3 main st''' 
string = string.replace("\n", "") 

print(string) 
'a href="http://www.=google.com/maps?=12=3 main st' 

tun, das sollte This post might help, and explain why.

EDIT arbeiten: Gerade getestet, dass es funktioniert.

0

Ich denke, ich fand die Arbeit herum. Das .read() verursachte ein Problem, nicht sicher warum. Ich habe es in readlines() geändert und dann die Zeichenfolge wieder zusammengesetzt und es funktioniert jetzt gut mit einer kleinen Ausnahme, ich muss das '.' wenn du versuchst, es wieder zu finden ... zumindest denke ich, dass das ist, was bewirkt, dass das Programm jetzt auflegt.

+0

Brauchen Sie noch Hilfe? –

Verwandte Themen