Ich versuche, die HTML meiner Website zu nehmen und zu sehen, ob es das gleiche ist, was ich in einer Offline-Version habe.Wie kann ich die HTML-Datei einer Website
Ich habe dies erforscht, und alles, was ich finden kann, ist entweder Parsing oder etwas, das mit nur http beschäftigt: //
Bisher habe ich dies:
import urllib
url = "https://www.mywebsite.com/"
onlinepage = urllib.urlopen(url)
print(onlinepage.read())
offlinepage = open("offline.txt", "w+")
print(offlinepage.read())
if onlinepage.read() == offlinepage.read():
print("same") # for debugging
else:
print("different")
Dies sagt immer, dass sie sind die gleichen, auch wenn ich eine andere Website komplett einstelle.
Was sagte er. Also müssen Sie 'x = offlinepage machen.read() 'zuerst, und dann tun Sie Ihre Vergleiche auf' x' – TehTris
Side-note: Angenommen, die 'Print's sind nur zum Debuggen, und alles, was Sie wollen, ist ein" Ja/Nein ", sind die Seiten die gleichen, Sie kann Kurzschlüsse verwenden, um zeilenweise zu vergleichen, wie verfügbar, und stoppst, wenn Sie eine Diskrepanz treffen, zB: 'if all (webline == fileline für webline, fileline in itertools.zip_longest (onlineseite, offline seite)):' 'print ("selbe") ', usw. Es hat die gleichen Einschränkungen (kann nur einmal durchlaufen), aber es bedeutet, wenn sie sich im ersten Byte einer 100 MB-Datei unterscheiden, können Sie sofort aufhören, statt weiter zu lesen ist schon bekannt. – ShadowRanger
Wissen Sie, wie Sie die HTML-Datei in eine TXT-Datei bekommen, ich versuche, die Datei zu nehmen, sie zu kopieren und dann zu prüfen, ob sie gleichwertig ist. – Piguinrulist