2016-05-30 9 views
0

Ich schabe den IEEEXplore für einige Daten PDF, Kacheln und Links.Seltsamer HTML-Code beim scrapen von IEEEXPLORE

So vor kurzem, als ich Schabe diese Website (mit Python und Twill-Modul) Ich hnliche diesen Inhalt:

��7���j��/�5�,X��]����O�s˟�����U|]�l 
��c��qLE�[����:yg�u%��_�9e�;�4��^�kt)j�Te���:OX���[��u����B���-]?t�C���m/��ά��Ҋ��n�'��}'�Ù�ف{�S;�ƣ������3�dS��M[m 

Also, warum dies geschieht! Ich zweifle an der Kodierung der Seite.

der Code ist groß, aber ich eingefügt einen Teil der hier:

Sie den Code hier sehen kann:

https://github.com/power-electro/test-ieeexplore-scraper/blob/master/ieeexplore_ieee_org.py

So ist die Free PDF-Dateien von Elsevier-Version dieser Website ist zugänglich über diesen Link:

http://free-papers.elasa.ir

+0

Was ist der Link und wo ist der Code? –

Antwort

0

Es wäre interessant, den Rest zu suchen, die Ausgabe, aber meine Vermutung ist, dass all das durcheinander Dinge, die schwer zu lesen ist eigentlich eine Bilddatei oder eine Videodatei oder etwas ist. Bild- und Videodateien sehen sehr komisch aus, wenn wir versuchen, sie mit HTTP GET zu erhalten und als Text auszudrucken. Meine Vermutung ist, dass die normale Website-Scraping-Sachen, die Sie wollen (Text, HTML, etc) ist auch dort.

0

fand ich die Antwort i-ten entfernt: Teil seines Kopfes ist.

t_com.add_extra_header('Accept-Encoding', 'gzip, deflate') 

dieses Daten Erz Gziped Daten !!!

i de geZIPten Daten durch diese Codes:

   content1 = t_brw.result.page 
       # print 'debug twill post content:', content 
       import StringIO 
       content1 = StringIO.StringIO(content1) 
       import gzip 
       gzipper = gzip.GzipFile(fileobj=content1) 
       content = gzipper.read() 
Verwandte Themen