2017-12-03 7 views
-4

Ich versuche, eine Liste von getfile.do Strings für einen bestimmten Berichtstyp zu erzeugen - einen "technischen" Bericht. Das Problem besteht darin, dass der Bericht "type" am Ende der Zeichenfolge markiert ist. Daher sollte der Code die Zeichenfolge lesen. Wenn der Bericht tag auscheckt, sollte er zurückgehen und die Datei getfile.do (Aktion) extrahieren.Teil eines Textes von einer Webseite extrahieren

Hier ist ein Beispiel von der Quellwebseite (WWW.SEDAR.COM) (es gibt viele unerwünschte Sachen, aber die unten ist eine, die ich will. Also, wenn wir "Technischer Bericht" im folgenden Code lesen, Ich möchte die Aktionsinformationen extrahieren (damit ich das Dokument herunterladen kann.) Das Problem ist, dass viele Seitenverknüpfungen nicht relevant sind.

FORM name = "form1512323126173" action = "/ GetFile.do lang = EN & DocClass = 24 & issuerNo = 00.021.020 & issuerType = 03 & projectNo = 02.627.564 & d cid = 4.117.642 "method =" post "target = "AcceptTermsOfUse" P HREF =" Javascript: submitFiling (document.form1512323126173, 'AcceptTermsOf use'); "title =" & DocClass = 24 & issuerNo = 00.021.020 & issuerType = 03 & projectNo = 026 7564 & docId = 4.117.642 "Onmouseover =" window.status =‘& DocClass = 24 & issuerNo = 000 1020 & issuerType = 03 & projectNo = 02627564 & docId = 4.117.642 '; return true; "onmouseout =" window.status =' '; return true; ">Technischer Bericht (NI 43101)

Nachfolgend finden ein Beispiel (auf der gleichen Seite), das ich nicht interessiert:

FORM name = "form1512323126172" action = "/ GetFile.do lang = EN & DocClass = 24 & issuerNo = 00021020 & issuerType = 03 & projectNo = 02627564 & d cid = 4117645" method = "post" target = "AcceptTermsOfUse" PA HREF = "Javascript: submitFiling (document.form1512323126172, 'AcceptTermsOfU e');", title =“& DocClass = 24 & issuerNo = 00.021.020 & issuerType = 03 & projectNo = 02627 64 & docId = 4.117.645 "onmouseover =" window.status = '& docClass = 24 & IssuerNo = 00021020 & IssuerType = 03 & ProjektNr = 02627564 & docId = 4117645'; return true; "onmouseout =" Wind ow.status = ‚‘; return true; "> Die Zustimmung der qualifizierten Person (NI 43-101)

Also abschließend von einer Webseite Scharren der oben genannten, ich hoffe, würde die Ausgabe wie folgt zu sehen:

action = "/ GetFile.do lang = EN & DocClass = 24 & issuerNo = 00021020 & issuerType = 03 & p ojectNo = 02627564 & d cid = 4117642

+2

Sie alles versucht haben? Lassen Sie uns stattdessen ein Problem wissen, das Sie in Ihrem Ansatz haben. Es scheint, als ob Sie hoffen, dass jemand die Arbeit für Sie erledigt. –

+0

glücklich, die Arbeit zu tun, brauchen nur einen Steuer in die richtige Richtung (als Neuling) - –

Antwort

0

Sie requests Bibliothek von python mit Beautifulsoap können

3rd-Party-Bibliotheken Installieren von folgenden Befehle ::

pip install beautifulsoup4 
pip install requests 
+0

vielen Dank - schätzen den Tipp –

Verwandte Themen