Ich bin neu im Bereich Webskraping und reguläre Ausdrücke und habe hier ein Problem. Einer meiner Code gibt mir eine Ausgabe in HTML, aber ich muss einen bestimmten Teil aus dem Absatz extrahieren und nicht den vollständigen Absatz. Ich brauche Hilfe mit diesem. Unten ist mein Code.So extrahieren Sie bestimmte Teile eines HTML-Absatzes
import mechanize
from bs4 import BeautifulSoup
import urllib2
br = mechanize.Browser()
response = br.open("http://www.consultadni.info/index.php")
br.select_form(name="form1")
br['APE_PAT']='PATRICIO'
br['APE_MAT']='GAMARRA'
br['NOMBRES']='MARCELINA'
req=br.submit().read()
soup = BeautifulSoup(req, "lxml")
for link in soup.findAll("a"):
sub=link.get("href")
soup1 = BeautifulSoup(sub, "lxml")
print soup1.find_all('p')
Ausgabe auf dem Bildschirm:
[<p>/</p>]
[<p>datospersonales.php?nc=PATRICIO GAMARRA MARCELINA&dni1=40772568&dni2=12405868&id1=12a40a58a68&id2=30/06/1980&dni3=40631880</p>]
[<p>datospersonales.php?nc=PATRICIO GAMARRA MARCELINA&dni1=40772568&dni2=12405868&id1=12a40a58a68&id2=30/06/1980&dni3=40631880</p>]
[<p>http://www.infocorpperuconsultatusdeudas.blogspot.com/2015/05/infocorp-consulta-gratis-tu-reporte-de.html?ref=dnionline</p>]
Was ich brauche: 30/06/1980
& 40631880
Versuch zu analysieren 'sub' mit [' urllib.parse.parse_qs'] (https://docs.python.org/3/library/urllib.parse.html) ein Wörterbuch von Variablen und Werte zu erhalten . –
ParseResult (Schema = '', NetLoc = '', Pfad = 'tmp', Parameter = '', Abfrage = '', Fragment = '') ParseResult (Schema = '', NetLoc = '', Pfad = ' tmp ', params =' ', query =' ', fragment =' ') ParseResult (Schema =' ', NetLoc =' ', Pfad =' tmp ', Parameter =' ', Abfrage =' ', Fragment =' ') – Sandrachuz
Ich bin neu in Regex, also was sollte die Regex dafür sein? – Sandrachuz