2016-08-10 3 views
0

Im unteren Code, was bedeutet jedes einzelne Element des Symbolstrings re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread)?Python Web Scraping, Symbole Bedeutung

import urllib2 
import re 

htmltext = urllib2.urlopen("https://en.wikipedia.org/wiki/Linkin_Park") 
htmlread = htmltext.read() 
htmlread = re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread) 
regex = '(?<=Linkin Park was founded)(.*)(?=the following year.)' 
pattern = re.compile(regex) 
htmlread = re.findall(pattern, htmlread) 
print "Linkin Park was founded" + htmlread[0] + "the following year." 
+1

http://stackoverflow.com/questions/22937618/ Referenz-was-tut-das-Regex-bedeutet –

Antwort

0

Die Linie htmlread = re.sub('<[^>]*>|[\n]|\[[0-9]*\]', '', htmlread) entfernt entweder

  • einen Ausdruck zwischen <> OR
  • einem Neuen-Zeile-
  • eine Zahl zwischen Klammern oder leeren Klammern

von htmlread

interessante Wiki Beitrag hier: Reference - What does this regex mean?

0

jedes Zeichen mit '' ersetzen, die variabel von htmlread

löschen bedeutet Bitte lesen Sie mehr über RegEx