ich gerade gelernt, wie Daten mit bash wie dies von HTML-Skript zu extrahieren:Regex für awk in mehrzeiligen html Skript
<td>hello</td> <td>whatsup</td>
kann ich awk -F '[<>]' '/<td>/,/<\/td>/ {print $3}' test.html
Allerdings verwenden wie ich darüber gehen, Wenn es mit Zeilenumbrüchen wie diesem getrennt ist?
<td> hello </td> <td> whatsup </td>
durch Tutorien gehen die besten Code, den ich tun konnte, ist das, was nicht zu funktionieren scheint.
awk -F '\n' '/<td>/,/<\/td>/ {print $2}' test.html
Ich schlage vor, einen XML/HTML-Parser zu verwenden (xmllint, xmlstarlet ...). – Cyrus
Ich versuche zu lernen, HTML selbst zu analysieren, ohne irgendwelche Parser zu verwenden. –
Siehe: [Verwenden Sie Regex nicht, um HTML zu analysieren] (http://stackoverflow.com/a/1732454/4060711) – Cyrus