Vor neun Jahren, als ich begann, HTML und freien Text mit Perl zu analysieren, las ich den Klassiker Data Munging with Perl. Weiß jemand, ob David plant, das Buch zu aktualisieren, oder ob es ähnliche Bücher oder Webseiten gibt, auf denen die neuen Parsing-Module wie XML-Twig, Regexp-Grammars usw. erklärt werden?Welche Perl-Module für die Datensicherung?
Ich gehe davon aus, dass in den letzten neun Jahren einige Module immer noch so gut sind wie sie waren, einige sind auf dem neuesten Stand, aber mit neuen interessanten Methoden und einige haben besseren Ersatz. Zum Beispiel, ist immer noch Parse-RecDescent die einzige Option für die freie Textanalyse oder wird der Perl 6 Regexp-Grammars sein Ersatz in vielen Szenarien beeinflusst?
Ich war vier Jahre ohne aktive HTML, XML oder Free Text Data Mining mit Perl, also ist mein Toolkit in diesem Bereich wahrscheinlich etwas veraltet. Daher ist jedes Feedback für HTML- und DOM-Manipulation, Link-Extraktion/Verifizierung, Web-Tests wie Mechanize, XML-Manipulation und freies Text-Parsen von Personen, die mit den aktuellen CPAN-Modulen in diesem Bereich aktuell sind, mehr als willkommen.
Einige neue Ergänzungen zu meinem Toolkit:
noch in meinem Toolkit:
- HTML-TableExtract # seit 2006
- WWW-Mechanize
- Parse-RecDescent
- HTML-TokeParser
- URI-Escape
- [mehr ...]
Einige der Besonderheiten haben sich geändert könnten, aber die Konzepte sind die gleichen. :) –
Dave, es wäre ein Vergnügen, diese Bewertungen und Rezepte in Ihrem Blog eines Tages zu lesen. –
Ja, ich wäre sehr daran interessiert, diese Beiträge zu lesen. Wenn Sie am Ende einige zusätzliche Updates in Ihrem Blog veröffentlichen, ist das super. Prost! – blunders