i einfache tokenization peform wollen Zeile die Anzahl der Wörter in HTML-Zeile zu zählen, mit Ausnahme der Worte zwischen <a>
-Tag und den Wörtern zwischen <a>
Tag wird einzelnPython, wie die Anzahl der Wörter in HTML-Zeile für Zeile zählen
kann nltk das tun? oder kann eine Bibliothek das machen?
zum Beispiel: dies der HTML-Code
<div class="side-article txt-article">
<p><strong>BATAM.TRIBUNNEWS.COM, BINTAN</strong> - Tradisi pedang pora mewarnai serah terima jabatan pejabat di <a href="http://batam.tribunnews.com/tag/polres/" title="Polres">Polres</a> <a href="http://batam.tribunnews.com/tag/bintan/" title="Bintan">Bintan</a>, Senin (3/10/2016).</p>
<p>Empat perwira baru Senin itu diminta cepat bekerja. Tumpukan pekerjaan rumah sudah menanti di meja masing masing.</p>
<p>Para pejabat tersebut yakni AKP Adi Kuasa Tarigan, Kasat Reskrim baru yang menggantikan AKP Arya Tesa Brahmana. Arya pindah sebagai Kabag Ops di <a href="http://batam.tribunnews.com/tag/polres/" title="Polres">Polres</a> Tanjungpinang.</p>
und i die Ausgabe
WordsCount : 0 LinkWordsCount : 0
WordsCount : 21 LinkWordsCount : 2
WordsCount : 19 LinkWordsCount : 0
WordsCount : 25 LinkWordsCount : 2
WordsCount werden wollen, ist die Anzahl der Wörter in jeder Zeile mit Ausnahme der Text zwischen <a>
-Tag. Und wenn ein Wort zweimal erscheint, wird es als zwei gezählt. LinkWordsCount ist die Anzahl der Wörter zwischen <a>
Tag.
so, wie es Zeile für Zeile außer dem <a>
Tag zu zählen, und die Wörter zwischen <a>
Tag wird einzeln zählen.
Vielen Dank.
Ich bin ein mit etwas Mühe, deine Frage zu verstehen. Können Sie bitte zeigen, was die aktuelle Ausgabe ist und was die Ausgabe sein soll, damit wir sehen können, wie sie sich unterscheiden? Danke – mmenschig