2016-10-30 9 views
0

Ich weiß, es gibt eine Reihe von Möglichkeiten counting words in a LaTeX document, einige genauer als andere.LaTeX Dokument Wort Statistik

Was ich suche, ist eine Möglichkeit, einfache Statistiken zu einem LaTeX-Dokument durchzuführen. Anstatt nur alle Wörter zu gruppieren und deren Länge zu zählen, möchte ich die Anzahl der Instanzen jedes Wortes getrennt zählen.

Die Ausgabe wird in etwa wie folgt aussehen:

1. (15% - 456) that 
++++++++++++++++++++++++++++++++++++++++++++ 
2. (10% - 308) the 
++++++++++++++++++++++++++++++ 
3. (8% - 213) is 
+++++++++++++++++++++ 
4. (4% - 102) of 
+++++++++ 
5. (2% - 55) and 
++++ 

Gibt es ein Tool gibt, die con etwas tun dies ähnlich tun?

Antwort

0

Ich konnte kein Paket/Skript finden, um das zu tun, was ich brauchte, also baute ich mein eigenes.

Es ist ein kleines (rudimentäres) Python-Skript, aber es funktioniert. Die Ausgabe sieht wie folgt aus:

Number of unique words: 1945 
Total number of words: 16660 

    0. 1210  (7.26%) - the 
    1. 461  (2.77%) - in 
    2. 431  (2.59%) - of 
    3. 317  (1.90%) - a 
    4. 313  (1.88%) - and 
    5. 304  (1.82%) - for 
    6. 304  (1.82%) - to 
    7. 241  (1.45%) - is 
    8. 176  (1.06%) - words 
    9. 165  (0.99%) - by 
Sum percentage: 23.5% 

Word lengths distribution: 
1 ++ (317) 
2 ++++++++++++++++++++ (2602) 
3 ++++++++++++++++++++++++++++++ (3947) 
4 ++++++++++++++++++ (2342) 
5 +++++++++++++ (1752) 
6 ++++++++++ (1348) 
7 +++++++++ (1154) 
8 ++++++++ (1071) 
9 ++++++ (787) 
10 ++++ (586) 
11 +++ (383) 
12 + (129) 
13 + (123) 
14 + (36) 
15 + (83) 

Es ist im Github Repo hochgeladen hat: LaTexWordStats.