2017-05-22 1 views
2

In der paper on fasttext für überwachte Klassifizierung haben die Autoren verschiedene Mengen verborgener Einheiten angegeben, indem sie einen Parameter änderten (h ist der auf den Seiten 3,4 - In Tabelle 1 sehen Sie "Es hat 10 versteckte Einheiten und wir bewerten es mit und ohne Bigramme. ") Aber nach dem Lesen von the documentation scheint es nicht, dass es einen Parameter" versteckte Einheit "zu ändern gibt. Gibt es eine Möglichkeit, die Anzahl der versteckten Einheiten anzugeben? Oder ist das die gleiche wie die Angabe der Option -dim?Angeben der Anzahl versteckter Einheiten in Facebook fasttext

+0

Von der Facebook-Gruppe Seite: Ich möchte, fragen, wenn Fasttext zur Klassifizierung verwenden, was die Anzahl der Knoten in dem neuronalen Netz softmax verwendet? - Anzahl der Knoten in der Softmax-Ebene entspricht der Anzahl Ihrer Klassen (oder etwas mehr für hierarchische Softmax). Dann gibt es eine versteckte Ebene, deren Größe von dir festgelegt wird (wit -dim). - Dies stimmt mit der Antwort überein, also akzeptiere. –

Antwort

0

k ist die Nr. von Klassen

Aus Abschnitt 2.1 von https://arxiv.org/pdf/1607.01759v3.pdf

Genauer gesagt, ist die Rechenkomplexität O (kh), wobei k die Anzahl der Klassen und h die Dimension der Textdarstellung ist.


Wenn Klassen in Textklassifikation, vom docs Vorhersage:

Das Argument k ist optional und ist standardmäßig auf 1 gleich. Um die k höchstwahrscheinlich Etiketten für ein Stück Text zu erhalten, verwenden Sie:

$ ./fasttext vorhersagen model.bin test.txt k


Wenn das Modell der Ausbildung, Dies wird implizit in den Trainingsdaten angegeben, wenn das überwachte Training mit dem Tag __label__* durchgeführt wird.

Vom example tutorial:

$ wget https://s3-us-west-1.amazonaws.com/fasttext-vectors/cooking.stackexchange.tar.gz && tar xvzf cooking.stackexchange.tar.gz 
--2017-05-23 09:03:26-- https://s3-us-west-1.amazonaws.com/fasttext-vectors/cooking.stackexchange.tar.gz 
Resolving s3-us-west-1.amazonaws.com... 54.231.236.45 
Connecting to s3-us-west-1.amazonaws.com|54.231.236.45|:443... connected. 
HTTP request sent, awaiting response... 200 OK 
Length: 457609 (447K) [application/x-gzip] 
Saving to: ‘cooking.stackexchange.tar.gz.1’ 

cooking.stackexchange.tar.gz.1  100%[================================================================>] 446.88K 385KB/s in 1.2s  

2017-05-23 09:03:28 (385 KB/s) - ‘cooking.stackexchange.tar.gz.1’ saved [457609/457609] 

x cooking.stackexchange.id 
x cooking.stackexchange.txt 
x readme.txt 


$ cat readme.txt 
The data in this archive is derived from the user-contributed content on the 
Cooking Stack Exchange website (https://cooking.stackexchange.com/), used under 
CC-BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0/). 

The original data dump can be downloaded from: 
https://archive.org/download/stackexchange/cooking.stackexchange.com.7z 
and details about the dump obtained from: 
https://archive.org/details/stackexchange 

We distribute two files, under CC-BY-SA 3.0: 

- cooking.stackexchange.txt, which contains all question titles and 
    their associated tags (one question per line, tags are prefixed by 
    the string "__label__") ; 

- cooking.stackexchange.id, which contains the corresponding row IDs, 
    from the original data dump. 
Verwandte Themen