2012-05-07 9 views
7

Ich bin auf der Suche nach den Spezifikationen der TREC-Format. Ich habe viel gegoogelt, aber ich habe keine Ahnung gefunden.Was ist das TREC-Format?

Weiß jemand, wo man Informationen darüber finden kann?

Antwort

3

AFAIK TREC ist eine Abkürzung für NIST Text Retrieval Conference. Damit der Indexer weiß, wo sich die Dokumentgrenzen innerhalb von Dateien befinden, muss jedes Dokument Dokument- und Enddokument-Tags haben. Diese Tags ähneln HTML- oder XML-Tags und sind eigentlich das Format für TREC-Dokumente.

TrecParser: Dieser Parser erkennt Text in den TEXT-, HL-, HEAD-, HEADLINE-, TTL- und LP-Feldern.

Quelle: TREC Wikipedia

Quelle: Lemur Guide

0

Es ist auch das Dateiformat, das von IBM Watson für die Wissensaufnahme verwendet wird