2009-07-13 2 views
0

Ich bin auf der Suche nach einer effizienten Möglichkeit zum Lesen der rohen Text von jedem MS-Office-Dokument (Word, Excel oder Powerpoint), dann eine eindeutige Wortliste und eine Anzahl von Wie oft wird dieses Wort verwendet? Wenn möglich, möchte ich in der Lage sein, gängige Wörter ("und", "zu", "der" usw.) auszuschließen.Get distinct Wortliste und zählen von ms Office-Dokumente mit C#

Was ist der beste Weg, um dies in C# zu erreichen?

Antwort

1

Sie sollten in Lucene.NET suchen - es hat die Fähigkeit, Wort-Indizes aus einer Vielzahl von Quellen zu bauen - einschließlich, glaube ich, Word-Dokumente.