2016-06-01 8 views
1

Ich führe ein Ruta-Skript dynamisch aus einem Java Maven-Projekt aus. Das Skript kommentiert eine HTML-Datei und die Ausgabe wird weiterverarbeitet. Jetzt, da der coveredText wie folgt HTML-Tags dazwischen enthält:Wie ignoriert man MARKUPs von der Ruta-Ausgabe oder von JCas?

(a + b) < sup> 2 </SUP> ==> ist Markiert als Formel

Aber ich will es als

(a + b) 2 ==>, wo die Überschrift ist als eine weitere Anmerkung erfasst und später behandelt.

Wie bei der erwarteten Lösung zu finden?

+0

In UIMA ist das Dokument Text statisch. Wenn Sie den Text ändern möchten, müssen Sie eine neue Ansicht/CAS erstellen. In Ruta gibt es drei Komponenten, die eine CAS mit geändertem Dokumententext erstellen können: HtmlConverter, RutaModifier, RutaCutter. Wenn Sie es weiter verarbeiten möchten, benötigen Sie eine aggregierte AE mit Sofakartierung. –

+0

Wie geht das? Plz helfen Sie mir mit einigen Codierungen oder Links. Vielen Dank ! –

Antwort

1

In UIMA, das Dokument Text ist statisch. Wenn Sie den Text ändern möchten, müssen Sie eine neue Ansicht/CAS erstellen. In Ruta gibt es drei Komponenten, die eine CAS mit geändertem Dokumententext erstellen können: HtmlConverter, RutaModifier, RutaCutter. Wenn Sie es in der gleichen Pipeline weiterverarbeiten möchten, benötigen Sie eine aggregierte AE mit Sofa-Mapping (oder einer Sofa-Analyse-Engine).

Es gibt einige Dokumentation über diese analysis engines und ihre usage. Es gibt auch eine example project dieser Regeln und und eine StackOverflow question, die einige mögliche Probleme diskutiert. (Disclaimer: Ich bin ein Entwickler von UIMA Ruta) Informationen über Sofa-Mapping in dem UIMA documentation

fanden

Verwandte Themen