2012-04-02 5 views
1

Ich muss eine Java-Bibliothek - oder einen Code - verwenden, um Feld-Tags aus dem Inhalt eines ODT-Dokuments zu extrahieren. Ich weiß, odt ist eine Art gezippte Datei und es hat seinen Inhalt in einer content.xml-Datei. Natürlich könnte ich die Dateien einfach extrahieren, content.xml öffnen und analysieren, aber ich glaube, dass Code auf höherer Ebene existiert. Nur als Beispiel, sieht der Inhalt wie folgt aus:Felder aus dem ODT-Dokument mit der Java-Bibliothek extrahieren

<text:p text:style-name="Standard">Hi ${name}!</text:p>  
<text:p text:style-name="Standard"> 
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p> 

Ich möchte die Felder wie $ {Name} und $ nome extrahieren.

Ich weiß Apache Tika könnte dafür verwendet werden, aber ich habe kein Beispiel gefunden, das Feldextraktion tatsächlich zeigt. Ich glaube, das ist, weil die Felder, die ich verwende, unstrukturierter Text anstelle von Eingabefeld-Tags sind.

Vielen Dank im Voraus, Daniel

Antwort

2

Nun, jemand nur für den Fall interessiert, am Ende haben wir für den Erhalt der Inhalte aus dem odt mit Apache Tika und wir haben es mit dem folgenden regulären Ausdruck analysiert:

\$\{[\w\-\.]*\} 
Verwandte Themen