2017-05-19 2 views
1

Wie kann ich die MS-Dokumente (mit Erweiterung .docx. .xls usw.)/.pdf hochladen und suchen Sie das Wort aus diesen Dateien mit die Java API.Marklogic Docx-Typ (außer txt, json und xml) Dokument hochladen und suchen mit in Datei

Ich habe unten versucht, die docx-Datei

InputStream docStream = Example.class.getClassLoader().getResourceAsStream(
      "data"+File.separator+"Resume.docx"); 



    GenericDocumentManager manager = client.newDocumentManager(); 

    DocumentMetadataHandle handleMetaData = new DocumentMetadataHandle(); 

    // create a handle on the content 
    InputStreamHandle handle = new InputStreamHandle(docStream); 

    // write the document content 
    manager.write("/example/resume.docx", handleMetaData, handle); 

hochladen i unten versucht, suchen haben,

GenericDocumentManager manager = client.newDocumentManager(); 
    StringQueryDefinition query = 
      queryMgr.newStringDefinition().withCriteria("pavan"); 


    DocumentPage documents = manager.search(query, 1); 
    while (documents.hasNext()) { 
     DocumentRecord document = documents.next(); 
     System.out.println("document" + document.getContent(new StringHandle())); 
    } 

Bitte helfen Sie mir gleiche mit Logik und Code.

Antwort

2

In diesem Fall müssten Sie eine Konvertierung anwenden. MarkLogic speichert binäre Dokumente als Binärknoten (in diesem Fall beziehen sich binäre Dokumente auf Sie - pdf, docx usw.). Binäre Knoten sind natürlich nicht suchbar. Es gibt durchaus ein paar Möglichkeiten, wie Sie Conversion erreichen können:

ich diese Hoffnung Ressourcen werden Ihnen helfen. Darüber hinaus können Sie auch an einem Entwickler- oder Admin-Training teilnehmen, bei dem diese Konzepte erklärt werden. Weitere Informationen hierzu finden Sie hier: http://www.marklogic.com/training/

+0

Vielen Dank für Ihren Besuch. Wir könnten die Pipeline installieren und die Datei hochladen. Ich bin in der Lage, das PDF hochzuladen, ich konnte sehen, dass es verarbeitet wird und XML wird erzeugt. aber wenn ich suche, gibt es das Ergebnis nicht zurück. Im Falle eines Dokuments (.docx) wird die Standardkonvertierung nicht verarbeitet und nicht ausgeführt – Pavan

Verwandte Themen