2016-04-05 2 views
0

Ich versuche, eine DBpedia für ein Experiment zu replizieren.Ladefehler von tdbloader2: Unzulässiges Zeichen in IRI

Ich lade den neuesten Datensatz von DBpedia von: http://downloads.dbpedia.org/2015-10/core/ und speichere sie ein Verzeichnis dbp_201510/.

Ich habe versucht, den Datensatz mit tdbloader2 zu laden.

tdbloader2 --loc tdb dbp_201510/* 

Ich erhalte jedoch den folgenden Fehler.

ERROR [line: 2, col: 145] Illegal character in IRI (codepoint 0x60, '`'): <http://www4.wiwiss.fu-berlin.de/gutendata/resource/people/[`]...> 
org.apache.jena.riot.RiotException: [line: 2, col: 145] Illegal character in IRI (codepoint 0x60, '`'): <http://www4.wiwiss.fu-berlin.de/gutendata/resource/people/[`]...> at org.apache.jena.riot.system.ErrorHandlerFactory$ErrorHandlerStd.fatal(ErrorHandlerFactory.java:136) 
at org.apache.jena.riot.lang.LangEngine.raiseException(LangEngine.java:165) 
at org.apache.jena.riot.lang.LangEngine.nextToken(LangEngine.java:108) 
at org.apache.jena.riot.lang.LangNTriples.parseOne(LangNTriples.java:71) 
at org.apache.jena.riot.lang.LangNTriples.runParser(LangNTriples.java:58) 
at org.apache.jena.riot.lang.LangBase.parse(LangBase.java:42) 
at org.apache.jena.riot.RDFParserRegistry$ReaderRIOTLang.read(RDFParserRegistry.java:176) 
at org.apache.jena.riot.RDFDataMgr.process(RDFDataMgr.java:861) 
at org.apache.jena.riot.RDFDataMgr.parse(RDFDataMgr.java:667) 
at org.apache.jena.riot.RDFDataMgr.parse(RDFDataMgr.java:637) 
at org.apache.jena.riot.RDFDataMgr.parse(RDFDataMgr.java:626) 
at org.apache.jena.riot.RDFDataMgr.parse(RDFDataMgr.java:617) 
at org.apache.jena.tdb.store.bulkloader2.CmdNodeTableBuilder.exec(CmdNodeTableBuilder.java:165) 
at jena.cmd.CmdMain.mainMethod(CmdMain.java:93) 
at jena.cmd.CmdMain.mainRun(CmdMain.java:58) 
at jena.cmd.CmdMain.mainRun(CmdMain.java:45) 
at org.apache.jena.tdb.store.bulkloader2.CmdNodeTableBuilder.main(CmdNodeTableBuilder.java:85) 

Zusätzlich erhalte ich viele Warnungen wie unten.

WARN [line: 92881, col: 1 ] Bad IRI: <http://dbpedia.org/resource/Ranma_½> Code: 56/COMPATIBILITY_CHARACTER in PATH: TODO 
WARN [line: 92882, col: 1 ] Bad IRI: <http://dbpedia.org/resource/Ranma_½> Code: 47/NOT_NFKC in PATH: The IRI is not in Unicode Normal Form KC. 

Ich benutze Apache Jena 3.0.1.

Ich suche nach einer Möglichkeit, diesen Fehler zu vermeiden. Darüber hinaus gibt es eine gute Möglichkeit, ohne Warnung zu laden.

Ich tat das gleiche für die frühere Version von DBpedia (http://downloads.dbpedia.org/2015-04/core/) und Laden wurde erfolgreich ohne Warnung und Fehler abgeschlossen.

Antwort

1

Die Daten sollten vor dem Laden legal gemacht werden. Das 0x60, "" ist in einem URI nicht zulässig. Vielleicht möchten Sie es durch% 60 ersetzen (es ist dann eine andere URI).

In vielen großen Datensätzen sind die Daten nicht perfekt. Es lohnt sich, es vor dem Laden mit "Riot - Validate" zu überprüfen.

Die Warnungen sind nur eine Warnung, keine Fehler und zeigen an, dass das UTF-8 nicht im Standardformat ist und zu späteren Problemen führen kann. Es sieht so aus, als ob ½ in UTF-8 auf verschiedene Arten geschrieben werden kann.

(Ich bin mir sicher, das DBpedia Team würde sich über Feedback freuen.)

Verwandte Themen