Wie kann die Wiktionary-API verwendet werden, um festzustellen, ob ein Wort existiert oder nicht?Wie man Wiktionary Wortinhalt holt?
Antwort
Mit der Wiktionary API kann abgefragt werden, ob ein Wort existiert oder nicht.
Beispiele für bestehende und nicht vorhandene Seiten:
http://en.wiktionary.org/w/api.php?action=query&titles=test
http://en.wiktionary.org/w/api.php?action=query&titles=testx
Der erste Link Beispiele für andere Arten von Formaten bietet, die leichter zu analysieren sein könnte.
Um das Wort der Daten in einem kleinen XHTML-Format (sollte mehr als Existenz erforderlich), fordern Sie die Druckversion der Seite abrufen:
http://en.wiktionary.org/w/index.php?title=test&printable=yes
http://en.wiktionary.org/w/index.php?title=testx&printable=yes
Diese können dann sein Parsing mit jedem Standard-XML-Parser.
Danke; Die API selbst ist nicht das, was ich mir erhofft habe, aber der Link, den du angegeben hast, ist genau das, wonach ich gesucht habe. – Armentage
Nun akzeptiert es zusätzliche Formatparameter für andere als XML-Ausgabe wie folgt: https://en.wiktionary.org/w/api.php?action=query&titles=test&format=json – eenagy
Funktioniert möglicherweise nicht wie Sie erwarten, obwohl https: // en.wiktionary.org/wiki/Category:English_misspellings https://de.wiktionary.org/wiki/amatuer – endolith
Es gibt ein paar Einschränkungen in nur prüfen, ob Wiktionary eine Seite mit dem Namen hat Sie suchen:
Caveat # 1: Alle Wiktionaries einschließlich der englischen Wiktionary haben tatsächlich das Ziel jedes Wort auch in jede Sprache, wenn Sie also einfach über API verwenden, rufen Sie wissen, dass das Wort, das Sie über fragen ist ein Wort in mindestens einer Sprache, aber nicht unbedingt Englisch: http://en.wiktionary.org/w/api.php?action=query&titles=dicare
Caveat # 2: Vielleicht eine Umleitung existiert von einem Wort zu einem anderen Wort. Es könnte aus einer alternativen Schreibweise stammen, aber es könnte aus einem Fehler irgendeiner Art stammen. Der API-Aufruf oben wird nicht zwischen einer Umleitung und einem Artikel unterscheiden: http://en.wiktionary.org/w/api.php?action=query&titles=profilemetry
Caveat # 3: Einige Wiktionaries einschließlich der Wiktionary "häufige Rechtschreibfehler" sind: http://en.wiktionary.org/w/api.php?action=query&titles=fourty
Caveat # 4: Einige Wiktionaries Stub-Einträge zulassen, die wenig oder keine Informationen über den Begriff enthalten. Dies war früher bei mehreren Wiktionaries üblich, nicht jedoch bei englischen Wiktionary. Aber es scheint, jetzt verbreitet haben auch auf die englische Wiktionary: https://en.wiktionary.org/wiki/%E6%99%B6%E7%90%83 (permalink für, wenn die Stummel gefüllt ist, so kann man noch sehen, was ein Stummel wie folgt aussieht: https://en.wiktionary.org/w/index.php?title=%E6%99%B6%E7%90%83&oldid=39757161)
Wenn diese sind nicht enthalten, was Sie wollen, Sie muss den Wikitext selbst laden und analysieren, was keine triviale Aufgabe ist.
Was ich wirklich machen wollte, war eine vollständige Sammlung der Daten auf einer der nicht-englischen Wiktionary Seiten zu machen dann verwandle den Inhalt in etwas, das ich lokal verwenden könnte. Es scheint jetzt albern, aber ich hatte gehofft, dass ich die Liste aller Wörter anfordern könnte, und dann ihre Definitionen/Übersetzungen nach Bedarf herunterziehen. – Armentage
Die Korrektur zu Caveat # 2 ist einfach: Fügen Sie der Abfrage '& prop = info' hinzu und überprüfen Sie die Antwort für das Attribut 'redirect'. – svick
@svick: Ja, es ist wahr # 2 ist leichter zu umgehen, wenn man die API benutzt, aber diese grundsätzlichen Vorbehalte decken auch den Versuch ab, die [Wiktionary data dump files] (http://dumps.wikimedia.org/enwiktionary/) zu analysieren, obwohl Diese Frage stellt sich nicht nach diesem Ansatz. – hippietrail
Sie möchten vielleicht JWKTL ausprobieren. Ich habe gerade herausgefunden über sie;)
http://en.wikipedia.org/wiki/Ubiquitous_Knowledge_Processing_Lab#Wiktionary_API
Das Zitat, auf das Sie sich beziehen, ist gebrochen. Hier ist ein Link zur JWKTL-Seite http://www.ukp.tu-darmstadt.de/software/jwktl/. Es ist nicht wirklich das, was ich glaube, aber das OP sucht. – djskinner
Sie einen Dump von Wikitionary data herunterladen. Es gibt mehr Informationen in der FAQ. Für Ihre Zwecke ist die definitions dump wahrscheinlich eine bessere Wahl als der XML-Dump.
Diese Dump-Dateien sind massiv, und es ist unklar, welche herunterzuladen (alle?). Wahrscheinlich nicht, was die meisten Leute suchen, sie wollen nur eine Handvoll Wörter programmatisch nachschlagen. – Cerin
Ich erkläre, welche Datei zum Download - d. H. Die Definitionen Dump (das Verzeichnis von meinem Link ist nur verschiedene Versionen der gleichen Datei), und ja, wenn Sie programmatisch Wörter nachschlagen möchten, ist dies ideal. Wenn Sie garantieren können, dass das Programm nur online ausgeführt wird, gibt es andere Optionen, aber ich beantworte trotzdem diesen Teil der ursprünglichen Frage: "Gibt es alternativ eine Möglichkeit, die Wörterbuchdaten, die ein Wiktionary unterstützen, herunter zu ziehen?" – kybernetikos
Definitionen Dump-Link ist nicht mehr verfügbar. –
Um es wirklich einfach zu halten, extrahieren Sie die Worte aus dem Dump wie folgt aus:
bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*:\1:' > words
Wie bekomme ich eine Kopie von pages-articles.xml.bz2? – Armentage
Es ist nur ein generischer Name, den ich verwendet habe, um die Speicherauszüge des Formulars 'LANGwiktionary-DATE-pages-articles.xml.bz2' zu beschreiben. Gehen Sie zu [link] (http://dumps.wikimedia.org/backup-index.html) und klicken Sie dann auf 'LANGwiktionary' (LANG, z. B. 'en', 'de' ...). – benroth
- 1. Wie man Daten von der Datenbank holt?
- 2. Wie man Zimmerliste von openfire holt?
- 3. Erstellungsfehler beim Importieren von Wiktionary
- 4. Wie man Daten von einem WebService in iPhone holt?
- 5. Wie man nur spezifische Spalten einer Tabelle in Django holt?
- 6. Wie man unterschiedliche Werte mit arel/relationaler Algebra holt
- 7. Wie man einzelne Reihe/Daten von Mysql_fetch_array holt?
- 8. Wie man Daten von DB mit Observables holt
- 9. Wie man ein Array von String-Elementen mit SwiftyJSON holt?
- 10. wie man von github zu Visual Studio 2013 holt/importiert
- 11. JMeter: Wie man Werte von versteckten Elementen holt
- 12. Wie man PR von Google mit .NET holt?
- 13. Wie holt man mehrere Bilder in Mysql mit PHP heruntergeladen?
- 14. Wie man Tabellensätze nach Array von IDs holt?
- 15. Wie man ein Atominkrement durchführt und in C holt?
- 16. Wie man einen Datensatz von sqlite einzeln holt?
- 17. Wie man den Wert Abschnitt weise in UItableview holt?
- 18. Wie man den .net Web Service in android holt?
- 19. Wie man eine Teilzeichenkette von der Textdatei in Python holt?
- 20. PHP: LightOpenID, wie man Konto Daten vom Anbieter holt?
- 21. Wie man unterschiedliche Werte in Core Data holt?
- 22. Wie man Profilbild mit facebooker2 anders als gegenwärtiger Benutzer holt
- 23. Wie man OneDrive-Fototags über API holt/hinzufügt?
- 24. Wie man Gruppen-ID eines Prozessors in Apache Nifi holt?
- 25. CKQuery, wie man alle Felder von Rekord holt?
- 26. Wie man JSON-Antwort auf PHP-Variable holt?
- 27. wie man Sitzung erstellt und wie man Daten von mysql Datenbank in jsp using Sitzung holt?
- 28. Datei holt Ansatz
- 29. copy_from_user holt unerwartete Daten
- 30. RxJava holt Observables parallel
Wer die Dokumentation gelesen hat, sehen, dass die API bei weitem nicht genug Funktionalität enthält auf „Wiktionary Wortinhalt abrufen“. Ich schätze, es bringt dir ungefähr 1% des Weges. Sie können rohe Wiki-Syntax oder geparsten HTML abrufen und von dort aus müssen Sie alles selbst machen. Allerdings könnte es eine sehr neue experimentelle API geben, die nur auf dem englischen Wiktionary funktioniert. – hippietrail