Ich mache eine Forschung über den Autor Name Disambiguierung Problem. Ich möchte ein paar Experimente machen. Ich möchte Zitierungsdatensätze bündeln. Ich brauche Trainingsdaten und Testdaten, in denen der wahre Autor jedes Veröffentlichungsdatensatzes verfügbar ist. Es gibt viele bibliographische Datenbanken wie DBLP, Medline und Pubmed usw. Ich bin verwirrt über die Testphase. Ist es eine gute Praxis, den DBLP in Training und Tests zu unterteilen? Werden DBLP-Zitatdatensätze manuell hinzugefügt? Kann ich garantieren, dass jeder Zitierungsdatensatz dem wahren Autor in DBLP zugewiesen wird? Gibt es einen Vorschlag für das Training und Testen von Datenbanken? Hinweis: In der Literatur habe ich festgestellt, dass in einigen Zeitungen Pubmed für Training und DBLP für Tests verwendet wurde, obwohl der erste für medizinische Publikationen und der zweite für Computer ist.Autorenname Disambiguierungsdaten
Antwort
Unten ist mein nehmen auf Ihre Fragen:
Ich bin verwirrt über die Testphase. Ist es eine gute Praxis, den DBLP in Training und Tests zu unterteilen?
Die verwendete Praxis besteht darin, die Daten für Training und Tests zu teilen. Es ist jedoch eine gute Idee sicherzustellen, dass für jede Testprobe Trainingsbeispiele vorhanden sind.
Werden DBLP-Zitatdatensätze manuell hinzugefügt? Kann ich garantieren, dass jeder Zitierungsdatensatz dem wahren Autor in DBLP zugewiesen wird?
Gemäß diesem Dokument werden DBLP-Zitate-Datensätze manuell hinzugefügt. https://clgiles.ist.psu.edu/papers/ECDL-2005-Citation-Databases.pdf
Gibt es einen Vorschlag für das Training und Testen von Datenbanken.
ANDDataset1 hat in einigen Arbeiten für solche Aufgaben https://sites.google.com/site/tinhuynhuit/dataset
Sie können auch versuchen KDD Cup 2013 verwendet worden - Autor Disambiguation Challenge- https://www.kaggle.com/c/kdd-cup-2013-author-disambiguation/data
- 1. Git Log Autorenname von htpasswd
- 2. Autor Autorenname zu Excel-Datei mit poi
- 3. Wie bekomme ich alle post Autorenname in WordPress
- 4. Wie Autorenname für Subversion festlegen, wenn ich svn: keywords
- 5. Erstellen Sie eine LINQ GroupBy Abfrage mit Ausdrucksbäumen
- 6. Einstellung SVN Benutzername (Autorname in Eclipse) bei Verwendung von Svn + SSH
- 7. Wie bekomme ich die Eingabeaufforderung Ausgabe
- 8. Wie können wir einen gleichen Abstand zwischen zwei Etiketten, wo Inhalte dynamisch geladen in iPhone SDK
- 9. Symbole in Python-Skript auf Verteilung ersetzen
- 10. Wie durch Woche in postgresql
- 11. Youtube Data API: Abrufen mehrerer Videoeinträge nach IDs in einer einzigen Anfrage
- 12. Wie erstelle ich eine Suchmaschine mit Filtern?
- 13. Wie bekomme ich eine Liste aller Subversion-Commit-Autoren-Benutzernamen?
- 14. Möglichkeit, Ressourcen Felder Liste in RESTful API Anfrage
- 15. wollen Namen durch Komma getrennt anzeigen
- 16. jQuery modal nicht zeigen Name nach dem Schließen und Öffnen
- 17. WPF: Vorlage oder UserControl mit 2 (oder mehr!) ContentPresenter zum Präsentieren von Inhalt in 'Slots'
„Kann ich garantieren, dass jedes Anführungsverzeichnis dem wahren zugeordnet ist Autor in DBLP? " Bitte beachten Sie, dass obwohl DBLP manuell curiert wird, dies in keiner Weise eine Garantie dafür ist, dass DBLP fehlerfrei ist. Die Quellen von Metadatenfehlern sind vielfältig und oft kann selbst die manuelle Recherche die "Wahrheit" nicht aufdecken. DBLP kann von höherer Qualität und weniger fehleranfällig sein als andere aggregierte Datenquellen aufgrund seines einzigartigen Ansatzes für die Datensicherung. Aber mit etwas Erfahrung können Sie leicht viele Beispiele finden, in denen selbst DBLP falsch lag. – MRA