2009-12-30 7 views
5

Ich möchte einige Beispielanwendungen und begleitende Dokumente schreiben, die den Zugriff auf in relationalen Datenbanken gespeicherte Informationen vergleichen. Um reale Anforderungen zu demonstrieren, muss ich einen realistischen Datensatz von Hunderttausenden von Fakten enthalten.Frei verfügbare Beispieldatensätze hierarchischer Informationen und realistischer Namen

Ist jemand bewusst öffentlich zugänglich, frei Datensätze in dieser Größenordnung, der Datensätze von menschlichen Namen mit menschlichen Ebene Varianz oder hierarchischen Datensätze entweder große Organisationshierarchien oder große hierarchisch kategorisiert, Produktkataloge?

Bitte weisen Sie mich in die richtige Richtung, wenn Sie es sind.


Teil 1, menschliche Namen: http://timecenter.cs.aau.dk/software.htm

Teil 2, hierarchische Daten: noch keine Antwort

+0

Was ist los mit der Zufallsgenerierung? Sicherlich wäre der Aufwand, die Daten an Ihr Modell anzupassen, der gleiche, wenn nicht sogar mehr Aufwand. – Joe

Antwort

3
+0

Dies führte mich zu http://dev.mysql.com/doc/#sampledb, die mehrere vielversprechende Leads hat. Danke. – mikaelhg

+0

Eine weitere Untersuchung führte zu http://timecenter.cs.aau.dk/software.htm, die eine ziemlich nette simulierte Mitarbeiterdatenbank hat, die MySQL in eigenen Beispieldatenbanken verwendet. – mikaelhg

2

Ihre eigene Verzeichnisstruktur des PC ist eine große hierarchische Struktur mit vielen Fakten. Sie haben wahrscheinlich ein paar tausend "Fakten", die Dateinamen, Änderungsdaten, Größen, zusätzliche Betriebssysteminformationen usw. sind.

Wenn das nicht groß genug ist, finden Sie einen Server, auf dem Sie sich anmelden können. Das wird größer sein.

Nicht groß genug? Holen Sie sich einen Web-Crawler und beginnen Sie mit dem Crawlen einer großen Website. Das kann so groß sein, wie Sie die Geduld haben zu kriechen.

+0

Lediglich eine Reihe von hierarchischen Knotenverbindungsdaten dient nicht dazu, dem Leser zu vermitteln, wie eine bestimmte demonstrierte Lösung die gewünschten Ergebnisse liefert. Zu diesem Zweck müssen die Daten dem Leser einen verständlichen hierarchischen Kontext zur Verfügung stellen, beispielsweise eine Organisationshierarchie oder die kategorische Hierarchie eines Werkzeugkatalogs. – mikaelhg

+0

Ein Dateisystem ist ein standardisierter, weithin verstandener, fast universeller "hierarchischer Kontext". Es scheint weit universeller als Organisationen oder ein Werkzeugkatalog. –

Verwandte Themen