2009-05-07 7 views
26

Ich bin bereit, ein Projekt aufzunehmen, das in Data Mining ist. Bevor ich hineinspringe, wollte ich nach verschiedenen Data-Mining-Tools (vorzugsweise Open Source) suchen, die webbasiertes Reporting ermöglichen. In meinem Szenario würden die Daten mir zur Verfügung gestellt, also sollte ich nicht dafür kriechen.Data Mining Open-Source-Tools

Kurz gesagt, ich bin auf der Suche nach einem Tool, das - Datenanalyse, Web-basierte Berichterstattung, bietet eine Art von Dashboard und Mining-Funktionen.

Ich habe an den Microsoft Analysis Services und BOXI gearbeitet und off spät habe ich mir Pentaho angesehen, was eine gute Option zu sein scheint.

Bitte teilen Sie Ihre Erfahrungen mit einem solchen Werkzeug, das Sie kennen.

prost

+0

Ein weiterer Punkt - ich würde ein Tool wie die gut mit entweder .NET-Code oder sogar Python-Schnittstelle können. – Arnkrishn

Antwort

12

Ich glaube, WEKA die beste Open-Source-DM-Software ist da draußen.

Check it: http://www.cs.waikato.ac.nz/ml/weka/

+0

Aber nur für die Klassifizierung, ein Unterthema von Data Mining. –

-1

Ich bin ein Python-er mich und ich muss sagen:

Ja! All dies kann in Python gemacht werden.

Ich spielte zuletzt mit Beautiful Soup [0]. Es ist ein wirklich einfach zu bedienendes Modul, mit dem Sie Daten aus HTML und XML (ausgezeichnet für "Screen Scraping") extrahieren können.

Wenn Sie Python nicht wissen, .... gut Es ist wirklich einfach zu lernen.

[0] http://www.crummy.com/software/BeautifulSoup/

+1

Beim Data Mining geht es darum, "verborgenes" Wissen in Daten zu entdecken, es hat nichts (zumindest direkt) mit Screen Scrapping zu tun, aber danke, dass du mich auf Beautiful Soup gelenkt hast, ich werde damit herumspielen. =) –

+1

** Alles ist auch in ASSEMBLER möglich! ** –

8

Weka ist groß, aber Sie könnten die orange Data Mining Toolkit statt versuchen.

http://www.ailab.si/orange/

Edit: Und ab November 2010, muss ich sagen, dass ich wirklich wie KNIME.

+2

+1 für KNIME. Ich habe das vor ein paar Wochen entdeckt und bin sehr beeindruckt davon, was es kann. Unterstützt Java-, Python- und R-Skripts und das BIRT-Add-on macht das Schreiben von Berichten zum Kinderspiel. –

1

Pentaho ist eine sehr professionelle Lösung. Definitiv eine sehr gute Wahl.

5

Sie sollten auchüberprüfen. Es kann sehr nützlich für einige große Machine-Learning-Aufgaben wie Benutzer-Clustering sein.

+0

Die Apache-Lizenz ist das größte Plus, da andere erwähnte Bibliotheken GPL verwenden, die kommerzielle Anwendungsfälle verbietet – TomR

1

Ich glaube, KNIME verdient, diese Liste als auch beizutreten.

2

ich glaube, RapidMiner ist ein ausgezeichnetes Werkzeug, das zu dieser Liste hinzugefügt werden sollte.

3

Ich würde mit den neuen Google-Tools versuchen.

- zuerst müssen Sie die API-ID für den Google-Speicher abrufen, wo Sie die Daten speichern und bearbeiten werden, die Sie analysieren werden.

-Dann müssen Sie die API-ID für google-prediction-api (http://code.google.com/apis/predict/docs/getting-started.html), die für das, was ich gesehen habe, zu bekommen ein fantastischer ausgelagerter Data Mining Prozessor. Mit der Prediction-API können Sie mehr aus Ihren Daten herausholen und ihre Muster leichter zugänglich machen. Neben der Verwendung von traditionellen numerischen und nominalen Daten können Sie auch Textdaten verwenden, die dank dieser API zum Beispiel verwendet werden können, um E-Mails nach Sprache zu kategorisieren.

-Schließlich können Sie BigQuery verwenden, die Sie Ad-hoc-Analyse, standardisiertes Reporting, Datenanalyse App Prototyping (http://code.google.com/apis/bigquery/)

0

Zusammen ausführen können mit Die Tools, ich würde sehr empfehlen, Python und R zu lernen. Diese Sprachen helfen sehr bei der Analyse. Außerdem können große Datensätze "benutzerdefiniert" analysiert werden. Sie können auch Ihre eigene benutzerdefinierte Dashboard Javascript (Besuche numerous charting and visualization libraries)

5

RapidMiner ist mein bevorzugtes Data-Mining-Tool erstellen.

1

Weka ist stark für Klassifizierung und/maschinelles Lernen /. Für viele ist dies eher ein Teil der künstlichen Intelligenz als des eigentlichen Data Mining. RapidMiner ist weitgehend in der gleichen Richtung, aber mit einem viel besseren UI. Pentaho ist die professionelle Unterstützung von Weka AFAICT.

Vielleicht möchten Sie sich ELKI, http://elki.dbs.ifi.lmu.de/ ansehen, ein vergleichbares Projekt, das sich auf Clustering-Algorithmen und Ausreißererkennungen konzentriert, zwei weitere wichtige Aufgaben des Data Mining.

3

KEEL (http://keel.es) ist in Java geschrieben und eignet sich gut für die Verwendung von evolutionären Berechnungen für Data Mining.

2

WEKA (bereits erwähnt), Orange (http://orange.biolab.si/), Tanagra (http://data-mining-tutorials.blogspot.com) können Sie es gute Tutorials.

Sind sehr gute Tools für Data Mining.

2

Sie können meine Software, die SPMF data mining framework überprüfen.

Es ist eine Open-Source-Java-Software, die mehr als 70 Algorithmen für die Angebote:

  • häufige itemset Bergbau,
  • Assoziationsregel Bergbau,
  • Sequenzmuster
  • sequenzielle Regel Bergbau.
  • und mehr ..
Verwandte Themen