2011-01-16 15 views

Antwort

20

Wenn Sie sich für einen realen Fall prüfen, diese eine, die automatically assigns priority to bugs suchen.

Ich habe auch ein paar Testprojekte erstellt, um ein Gefühl dafür zu bekommen, wie ich es in der Produktion verwenden könnte.

Einer von ihnen suggests tags für Stackoverflow Fragen. Das Modell dafür wurde mit Fragen (aus dem Daten-Dump) trainiert, die nur 1 Tag hatten. Dies hilft dabei, Einzelheiten eines bestimmten Tags zu erkennen. Code und Prosa wurden in separate Funktionen aufgeteilt, da eine davon möglicherweise größere Auswirkungen auf das Ergebnis hat. Wenn eine Frage gegeben wird, werden die 10 besten Tag-Vorschläge zurückgegeben. Aktuelle Tags sind zum Vergleich enthalten.

Struktur war eine CSV-Datei:

"tag","code blocks(200 chars)","body text(200 chars)" 

Einige Charaktere aus code gefiltert wurden, die Trainingsfehler verursacht: []^|~. Ich bin mir nicht sicher, welches davon Probleme verursacht hat.

Wenn Sie möchten, dass eine bestimmte Frage zur Testliste hinzugefügt wird, lassen Sie es mich wissen. Offensichtlich sagen Fragen, die Code haben, besser voraus.

Das andere Projekt prognostiziert movie ratings basierend auf IMDB Daten und Regisseur/Akteure. Im Gegensatz zum Tag-Suggester ist dieser Live-Tag, sodass Sie mit verschiedenen Kombinationen experimentieren können, um zu sehen, was er vorhersagt.

Struktur hier war:

rating,"directorId","actorId actorId actorId" 

Beide laufen auf Google App Engine so Python das hintere Ende ist. Ich verwende keine bestimmte API. nur einige von Nick Johnsons example code folgten.

+0

Super! Genau das, was ich sehen wollte! – user94154

+4

Leider sind die Links in der Antwort nicht mehr online. Jeder hat einige aktualisierte Beispiele? –

3

Ich habe diese API nicht verwendet. Aber ihre website lists die unter usecases

  • Empfehlung Systeme (Demo-Code)
  • Spam-Erkennung (Demo-Code)
  • Kundenstimmungsanalyse
  • Upsell Gelegenheit Analyse
  • Nachricht Routing-Entscheidungen
  • Diagnostics
  • Dokument- und E-Mail-Klassifizierung
  • Verdächtige Aktivitäten Identifizierungs
  • Churn Analyse
  • Sprache Identifizierung
+0

Vielen Dank für die Antwort, aber ich bin hauptsächlich daran interessiert, was Nicht-Googler für/wie sie es getan haben (dh welche Sprache/Bibliothek, wie sie Datensammlung behandelt haben, wie sie die Daten strukturiert usw.). – user94154