2016-03-29 5 views
0

Ich benutze AngelList DB, um Startups basierend auf ihren Branchen zu kategorisieren, da diese Startups basierend auf Community-Input kategorisiert werden, was die meiste Zeit irreführend ist.Die Branche des Startups finden Sie in der Beschreibung

Mein Geschäftsziel ist Schlüsselwörter zu extrahieren, die diese spezifische Start welcher Branche anzuzeigen gehört dann in LinkedIn Blatt spezifiziert eine der Branchen abzubilden https://developer.linkedin.com/docs/reference/industry-codes

ich mit Azure Maschinelles Lernen experimentiert, wo ich 300 Start-ups geschoben Beschreibungen und analysiert die Keyword-Extraktion war ziemlich schlecht und war nicht einmal annähernd das, was ich erreichen möchte.

Ich würde gerne wissen, wie Datenwissenschaftler dieses Problem angehen werden? Wo soll ich hinschauen? und wo sollte ich nicht? ist Keyword-Analyse-Tools (wie Google Adwords Keyword-Planer ist eine praktikable Option)

+0

Können Sie mit einem vollständigen Beispiel klären, was Sie anstreben? – mjalajel

+0

Algorithmus für Cluster-Startups: http: //blog.funderbeam.com/5-competitive-startup-clustering-skills/ – user1808924

+0

http://cs.stackexchange.com/q/55138/755 –

Antwort

0

Verwenden von Text-Clustering.

Schritt # 1 Verwenden Sie Textcluster, um Hauptthemen aus allen Beschreibungen zu extrahieren. (Carrot2 kann hier hilfreich sein)

  1. Eingangs corpus aller Beschreibungen
  2. Prozess: Text Clustering Carrot2 mit
  3. Ausgang jedes Dokument wird

Schritt # mit einem Thema beschriftbar 2 Ordnen Sie die extrahierten Themen manuell den LinkedIn-Kategorien zu.

Schritt # 3 Verwenden Sie die Ausgabe der ersten beiden Schritte von Firma zu durchqueren ->extrahiert Thema ->linkedin Kategorie

2

Verwenden von Text Klassifizierung ...

Um dies als Klassifizierung Problem behandeln zu können, benötigen Sie ein Trainingssatz, der eine Reihe von AngelList-Einträgen ist, die mit richtigen LinkedIn-Kategorien gekennzeichnet sind. Dies kann manuell erfolgen, oder Sie können etwas Mechanical Turks mieten, um die Arbeit für Sie zu erledigen.

Da Sie ~ 150 Kategorien haben, würde ich mir vorstellen, dass Sie mindestens 20-30 * AngelList Einträge für jede von ihnen benötigen. Ihr Trainingssatz wird also {Eingabe: angellist_description, Ergebnis: linkedin_id}

Danach müssen Sie durch Textklassifikationstechniken graben, um zu versuchen, die Genauigkeit/Genauigkeit Ihrer Ergebnisse zu optimieren. Das Buch "Taming Text" enthält ein vollständiges Kapitel zur Textklassifizierung. Ein gutes Werkzeug zur Implementierung eines textbasierten Klassifikators wäre Apache Solr oder Apache Lucene.

* 20-30 ist eine schnelle persönliche Schätzung und basiert nicht auf einer wissenschaftlichen Methode. Sie können einige Methoden online nach einer guten Schätzmethode suchen.

Verwandte Themen