Ich habe N verschiedene Schlüsselwörter, die ich verfolgen (aus Gründen der Einfachheit, lassen Sie N = 3). In GET status/filter gebe ich also 3 Schlüsselwörter im "track" -Argument.Filterung von Tweets empfangen von Status/Filter (Streaming-API)
Jetzt können die Tweets, die ich bekomme, von jedem der 3 Schlüsselwörter sein, die ich erwähnte. Das Problem ist, dass ich lösen möchte, welcher Tweet mit welchem Schlüsselwort übereinstimmt. , d. H. Zuordnung zwischen Tweets und den Schlüsselwörtern (die im "track" -Argument erwähnt werden).
Anscheinend gibt es keine Möglichkeit, dies zu tun, ohne die erhaltenen Tweets zu bearbeiten.
Also ich frage mich, was ist der beste Weg, um diese Verarbeitung zu tun? Suche nach Schlüsselwörtern im Text des Tweet? Was ist mit Groß- und Kleinschreibung? Was ist, wenn mehrere Wörter in demselben Schlüsselwort vorhanden sind, z. B .: "Katrina Kaif"?
ich derzeit versuche, einige reguläre Ausdrücke zu formulieren ...
ich war die beste Art und Weise denken würde die gleiche Logik (reguläre Ausdrücke etc.) zu verwenden, wie ursprünglich Status/Filter-API verwendet wird. Wie kann man wissen, welche Logik von Twitter-API-Status verwendet wird/Filter selbst, um Tweets mit den Keywords zu verknüpfen?
Beratung? Hilfe?
PS: Ich verwende Python, Tweepy, Regex, MongoDB/Apache S4 (für Distributed Computing)
Für größere N regelmäßige Ausdruck könnte ziemlich schmerzhaft sein. Der einfachste Weg wäre, den Text in Kleinbuchstaben und für jeden Keyword-Check-Tweet zu transformieren. Wenn Sie nach einer genauen Übereinstimmung suchen möchten, können Sie Ihre Tweets mit einem Token versehen und die Schnittmenge von Keyword-Set und Token-Set erhalten. Die Schnittmenge sind die Schlüsselwörter, die dem Tweet entsprechen. – cubbuk
@cubbuk: Derzeit habe ich N = 100. Es ist besser, nur im "Text" -Teil des Tweets nach einem Schlüsselwort zu suchen, oder? – user1599964
Ja, soweit ich weiß, dass Twitter nur dem Textteil des Tweets entspricht, ist es besser, den Textteil zu überprüfen. – cubbuk