Ich versuche, alle Zeichen, die nicht alphanumerisch sind, zu extrahieren und auch URLs aus einem Tweet mit Python zu extrahieren. Ich sollte nur mit durch Leerzeichen getrennten Wörtern belassen werden. Zum Beispiel: Wenn mein Tweet ist: "Hallo! Besuche meine Seite unter https://www.tutorialspoint.com/python/python_strings.htm @phyton #phyton" Ich sollte bekommen: "Hallo, schau dir meine Seite an" Danke für die Hilfe!Extrahieren von URLs, Erwähnungen und Hashtags von einem Tweet
-1
A
Antwort
0
Angenommen, Sie haben bereits den Tweet-Text, dann sollte die Verwendung einiger von Pythons integrierten Operationen für Strings in der Lage sein, das zu tun, wonach Sie suchen. Hier ist ein Einzeiler mit Liste Verständnis und die string.translate module:
import string
my_tweet = "Hi! Check out my page at https://www.tutorialspoint.com/python/python_strings.htm @phyton #phyton"
tweet_text = ' '.join([i.lower() for i in my_tweet.split() if not i.startswith(('http', '@', '#'))]).translate(None, string.punctuation)
print tweet_text # hi check out my page at
Verwandte Themen
- 1. Alle Hashtags von einem Tweet abrufen
- 2. Erstellen Sie Links zu Tweet-Text von Entitäten (Hashtags, Links, Erwähnungen ...) von Twitter REST API
- 3. Finde URLs, @Antworten und #Hashtags von Tweets
- 4. die URL und @REPLIES von einem Tweet
- 5. extrahieren Tweet von Twitter API mit Python
- 6. Wie verwendet man Python, um die Erwähnungen zu extrahieren?
- 7. Suche Tweet von Tweet ID in elasticsearch von benutzerdefinierten ID
- 8. Python - Extrahieren Hashtags aus Text; Ende an Interpunktion
- 9. Fehler beim Hashtags von Strings in R Extrahieren
- 10. Wie man Hashtag, Benutzer Erwähnungen & URLs vom Tweet entfernt. Twitter4j Bibliothek (Stimmungsanalyse) funktioniert nicht richtig mit diesen Lärmwörter
- 11. Wie extrahieren URLs mit einem Muster übereinstimmen
- 12. Ersetzen Sie Tweet URLs mit Zeichenfolge
- 13. URLs aus einem String extrahieren mit PHP
- 14. Mit Regex Hashtags aus einem Satz zu analysieren
- 15. php alle Hashtags und Twitter-Namen aus einem Block Text extrahieren
- 16. Einen Datensatz von Fotos und Hashtags von Instagram erhalten
- 17. Wie bekomme ich Tweet ID von Tweet Ereignis
- 18. SQL Server: extrahieren Hashtags aus Spalte des Textes
- 19. Regex zum Teilen von Hashtags, aber ignorieren
- 20. Extract Tweet von URL mit Java?
- 21. Social Sharing von dynamischen URL mit Hashtags
- 22. Falsche URLs im Bereich "Entitäten" des Objekts "Tweet"
- 23. Tweet Text von einer Seite
- 24. Wie man alles von Tweet entfernt, aber reinen Text mit PHP?
- 25. Javascript/jQuery - Parsen Hashtags in einer Zeichenfolge mit Regex, mit Ausnahme von Ankern in URLs
- 26. Wie URLs von einer HTML-Seite in Python zu extrahieren
- 27. wählen und einen Vektor von Indizes von einem Datenrahmen extrahieren
- 28. Extrahieren von Rückgabe- und Argumenttypen von einem Konvertierungsoperator zum Funktionszeiger
- 29. Perl Regex zum Extrahieren von URLs aus HTML
- 30. rvest: extrahieren Tabellen mit URLs anstelle von Text
Es ist Inkonsistenz in Ihrem Beispiel wollen Sie ‚hallo‘ schließen sowohl ‚Phyton‘ auch wenn die Zeichenfolge entfernen ‚Hallo!‘ enthält nicht-alphanumerische Zeichen. Fügen Sie die Zeichenfolge 'Hi' ein, weil es kein Tag wie 'Phyton' ist? – davedwards
Ja, ich nehme Hallo auf, weil es kein Tag ist, es ist ein Wort, aber ich werde die ganze Interpunktion los – tubitubi