Ich habe ein Dataset, in dem der Titel einer Spalte lautet: "Was ist Ihre Position und Zeitzone?"Extrahieren von Städtenamen aus Text mit Python
Dies hat dazu geführt, dass wir Einträge wie
haben- Dänemark, CET
- Lage ist Devon, England, GMT Zeitzone
- Australien. Australische Eastern Standardzeit. + 10h UTC.
und sogar
- Mein Standort ist Eugene, Oregon die meiste Zeit des Jahres oder in Seoul, Südkorea abhängig von der Schulferien. Meine primäre Zeitzone ist die Pazifik-Zeitzone.
- Für den gesamten Mai werde ich in London, Vereinigtes Königreich (GMT + 1) sein. Für den gesamten Juni werde ich entweder in Norwegen (GMT + 2) oder Israel (GMT + 3) mit begrenztem Internetzugang sein. Für den gesamten Juli und August werde ich in London, Vereinigtes Königreich (GMT + 1) sein. Und dann von September 2015 werde ich in Boston, USA (EDT)
Gibt es sein, eine Möglichkeit, die Stadt, das Land und die Zeitzone von diesem zu extrahieren?
Ich dachte daran, ein Array (aus einem Open-Source-Datensatz) mit allen Ländernamen (einschließlich Kurzformen) und auch Städtenamen/Zeitzonen zu erstellen und dann, wenn ein Wort im Datensatz mit einer Stadt/Land übereinstimmt/Zeitzone oder Kurzform füllt es dies in eine neue Spalte im selben Datensatz und zählt sie.
Ist das praktisch?
=========== REPLT BASED ON NLTK ANTWORT ============
gleichen Code wie Alecxe Laufen I
Traceback (most recent call last):
File "E:\SBTF\ntlk_test.py", line 19, in <module>
tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences]
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\__init__.py", line 110, in pos_tag
tagger = PerceptronTagger()
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\perceptron.py", line 141, in __init__
self.load(AP_MODEL_LOC)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\perceptron.py", line 209, in load
self.model.weights, self.tagdict, self.classes = load(loc)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\data.py", line 801, in load
opened_resource = _open(resource_url)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\data.py", line 924, in _open
return urlopen(resource_url)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 154, in urlopen
return opener.open(url, data, timeout)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 431, in open
response = self._open(req, data)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 454, in _open
'unknown_open', req)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 409, in _call_chain
result = func(*args)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 1265, in unknown_open
raise URLError('unknown url type: %s' % type)
URLError: <urlopen error unknown url type: c>
Wie funktioniert das? scheint wie Zauberei – Keatinge
@Racialz 'nltk' ist oft überraschend! Ich bin weit davon entfernt, Experte für NLP zu sein, habe aber versucht, weitere Erklärungen und Links zur weiteren Lektüre hinzuzufügen. Danke, dass Sie nach den Details gefragt haben! – alecxe
Brilliant.Ich wusste nichts über NTLK - ich werde experimentieren und dann (hoffentlich) die Antwort akzeptieren :-) – GeorgeC