Ich versuche, einen Text in Sätze zu teilen, wenn ein Terminal Satzzeichen ('.', '!', '?') Erscheint. wenn ich zum Beispiel haben Sie den folgenden Text:Teilen von Text in Sätze mit Python
Anerkennung der steigenden Gelegenheit Jerusalem Venture Partners öffneten ihre Cyber Labs Inkubator auf, um ein Haus zu vielen der Stadt vielversprechende junge Unternehmen geben. Internationale Konzerne wie EMC haben auch etablierten großen Zentren im Park, der Weg für andere zu folgen! Bei einem Besuch im vergangenen Juni war der Park bereits auf zwei Gebäude mit dem Boden für den Bau von mehr in die nahe Zukunft Zukunft. das ist wirklich interessant!was denkst du?
Dies soll (siehe oben die kühnen Worte, wie diese Worte mit einem Satzzeichen enden) in 5 Sätze aufgeteilt werden.
Hier ist mein Code:
# split on: '.+'
splitted_article_content = []
# article_content contains all the article's paragraphs
for element in article_content:
splitted_article_content = splitted_article_content +re.split(".(?='.'+)", element)
# split on: '?+'
splitted_article_content_2 = []
for element in splitted_article_content:
splitted_article_content_2 = splitted_article_content_2 + re.split(".(?='?'+)", element)
# split on: '!+'
splitted_article_content_3 = []
for element in splitted_article_content_2:
splitted_article_content_3 = splitted_article_content_3 + re.split(".(?='!'+)", element)
Meine Frage ist, gibt es eine andere effiziente Möglichkeit, folgendes zu tun, ohne alle externen Bibliotheken?
Danke für die Hilfe Jungs.
Aber ... Sie _aren't_ mit beliebigen externen Bibliotheken als 're' ist ein Teil von Pythons Standardbibliothek. – ForceBru
Könntest du nicht einfach 're.split (r '[\.!?]', Artikel)' '? –
@RocketHazmat article_content ist eine Liste von Absätzen .. Split funktioniert auf einer Liste? –