Python - Extrahieren einer Liste von Sub-Strings

Wie extrahiert man eine Liste von Sub-Strings basierend auf einigen Mustern in Python?Python - Extrahieren einer Liste von Sub-Strings

zum Beispiel

str = 'this {{is}} a sample {{text}}'.

erwartetes Ergebnis: eine Python-Liste, die enthält ‚ist‘ und ‚Text‘

Quelle

2010-12-21 Sivasubramaniam Arunachalam

Möchten Sie nur Teilstrings extrahieren, die in doppelt geschweiften Klammern angezeigt werden? –

@Rafe Ja. Ich brauche nur die Zeichenfolge in diesen geschweiften Klammern. –

Es ist generell keine gute Idee, eine Variable 'string' zu nennen, da es sich um ein häufig verwendetes Python-Modul handelt. –

>>> import re 
>>> re.findall("{{(.*?)}}", "this {{is}} a sample {{text}}") 
['is', 'text']

Quelle

2010-12-21 17:57:18

Funktioniert dieselbe Logik für '[[ist]]'? –

@Siva: Du musst den [s entkommen, weil sie eine Bedeutung innerhalb des regulären Ausdrucks haben: 're.findall (r" \\ [\ ([*])]] "," das ist [[ist] ]] ein Beispiel [[Text]]. ")' – geoffspear

Sie können einen regulären Ausdruck verwenden, etwas zu entsprechen, die zwischen {{ und }} auftreten. Geht das so für dich?

Im Allgemeinen, zum Markieren bestimmter Strings in einem großen Textkörper, wird suffix tree nützlich sein.

Quelle

2010-12-21 17:55:16

Sie verwenden die folgenden:

res = re.findall("{{([^{}]*)}}", a) 
print "a python list which contains %s and %s" % (res[0], res[1])

Prost

Quelle

2010-12-21 17:58:44 Morlock

Sie müssen '% r' anstelle von'% s' verwenden, sonst erhalten Sie die Anführungszeichen nicht;) – nils

Danke, das wusste ich nicht. Normalerweise hätte ich das Format ('') beispielsweise in die Druckzeichenfolge ('% s') geschrieben. Prost – Morlock

"einige Muster" bedeutet "einzelne Wörter zwischen Doppel {} s" Unter der Annahme:

import re

re.findall ('{{(\ w *)}}', Zeichenkette)

Bearbeiten: Andrew Clarks Antwort implementiert "eine beliebige Zeichenfolge überhaupt zwischen Doppel {}"

Quelle

2010-12-21 17:59:45

Eine Regex-basierte Lösung ist in Ordnung für Ihr Beispiel, obwohl ich etwas robuster für kompliziertere Eingabe empfehlen würde.

import re 

def match_substrings(s): 
    return re.findall(r"{{([^}]*)}}", s)

Die Regex von innen nach außen:

[^}] passt alles, was im Inneren Doppel die oben nicht ein ‚}‘ ist
([^}]*) eine beliebige Anzahl von nicht} Zeichen und gruppiert sie
{{([^}]*)}} legt Klammern

Ohne die Klammern oben würde re.findall die gesamte Übereinstimmung zurückgeben (dh ['{{is}}', '{{text}}']. Wenn die Regex jedoch eine Gruppe enthält, wird findall t verwenden Hut stattdessen.

Quelle

2010-12-21 18:01:58

Python - Extrahieren einer Liste von Sub-Strings

Antwort

Verwandte Themen