Features, die allen Regex-Varianten gemeinsam sind?

Ich habe eine Menge von Gemeinsamkeiten in regex Fähigkeiten verschiedener regex-fähigen Tool/Sprachen (zum Beispiel Perl, Sed, java, vim, etc.) gesehen, aber ich habe auch viele Unterschiede.Features, die allen Regex-Varianten gemeinsam sind?

Gibt es eine Standard Teilmenge von Regex-Funktionen, die alle Regex-fähigen Tools/Sprachen unterstützen? Wie unterscheiden sich Regex-Funktionen zwischen Tools/Sprachen?

Quelle

2008-08-27 Ben Lever

Vergleichen Regular Expression Flavors

http://www.regular-expressions.info/refflavors.html

Quelle

2008-08-27 13:08:30

http://en.wikipedia.org/wiki/Comparison_of_regular_expression_engines
Noch detaillierter: http://www.regular-expressions.info/refflavors.html

Quelle

2008-08-27 13:07:45 kokos

Wenn Sie die grep regexp Grammatik nahm, nicht die egrep eine oder die sed regexp Grammatik und verwendet, dass Sie sollten eine sichere Teilmenge für viele Plattformen und Tools verwenden.

Über die einzige Sache, die Sie dann beißen können, ist wenn Sie zwischen Regexp-Implementierungen mit Finite-State-Automaten (FSA) und denen mit Backtracking, z. Quantifier-Implementierungen variieren von grep zu Perl.

FSA-basierte Implementierungen finden die längste Übereinstimmung ab der ersten möglichen Position. Backtracking-Spieler finden das linksbündige erste Match, beginnend bei der ersten möglichen Position. Das heißt, es wird jede Verzweigung in der Reihenfolge in dem Muster versuchen, bis eine Übereinstimmung gefunden wird.

Betrachten Sie die Zeichenfolge "xyxyxyzz" und das Muster "(xy)*(xyz)?". FSA-basierte Engines stimmen mit dem längsten möglichen Teilstring überein, "xyxyxyz". Backtracking-basierte Engines stimmen mit dem linksbündigen ersten Teilstring "xyxyxy" überein.

Quelle

2008-08-27 13:14:23

"nicht endliche Entscheidungsautomaten". Mein Computer hat nur endlichen Speicher; Wie hält es ein unendliches $ THING? Ich denke, du könntest s/endlich/deterministisch/g bedeuten. –

Die meisten regulären Ausdruck Tools/Sprachen unterstützen diese basic capabilities:

Charakterklassen/Sets und ihre Negation - []
Anker -^$
Makeln - |
Quantifizierer -? * + {N, m}
Metazeichen - \ w, \ s \ d, ...
Rückverweise - \ 1 \ 2, ...
Dot -.
Einfache Modifikatoren wie/g und/i für die globale und ignorieren Fall
Escaping Charaktere

Fortgeschrittenere Tools/Sprachen unterstützen:

Lookaheads und behinds
POSIX Zeichenklassen
Wortgrenzen
Inline-Schalter wie Gehäuse zulassen nsitivity nur für einen kleinen Teil der Regex
Modifikatoren wie/x zusätzliche Formatierung und Kommentare zu ermöglichen,/m für mehrzeilige
Benannte Captures
Unicode

Quelle

2008-08-27 13:15:30

Einige einfache Implementierungen (z. B. in Scintilla/SciTE) unterstützt nicht einmal Alternierung oder einige Quantifizierer (? Und {}). – PhiLho

Es gibt keinen Standard-Motor. Das POSIX Extended Regular Expression-Format ist jedoch eine gültige Teilmenge der meisten Engines und ist wahrscheinlich so ähnlich wie eine standardisierte Teilmenge.

Quelle

2008-08-27 13:17:22

Siehe Emacs regulären Ausdruck Syntax: http://www.gnu.org/software/emacs/manual/html_node/emacs/Regexps.html#Regexps.

Ich erinnere mich zu lesen, dass Emacs-Syntax in Stein gemeißelt ist (aus Gründen der Rückwärtskompatibilität), also wenn Sie mit alles kompatibel sein wollen, machen Sie alles kompatibel damit. Einige Tools unterstützen dies, andere nicht.

Während Sie ein lohnendes Ziel haben, denke ich, dass es sehr schwer zu erreichen sein wird, und ich habe auch festgestellt, dass Emacs 'RegExps ein Schmerz ist, mit dem man arbeiten kann. Vielleicht 99% von allem ist gut genug, wenn es dich glücklicher und produktiver macht?

Quelle

2009-05-18 13:47:50

Features, die allen Regex-Varianten gemeinsam sind?

Antwort

Verwandte Themen