Hallo, ich stolperte über ein Problem im Zusammenhang mit regulären Ausdrücken, die ich nicht lösen kann.Ein regulärer Javascript-Ausdruck, um die Abfrage zu token
Ich brauche die Abfrage (split-Abfrage in Teile) tokenize an, dass die folgenden ein als Beispiel:
These are the separate query elements "These are compound composite terms"
Was ich brauche, schließlich ist eine Reihe von 7-Token haben:
1) These
2) are
3) the
4) separate
5) query
6) elements
7) These are compound composite term
Das siebte Token besteht aus mehreren Wörtern, da es sich in doppelten Anführungszeichen befand.
Meine Frage ist: Ist es möglich, die Eingabezeichenfolge entsprechend den obigen Erläuterungen unter Verwendung eines regulären Ausdrucks zu tokenisieren?
bearbeiten
Ich war neugierig Möglichkeit Regex.exec
oder ähnlichen Code statt split
verwenden, während das gleiche zu erreichen, also habe ich einige Untersuchungen haben, die von another question here folgte. Und so wie eine andere Antwort auf eine Frage kann eine folgende regex verwendet werden:
(?:")(?:\w+\W*)+(?:")|\w+
Mit dem folgenden Einzeiler Nutzungsszenario:
var tokens = query.match(/(?:")(?:\w+\W*)+(?:")|\w+/g);
Hoffe, dass es nützlich sein wird ...
Oh, ich habe versucht, die Werte statt Aufspalten der Zeichenfolge abfragen ... – Lu4
Aber in diesem Fall müssen Sie doppelte Anführungszeichen um '„Es handelt sich um Verbindung Verbund Begriff“'. Ich dachte, du brauchst keine Zitate. –
Das würde auch funktionieren, der Hauptpunkt ist die Leistung – Lu4