Ich arbeite mit einem Einzelhandelsdatensatz, der eine Größenbeschreibungsspalte hat. Meine Aufgabe ist es, die Spalte zu säubern und die numerische Größe von den Zeichen in der Zeichenfolge zu trennen. Gibt es eine Möglichkeit, dies über reguläre Ausdrücke zu tun? Ich muss die Nummer und jede andere in der Spalte vorhandene Zeichenfolge in zwei verschiedenen Spalten speichern.Regulärer Ausdruck in R: extrahiere Zeichen und Zahlen aus einer Spalte
Beobachtungen über die Daten:
- Die Spalte enthält Größen von drei Kategorien: Schuhe, TOPS und unten zu tragen.
- Schuhe: Die Nummer in der Zelle ist in der Regel die Größe und alles andere als das getrennt gespeichert werden soll. Die einzigartigen Fälle sehen aus wie - EU 36 (EU sagt seine europäische Größe, also Konvertierung ist erforderlich), UK 8 (ähnliche Konvertierung erforderlich), 19 Wide, 10 Kids, 19 (-25F) (in diesem Fall muss ich wirklich nicht speichern -25F info).
- Topwear: Die Größen hier sind in der Regel XXS, XS, S, M, L, XL, XXL, XXXL. Jede andere Saite wie Tall, Inseam usw. muss separat gelagert werden. Auch eine Größe wie XXL kann auch als 2XL dargestellt werden.
- Bottomwear: Größe tritt hier im Allgemeinen am Anfang auf. Es kann eine Zahl sein - 32 oder ein Zeichen - XL (ähnlich wie Topwear). Wenn eine andere Zeichenfolge folgt, sollte diese separat gespeichert werden.
Vielen Dank!
Können Sie bitte mehr von den Daten zeigen? Die Verwendung von 'regulärem Ausdruck' erfordert ein Muster und nur eine Textzeile reicht nicht aus, um ein konsistentes Muster zu erzeugen. – Abdou
Ja, zeigen Sie mindestens drei Zeilen der Eingabe an und zeigen Sie auch, wie die Ausgabe, die der Eingabe entspricht, aussehen sollte. Zeigen Sie auch den Code für alle Versuche, die Sie vorgenommen haben. –
Sie müssen uns auch angeben (wenn nicht schon für Sie selbst), ob das "F", Zoll-Doppelzitat und Grad-Zeichen ohne Rücksicht auf die Reihenfolge in der Datenzeile erkannt werden müssen. –