Mein Problem ist:Regex csv reinigen von verwirrenden Zeichen
ich eine csv bin mit, die von einigen Software herauskam, und das Problem ist, dass diese Software nicht csv ist der Umgang mit so gut Ursache gibt es einige Zeichenketten sind in die CSV, die in ihnen Zitat haben und was eine Zeichenfolge umschließt, ist auch Anführungszeichen, also habe ich Probleme, es zu analysieren.
so ist das normal csv:
"one","two","three"
und hier ist mein Fall:
"one","tw"o","three"
So Ausgaben Ich habe Strings wie "tw"o"
Parsen. Dies ist im Grunde ein Problem mit der Software, die die Datei ausgibt, und ich kann diese Software nicht bearbeiten.
Also dachte ich, ich könnte eine Regex erstellen, die die unnötigen Anführungszeichen oder Kommas nehmen und sicherstellen, dass jede Zeichenfolge in Anführungszeichen eingeschlossen und durch Komma getrennt ist, weiß jemand, wie kann ich es erreichen?
im tototoshi Bibliothek für scala
Gibt es einen bestimmten Grund, warum Sie Pythons 'csv' Paket nicht verwenden, um die' .csv' Datei zu verarbeiten? –
@WillemVanOnsem im Verwenden von Tototoshi für Scala, aber diese Bibliotheken können es nicht analysieren, da es kein richtiges Format ist ... wenn es "eins", "zwei", "drei" kein Problem war, aber sein "eins", "tw" o "," drei ", also kann die Bibliothek es nicht analysieren – JohnBigs
Warum immer auf reguläre Ausdrücke achten? Auch wenn Sie etwas dafür finden, nehme ich an *, dass das ziemlich schrecklich aussehen könnte. Heck: Sie brauchen ** andere Leute Wie leicht wird es dann sein, dass du diesen Regex im Laufe der Zeit aufrecht erhältst? "Sinn: Manchmal sollte man darüber nachdenken, seinen * eigenen * Parser zu schreiben und die Dinge explizit zu machen, anstatt einen Monsterregex zu erzwingen . – GhostCat