: Hier ist meine aktuellen Code (21.233.664 Zeichen) istunerwünschte Zeichen entfernen aus einer riesigen EDIT Datei
string str = myInput.Text;
StringBuilder sb = new StringBuilder();
foreach (char c in str)
{
if ((c >= 'a' && c <= 'z') || c == '_' || c==' ')
{
sb.Append(c);
}
}
output.Text = sb.ToString();
Lassen Sie uns sagen, dass ich eine große Textdatei haben, die mit Unterstrichen Sonderzeichen und normale Ausdrücke enthält.
Hier sind ein paar Beispiele für die Saiten, die ich suche:
- super_test
- Test
- another_super_test
Wie Sie sehen können, nur Kleinbuchstaben Buchstaben sind mit Unterstrichen zulässig. Nun, wenn ich diese Zeichenfolge in einer Textdatei, die wie folgt aussieht:
> §> ˜;@ ®> l? super_test D>ÿÿÿÿ “G? tI> €[> €? È
Das Problem, das ich mit Blick auf bin ist, dass einige einsamen Briefe noch gerettet werden. In dem oben angegebenen Beispiel würde der Ausgang sein:
l super_test t
Um dieses Zeichen zu erhalten geritten, ich muß die ganze Datei erneut durchlaufen, aber hier ist meine Frage: wie kann ich wissen, ob ein Brief einsam ist oder nicht?
Ich bin mir nicht sicher, ob ich die Möglichkeiten mit Regex verstehe, also wenn mir jemand einen Hinweis geben könnte, würde ich es wirklich schätzen.
Ich denke, es ist ziemlich sicher zu sagen, dass ein Brief einsam ist, wenn es :-) – dasblinkenlight
weint Wie " einsam "reden wir? Sie können Ihrem Regex eine Mindestlänge hinzufügen. – AntiTcb
Wie groß ist "riesig"? Wie machst du die Filterung, die du zeigst? –