Ich möchte alle Bindestriche im Textdokument löschen, die ich in Rapidminer analysiere. Dafür benutze ich den Operator "Dokumente aus Dateien verarbeiten", um große PDF-Dateien zu analysieren. Jede Datei enthält eine Menge Bindestriche, die ich löschen möchte, bevor ich den Text in Stücke (keine Buchstaben) zerlege. Ich habe den Operator "Token ersetzen" verwendet. Damit kann ich Bindestriche durch andere Symbole ersetzen, aber ich kann sie nicht durch nichts oder eine leere Zeichenfolge ("") ersetzen. Ich habe auch versucht, mein eigenes Wörterbuch von Stoppwörtern (Nicht-Buchstaben, -) zu verwenden. Dieser Operator arbeitet überhaupt nicht. Ich habe mein Wörterbuch mit den Zeichen und Wörtern, die ich löschen möchte, als Textdatei gespeichert (jeweils in der neuen Zeile). Kann jemand zu diesem Thema helfen?Lösche Bindestrich (Sonderzeichen) während der Textverarbeitung in RapidMiner
0
A
Antwort
0
Sie können Replace Tokens
mit den folgenden Parametern verwenden.
replace what
()[-]
replace by
$1
Es ist ein bisschen wie ein Hack, aber es funktioniert, weil die erste Erfassungsgruppe zwischen den Klammern immer leer sein wird, und der gesamte reguläre Ausdruck einen einzigen Bindestrich entspricht. Das $1
ist das Ergebnis der ersten Erfassungsgruppe und es ist immer leer.
Hier ist ein Beispielprozess, der das funktioniert zeigt.
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<process version="7.0.000">
<context>
<input/>
<output/>
<macros/>
</context>
<operator activated="true" class="process" compatibility="7.0.000" expanded="true" name="Process">
<process expanded="true">
<operator activated="true" class="text:create_document" compatibility="7.0.000" expanded="true" height="68" name="Create Document" width="90" x="246" y="187">
<parameter key="text" value="some text with some-text-with-hyphens-in hyphens in "/>
</operator>
<operator activated="true" class="text:replace_tokens" compatibility="7.0.000" expanded="true" height="68" name="Replace Tokens" width="90" x="447" y="187">
<list key="replace_dictionary">
<parameter key="()[-]" value="$1"/>
</list>
</operator>
<operator activated="true" class="text:process_documents" compatibility="7.0.000" expanded="true" height="103" name="Process Documents" width="90" x="648" y="187">
<parameter key="vector_creation" value="Term Occurrences"/>
<process expanded="true">
<operator activated="true" class="text:tokenize" compatibility="7.0.000" expanded="true" height="68" name="Tokenize" width="90" x="179" y="85"/>
<connect from_port="document" to_op="Tokenize" to_port="document"/>
<connect from_op="Tokenize" from_port="document" to_port="document 1"/>
<portSpacing port="source_document" spacing="0"/>
<portSpacing port="sink_document 1" spacing="0"/>
<portSpacing port="sink_document 2" spacing="0"/>
</process>
</operator>
<connect from_op="Create Document" from_port="output" to_op="Replace Tokens" to_port="document"/>
<connect from_op="Replace Tokens" from_port="document" to_op="Process Documents" to_port="documents 1"/>
<connect from_op="Process Documents" from_port="example set" to_port="result 1"/>
<portSpacing port="source_input 1" spacing="0"/>
<portSpacing port="sink_result 1" spacing="0"/>
<portSpacing port="sink_result 2" spacing="0"/>
</process>
</operator>
</process>
Hoffe, dass hilft als Grundlage.
Verwandte Themen
- 1. Schnellere Textverarbeitung in BASH
- 2. RapidMiner Tag der Woche abrufen
- 3. Rapidminer Klassifizierung
- 4. Code der Modellauswahl in rapidminer mo
- 5. Haskell schnelle Textverarbeitung
- 6. Kosten/Nutzen der multi-threaded Textverarbeitung
- 7. Verbesserung der Effizienz für diese Textverarbeitung Code
- 8. konvertieren Em-Bindestrich in Bindestrich in Python
- 9. Runtime pompt für Rapidminer
- 10. Python-Textverarbeitung: NLTK und Pandas
- 11. Regex vs readline für Textverarbeitung
- 12. Wie formatieren Datum/Uhrzeit-Attribute in rapidminer
- 13. RapidMiner mehrere Join-Operator
- 14. Wie lösche ich Zeichen in der Konsole
- 15. rapidminer und Sentiment-Analyse
- 16. RapidMiner TimeStamp Vorverarbeitung
- 17. Bindestrich in CamelCase konvertieren
- 18. Konvertieren der Sonderzeichen in HttpContext in Zeichenfolge
- 19. Ersetzen Sie alle Leerzeichen und Sonderzeichen durch Bindestrich in URL mit PHP Sprache
- 20. Einfügen von Bindestrich (-) automatisch während der Eingabe eines SSN in ein Textfeld mit jQuery
- 21. Sonderzeichen in der LaTeX-Tabellenbeschriftung
- 22. Sonderzeichen in der Datei web.config
- 23. Sonderzeichen in der flyway.conf Passwort
- 24. Erstellen eines Pareto-Diagramms in RapidMiner
- 25. entfernen Sie Leerzeichen, Punkte und Sonderzeichen aus einer Zeichenfolge und ersetzen mit Bindestrich in jQuery
- 26. Regex für Wörter durch Bindestrich und Unterstrich verbunden, während Interpunktion beibehalten
- 27. Umgang mit Spaltennamen mit Sonderzeichen wie (,), $,% und Leerzeichen während der Abfrage in der Hive-Ansicht
- 28. Zeilenumbruch nach Bindestrich
- 29. Eingeschränktes Sonderzeichen und eingefügte Zeichen
- 30. R gsub mit Sonderzeichen
Vielen Dank! Es funktioniert perfekt! – In777