Ich habe Quelltext, der nicht besonders sauber oder gut geformt ist, aber ich muss Text finden und eine Zeile in ein Tag umbrechen. Der Text ist im Gliederungsformat.Regex zum Erfassen und Umbrechen von Umriss formatiertem Text
1. becomes a <h1> tag
A. becomes a <h2> tag
(1) becomes a <h3> tag
and so on...
Hier sind einige Beispiele für die Quelle.
- FÜR TEST A. Bereiten Sie die Tür öffnen. B. Schalten Sie das Licht ein.
würde das gewünschte Ergebnis
<h1>1. PREPARE FOR TEST</h1>
<h2>A. Open the door.</h2>
<h2>B. Turn on the light.</h2>
Leider ist der Text die gleiche Linie sein könnte oder es könnte auf mehreren Zeilen oder sogar eine unterschiedliche Anzahl von Räumen zwischen der Gliederungsnummer hat und die Text. Ein weiteres Beispiel
(1) Überprüfen Lufteinlaß und Luftauslaß Ventile geöffnet werden angezeigt, wenn OAT oben ist> 53,6 Grad F., oder geschlossen, wenn OAT unter
48,2 Grad F.
In diesem Fall wird das gewünschte Ergebnis würde
<h3>(1) Check skin air inlet and skin air outlet valves are shown open if temperature is above 53.6 deg F., or closed if temperature is below 48.2 deg F.</h3>
Meine Fragen sind sein
- Wie finde ich eine ganze Textzeile, die mit einer Gliederungsstufe verknüpft ist, d. H. 1., A., (1) und so weiter.
- Wie wickle ich dann diesen Text mit dem entsprechenden Tag.
Ich bin nicht besonders stark bei Regex, ich war in der Lage, einige der einfacheren Dinge dieses Projekts zu tun, aber das hat mich ein wenig ratlos. Hier ist, was ich versucht habe, um die H1-Zeilen zu finden, aber wie jeder, der Regex kennt, sehen kann, wird dies nicht nach dem ersten Wort funktionieren.
\ d {1,3}. \ S + [AZ] {2,}
Ich verwende Python im Moment, aber ich besser mit PHP und kann, dass bei Bedarf beweglich und kann immer noch, weil ich bei PHP besser bin als Python.
Vielen Dank.
Hat Ihre Quelldatei newline oder nicht? –
Kann nicht auf einen Zeilenumbruch zählen. Wir konvertieren PDFs in Text und versuchen dann, es auszuwerten. –
** Nicht klar genug ** Wo Sie gesagt haben: * Hier sind einige Beispiele für die Quelle. * Es hat keine neue Zeile –