Ich versuche, ein Stück Gesetzgebung zu kratzen. Hier ist ein Auszug aus dem Code:Nokogiri ersetzen beliebige Knoten
<h5>
<span class="expanderComparator clickable"> </span>
<span class="context-menu"> </span>
<a href="index.html#a340">
<strong>Art. 340</strong>
</a>
<sup>
<a href="#fn-#a340-1">1</a>
</sup>
<a href="index.html#a340">Mesures conservatoires</a>
</h5>
Dieses Stück Code wird für jeden Artikel wiederholt (kann über tausend), aber seine Struktur folgt im Wesentlichen das gleiche Muster.
Ich versuche, ein Array als solche zu bauen:
a340 = { 'number' => '340', 'title' => 'Mesures conservatoires'}
So offensichtlich ich Nokogiri sah, die angemessen zu sein scheint. Hier sind die Probleme aber:
dieses Stück
<sup><a href="#fn-#a340-1">1</a></sup>
durch ein Leerzeichen ersetzt werden muss (“„) =>h1 = @doc.at_xpath "//sup/a" h1.content = " "
alle
span
unda
Tags benötigenschließlich entfernt werden , behalte nur, was innerhalb des Tags
h5
ist (weil es auch andere Bloat gibt, die nicht benötigt werden) =>.css("h5").text
Ich konnte im Wesentlichen alle oben genannten erreichen, aber irgendwie bin ich nicht in der Lage, sie in eine logische Software zu verketten.
Jede Hilfe würde sehr geschätzt werden!
Caveat: es braucht nur reinen Rubin sein, so dass keine Schienen :(
Was ist die Ressource, die versucht zu scrapen ?, um zu sehen, ob es ein Muster gibt, und wenn du sagst, du willst ein Array erstellen, das ist ein Hash oder willst du ein Array von Hashes erstellen ?, auch wenn die Zahl 340 ist , und das Objekt a340, ist der Name auch Variable? –
Hier ist ein Link zur Quelle: https://www.admin.ch/opc/fr/classified-compilation/20061121/index.html Ich ziele in der Tat auf eine Reihe von Hashes, speziell ein Array oder Artikel. Der Name des Objekts ist auch eine Variable (dh es ist eine Iteration eines Artikels) –