Ich bin auf der Suche nach Code schreiben, die visuelle Analyse von Webseiten, vorzugsweise mit Ruby. Mein Code muss in der Lage sein, die obere, linke, Breite, Höhe, Hintergrundfarbe, Farbe und Schriftgröße für alle Elemente im DOM zu bestimmen. Natürlich können diese Werte nur berechnet werden, wenn alle CSS angewendet wurden. Also, ich denke nicht, dass Nokogiri für den Job bereit ist. Letztendlich versuche ich, diese Daten in einem VIPS-ähnlichen (Vision-Based Page Segmentierung) Algorithmus zu verwenden, um den Hauptinhalt in heruntergeladenen Nachrichtenartikeln zu finden.visuelle Analyse von Webseiten in Ruby
Ich habe erwogen, Watir für Chrome oder Firefox zu verwenden und dann die Daten zu extrahieren. Das Problem ist, dass Browser nicht kopflos durch Watir laufen können (glaube ich). Letztendlich wird dieser Code auf einem Array von Linux-Servern in einem Rechenzentrum ausgeführt. Daher wird der Code keinen einfachen Zugriff auf einen X-Server haben, um den Browser anzuzeigen.
Ich nehme an, eine Lösung besteht darin, Watir zu verwenden und einen kopflosen X-Server auf den Linux-Servern auszuführen. Das ist ein bisschen schmerzhaft, aber es sieht momentan nach meiner besten Option aus.
Hat jemand bessere Ideen?
Will Selen gelten CSS-Styling? –
Ja, da es einen echten Browser statt XML treibt. – regularfry