Ich baue ein Werkzeug, um PDFs von CVs zu analysieren, die von Linkedin heruntergeladen wurden. Aber wenn ich das Dokument analysiere, findet leere Zeilen, wo keine für das Auge existieren.Ruby pdf-reader fügt leere Zeilen hinzu, wo keine vorhanden sind, wenn PDF analysiert wird
Ich frage mich, ob das ein Problem mit dem PDF oder dem PDF Reader ist?
Script
require 'pdf-reader'
reader = PDF::Reader.new("CV.pdf")
reader.pages.each_with_index do |page, page_num|
bits = page.text.split("\n")
bits.each_with_index do |bit, index|
puts bit
end
end
Snapshot von CV
Analysierte Ausgabe
Senior Analyst
September 2013 - August 2015 (1 year 11 months)
- Managed a team of analysts to drive operational improvement across all departments of a subsidiary
company, including a 33% increase in conversions on their e-commerce platform and a 8% decrease in
logistics costs within my first year
Sie werden im ausgegebenen Text bemerken, dass eine leere Zeile zur Mitte des Satzes hinzugefügt wird.
Es scheint seltsam, denn wenn man sich den Screenshot der PDF anschaut, scheint er keine leere Zeile zu haben, in der der PDF-Reader einen findet.
Hat jemand Erfahrung mit dem, was dies verursachen könnte?