2017-05-13 5 views
0

Ich baue ein Werkzeug, um PDFs von CVs zu analysieren, die von Linkedin heruntergeladen wurden. Aber wenn ich das Dokument analysiere, findet leere Zeilen, wo keine für das Auge existieren.Ruby pdf-reader fügt leere Zeilen hinzu, wo keine vorhanden sind, wenn PDF analysiert wird

Ich frage mich, ob das ein Problem mit dem PDF oder dem PDF Reader ist?

Script

require 'pdf-reader' 

reader = PDF::Reader.new("CV.pdf") 

reader.pages.each_with_index do |page, page_num| 
    bits = page.text.split("\n") 

    bits.each_with_index do |bit, index| 
     puts bit 
    end 
end 

Snapshot von CV

enter image description here

Analysierte Ausgabe

Senior Analyst 
September 2013 - August 2015 (1 year 11 months) 
    - Managed a team of analysts to drive operational improvement across all departments of a subsidiary 

    company, including a 33% increase in conversions on their e-commerce platform and a 8% decrease in 
    logistics costs within my first year 

Sie werden im ausgegebenen Text bemerken, dass eine leere Zeile zur Mitte des Satzes hinzugefügt wird.

Es scheint seltsam, denn wenn man sich den Screenshot der PDF anschaut, scheint er keine leere Zeile zu haben, in der der PDF-Reader einen findet.

Hat jemand Erfahrung mit dem, was dies verursachen könnte?

Antwort

0

Nach anderen Bibliotheken versuchen, es scheint das Problem war, nicht das PDF.

Also entschied ich mich für ein weiteres Juwel namens Yomu (siehe: https://github.com/Erol/yomu), die das Problem vermieden.

Es ist ein wenig langsamer, aber akzeptabel angesichts der erhöhten Vorhersagbarkeit der Ausgabe.

Verwandte Themen