2016-06-10 3 views
0

Ich muss alle Textzonen einer Zeitung automatisch erkennen, die auf Kanten basieren (neue Ideen sind willkommen).Artikelzone der Zeitung erkennen (Textblock)

Das Ergebnis, das ich brauche, ist viele TXT-Datei, die jeweils einen Artikel enthält. Werfen Sie einen Blick auf diese Demonstration.

enter image description here

+2

Ich gehe davon aus, dass Sie etwas zu diesem Thema recherchiert haben, bevor Sie hierher gekommen sind und etwas ausprobiert haben, oder? Was hast du versucht und was war das Ergebnis? –

+0

Ja Ja Mann Ich fand nichts, was mir half, das Ergebnis zu erreichen ... alles was ich fand war für C#: '( alles was ich brauche ist, dass meine Anwendung erkennt, dass es 5 Artikel in dieser Seite gibt und Unterschiede zwischen sie ... nach dem Titel und dem Inhalt Text, um sie in TXT-Datei zu speichern. – Algerowalid

+0

Die Implementierung Sprache ist irrelevant: Dies ist ein Algorithmus-Problem, das in jeder Sprache behandelt werden könnte.Es gibt Papiere, die dies abdecken, würde ich vorschlagen entweder im Internet suchen oder eine Mitgliedschaft für etwas wie die digitale Bibliothek des ACM bekommen - die meisten Zeitungen dort sind kostenlos verfügbar, aber sie sind viel einfacher im ACM DL zu finden. –

Antwort

0

Diese Frage ist viel zu breit.

Wenn Sie eine richtige Antwort wollen, dann müssen Sie sehr spezifische Fragen stellen und uns zeigen, was Sie versucht haben. Wir wissen nicht einmal, mit welchen Formaten Sie arbeiten müssen, daher können wir Ihnen keine andere Hilfe bieten als Raten.


Having said that:

Sie wahrscheinlich in mit image recognition software zu suchen.

Eine gute API zu schauen ist OpenCV: http://opencv.org/

Hier ist eine Anleitung, wie man OpenCV verwenden, um mit Java: http://docs.opencv.org/3.0-last-rst/doc/tutorials/introduction/desktop_java/java_dev_intro.html


Und hier sind zwei ähnliche Fragen, die Ihnen helfen können:

Finding location of rectangles in an image with OpenCV

How to recognize rectangles in this image?

+0

Vielen Dank für die Tour Antwort und sorry über meine Frage Was ich will zu tun ist: - eine PDF-Datei (genau Zeitungsdokument) - Anwendung wird automatisch Zeitungsartikel erkennen. - Holen Sie sich jeden Artikel und speichern Sie es in XML-Dokument (dieser Punkt ist der einfachste lol) So wie kann ich jede Bibliothek zu erkennen, zuerst die Blöcke Text (Zeitungsartikel), und zweitens, um Text und Position zu bekommen. Vielen Dank für die Links, ich bin Goind, sie jetzt zu versuchen. – Algerowalid