PDF to Semantic Text

Piccola implementazione di un parser PDF,l’articolo è una bozza in corso d’opera,comunque l’argomento è relativo al parsng in batch di documenti pdf estraendo tutte le informazioni di rilievo dai documenti ,e questo sarebbe semoplicemente un PDF to Text. Mi è balenata in mente l’idea di pesare i contenuti in funzione delle proprietà  visive del testo. Cioè riconoscere un titolo in funzione della posizione o della deimensione del carattere e pesare di conseguenza le parole.

A Breve concluderò l’articolo ora son un po di corsa….

byebye

Leave a Reply

Connect with Facebook

  

  

  

You can use these HTML tags

<a href=""title=""><abbr title=""><acronym title=""><b><blockquote cite=""><cite><code><del datetime=""><em><i><q cite=""><strike><strong>