Bonjour,
Je désire lire le contenu d'un document PDF (extraire le texte et le formatage utilisé). J'ai trouvé l'API PDFBox qui me semble très complet. Il permet d'extraire le texte contenu dans un PDF mais je n'ai pas trouvé le moyen d'extraire également le formatage.
En faisant des recheches je me suis rendu compte de la complexité du format PDF (format que je ne faisais qu'utiliser auparavant). J'ai par exemple appris l'utilisation du "COS Object Tree". PDFBox permet justement de l'explorer. J'imagine que cet arbre contient ce que je veux.
Est-ce que quelqu'un a déjà lu un document PDF à l'aide d'une API et pourrait m'indiquer une piste à suivre?
Merci d'avance si vous avez des exemples de code ou des tuyaux qui me simplifieraient la vie.