Convertir des fichiers PDF et DOCX en texte

mac, tika
Publié le 12/03/2017 | Jérémy Grèze

Pour un projet d'analyse de CVs, j'ai eu besoin de convertir en masse des documents PDF et DOCX (Microsoft Word) en fichiers texte (TXT) afin de pouvoir appliquer des algorithmes de Machine Learning par la suite.

La librairie Apache Tika m'a permis de convertir très simplement ces documents en masse (plusieurs centaines en quelques secondes).

Sur macOS, avec l'aide de Brew, j'ai installé Tika avec une commande dans le Terminal (pré-requis: le Java JDK.)

brew install tika

Pour obtenir la liste des commandes disponibles:

tika --help

J'ai placé tous mes documents que je voulais convertir dans un répertoire input. En lançant la commande suivante, l'ensemble des documents .pdf et .docx ont été converti en .txt dans le répertoire output.

tika --text -i ~/Desktop/input/ -o ~/Desktop/output/

C'est tout !