[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Extraction du texte d'un PDF
- To: Linux 31 <linux-31@culte.org>
- Subject: Extraction du texte d'un PDF
- From: Pierre ESTREM <peterpan31@free.fr>
- Date: Sun, 18 Jul 2021 04:51:10 +0200
- Authentication-results: pic2s.le-pic.org; dkim=pass (2048-bit key; unprotected) header.d=free.fr header.i=@free.fr header.b="Ds2zV2gf"; dkim-atps=neutral
- Dkim-signature: v=1; a=rsa-sha256; c=relaxed/simple; d=free.fr; s=smtp-20201208; t=1626576671; bh=jKtGBZfz/zBji+uLGLZj6+3VZUt7E2vzS2nv8XI1VnU=; h=From:Subject:Reply-To:To:Date:From; b=Ds2zV2gfMiYn2DtfxT7GuhlUgWDEZ9P22srtfz1snVi6G8laWweJiZdWKXmnQ/xqV aZK5i673VyNlnqXZDSnfokcr7FymTV27go+qG1hwIHM8swJ3T0Q+ICqLrVlMSnrGEb ukCY+E+Y1ZN1rADMFMrfqFvH5ahrxfMzSX/P54cw8l5LvjVXcsiJaIRy0+aNvWmZu+ Os1eHSexDSFdCpBfK1SB1UemHkVVygG2b4P5NqigrHn3LZQx8NqihwPyphihqM087m pE+mK0HIcVSXecPQ70dZAoexZlicKg4RSoVvc6blllOpZHtwUeH4vVoNhb9F8GOqHU y3cE+ep1dO8jw==
- Reply-to: peterpan31@free.fr
- User-agent: Mozilla/5.0 (X11; Linux i686; rv:68.0) Gecko/20100101 Thunderbird/68.9.0
Bonjour,
J'ai un outil qui permet de lire vocalement du texte comme ceci ;
$ espeak -v fr "Hello"
ou
$ cat mon.txt | espeak -v fr
ou
$ espeak -v fr < mon.txt
Dans le cas où le fichier est un PDF contenant du texte , comment éviter
de lire les "commandes de formatage" ?
Je voudrais éviter les manipulations avec Acrobat.
J'ai envie d'écrire un truc du genre :
$ cat mon.pdf | ... | espeak -v fr
Et en utilisant la commande pdftotext et un pipe ?
Une idée les libristes ?
--
pierre estrem