Travailler avec des fichiers PDF : la productivité en toute simplicité

Les conseils suivants vont vous faciliter la vie et améliorer votre productivité lorsque vous travaillerez avec des fichiers PDF.

Pourquoi tous les fichiers PDF ne sont-ils pas identiques ?

Le format PDF (Portable Document Format) représente actuellement la norme universelle et incontournable afin d’échanger des documents par voie électronique. Toutefois, tous les fichiers PDF ne sont pas identiques en termes de comportement ! Il est possible d’effectuer différentes actions en fonction de la nature du fichier et du programme utilisé pour l’ouvrir.

Lorsque le fichier PDF est créé numériquement les informations dans ce  fichier, par exemple ou de pilotes d'imprimante virtuels sont facilement accessibles à partir des applications Microsoft® Office et il est en général facile d’en copier des parties ou de les modifier. Un grand nombre de documents professionnels se rencontrent toutefois sous la forme de fichiers PDF numérisés : lettres et documents numérisés, documents provenant d'archives papier numérisées, extraits de magazines photographiés ou captures d’écrans enregistrées au format PDF. 

Dans ces documents PDF, tout le contenu est « scellé  » dans une image similaire à un instantané et il est donc impossible d’effectuer des recherches à partir de mots-clés ou de copier le texte, les images ou les tableaux afin de les réutiliser et de les modifier directement a fortiori. Pour cela, il faut des applications qui convertissent les fichiers PDF numérisés en formats dans lesquels il est possible d’effectuer des recherches et des modifications.

Quel est le rôle de la reconnaissance  optique de caractères (OCR) lorsque l’on travaille avec des fichiers PDF ?

Nous avons besoin de logiciels afin de pouvoir travailler de manière productive avec tous les types de fichiers PDF. Souvenez-vous de votre humeur lorsque vous avez recherché en vain le contrat numérisé qui était sans aucun doute classé quelque part dans le système ECM (Enterprise Content Management ou gestion de contenu d’entreprise), quand vous vous êtes épuiser à taper les contenus qu’il était impossible de copier à partir du fichier PDF ou de modifier leur format afin qu’ils ressemblent vaguement à l’original, tâche pénible s’il en est. Ces activités ne sont pas très efficaces. Elles gaspillent un temps précieux. Comme les caractères et les lignes sont enfermés dans l’image de la page, il est impossible de sélectionner, marquer ou supprimer certains passages des fichiers PDF numérisés, ni d’ajouter des commentaires destinés à nos collègues ou à nos partenaires commerciaux. Il ne nous reste plus que l’impression ou l'annotation à la main, ce qui n’est ni très économique ni très écologique.

C’est ici que les technologies de reconnaissance optique de caractères et de conversion des fichiers PDF entrent en jeu. Elles permettent de convertir les fichiers PDF en un tournemain. Elles lisent les caractères des fichiers PDF et analysent les structures des pages. Un niveau avec le texte reconnu est ajouté à l’image de la page du document PDF. Il est pratiquement impossible de distinguer les documents PDF créés par les processus OCR et de conversion, des documents originaux. Il est cependant possible d’y effectuer des recherches, d’y marquer du texte, de le sélectionner et de le modifier.

Quelques scénarios d’utilisation

1.    Recherche et eDiscovery

Les logiciels OCR et les outils PDF qui comportent des technologies intégrées de reconnaissance de texte convertissent les fichiers PDF en documents modifiables, au format Office (Microsoft Word, Excel® etc.), HTML, EPUB ou PDF interrogeable. Le contenu des fichiers PDF, à l’exception de leur nom, peut uniquement être retrouvé lors des recherches dans les bases de données des entreprises, comme les serveurs de fichiers internes ou Microsoft SharePoint®. 

Les applications de conversion intelligente répertorient chaque mot des fichiers PDF et permettent également d’ajouter facilement les principaux mots-clés aux métadonnées. Il est ainsi possible de tenir compte des documents papier numérisés dans le cadre des procédures d’eDiscovery dans les domaines d’activités où les recherches sont très utilisées, comme les cabinets d'avocats, l’enseignement ou la recherche. L’utilisation des logiciels de conversion basés sur l’OCR améliore donc considérablement l’efficacité de l’accès aux informations dans les systèmes de gestion électronique des documents (GED).

2.    Archivage

Les outils de conversion permettent également de transformer les documents au format PDF/A et prennent en charge l’archivage à long terme en respectant les normes ainsi que la règlementation en vigueur. Les fonctions d’optimisation des fichiers PDF rendent l'archivage des documents encore plus efficace : les pages numérisées de travers peuvent être redressées, il est possible de corriger la qualité de l’image et d’optimiser la taille des fichiers.

3. Automatisation

Il existe également des solutions destinées aux entreprises qui gèrent un important volume de fichiers PDF générés à partir de documents numérisés et qui permettent de convertir automatiquement des piles de documents papier dans des formats interrogeables. Des workflows particuliers et des "hot folders"  sont configurés, de sorte que les documents sont convertis au moyen de scénarios programmés selon des plannings définis au préalable, quasiment sans intervention humaine.

4. Réutilisation de contenus sans les taper à nouveau 

Si vous convertissez vos fichiers PDF au format Microsoft Word à l’aide de la technologie OCR, vous évitez de devoir taper à nouveau les contenus ou de modifier leur format, tâches très fastidieuses. La disposition originale est reproduite avec précision, avec les images, les tableaux, les colonnes de texte et les notes de bas de page. Lors de la conversion des fichiers PDF au format Microsoft Excel, il est possible de modifier les tableaux et d’y effectuer de nouveaux calculs. Il est ainsi facile de réutiliser les extraits de tarifs ou les calculs extraits de rapports, de modifier directement les valeurs des cellules ou de les mettre à jour.

5. Collaborer au moyen de fichiers PDF

Les outils PDF avec OCR intégrée ne sont pas limités à l’affichage et à l’enregistrement de fichiers au format PDF, comme les simples lecteurs PDF. Ils peuvent non seulement les convertir en d’autres formats exploitables, mais permettent également d’en modifier directement le contenu. Grâce à l’utilisation de la technologie OCR, le texte des contrats ou des articles de journaux numérisés, par exemple, est "accessible", il est possible de le sélectionner, de le supprimer ou d’y ajouter des commentaires destinés à vos partenaires commerciaux ou à vos collègues. Lors de la rédaction de contrats, de rapports, de documentation sur les produits ou de brochures, des fonctions prennent en charge la modification ou l’ajout de commentaires et permettent la collaboration, que ce soit au sein d’un groupe de travail, d’un service ou de toute l’entreprise.  

6. Conversion pour le Web ou les terminaux mobiles

Les applications OCR présentent d’autres possibilités intéressantes, comme la conversion de fichiers PDF numérisés directement en HTML, afin de publier des rapports ou des documentations de produits sur le Web de manière simple et rapide, par exemple, ou au format EPUB, afin de lire des livres électroniques ou des articles sur un téléphone mobile, une tablette ou une liseuse.

Comment les entreprises peuvent-elles bénéficier des applications OCR et des outils PDF ?

Il est possible d’utiliser les logiciels OCR et les outils PDF avec technologies de reconnaissance de texte intégrée dans tous les secteurs ou services des entreprises, dans les institutions à but non lucratif ou dans l'éducation. Ils permettent de travailler de manière plus simple et plus efficace avec les documents. De plus, si les logiciels parviennent à réunir toutes les fonctions vraiment utiles au quotidien sans pour autant devenir complexes ou lourds, toute l’organisation ainsi que les différents utilisateurs en tirent profit.

·        Efficacité et productivité : travailler avec des fichiers ou les modifier ne font pas partie des activités principales des collaborateurs. Plus ils peuvent accéder aux contenus des documents de manière simple et fiable afin de les réutiliser, plus ils peuvent se concentrer sur leur cœur de métier et contribuer à améliorer la productivité de l’entreprise.  

·        Communication : les outils PDF basés sur la technologie OCR simplifient considérablement la collaboration entre les collaborateurs et les services car les processus de reconnaissance de texte permettent d’ajouter du texte, d’ajouter des commentaires, des remarques et des explications dans les fichiers PDF numérisés.

·        Transparence : il est possible de retrouver les informations numériques disponibles dans les fichiers PDF interrogeable qui se trouvent dans les bases de données, les dossiers ou sur les serveurs, de les mettre à jour ou de les partager de manière simple et rapide. Cette option s’avère particulièrement intéressante pour les responsables de dossier qui doivent accéder aux données archivées concernant un incident ou un client en un clic, au service après-vente, par exemple. L’accès rapide aux informations représente la base de la gestion moderne des connaissances et d’une orientation service durable au sein des organisations.

·        Sécurité : il existe des exigences élevées en matière de sécurité et des obligations strictes en ce qui concerne la protection des données, en particulier dans le domaine juridique ou médical ainsi que dans les institutions de l’administration publique. Les outils PDF doivent donc proposer des fonctions qui permettent de « noircir » entièrement et supprime certaines zones, de supprimer des métadonnées, d’ajouter une signature numérique ou d'accorder différents droits d’accès à un fichier au moyen d’un mot de passe. Il est ainsi possible d’envoyer et d’archiver les documents en toute sécurité.

·        Mobilité : Nous ne travaillons pas uniquement sur PC, mais également sur tablette, smartphone, liseuse... Les logiciels OCR permettent de convertir les documents en fichiers PDF indexables ou au format EPUB qui sont optimisés pour les terminaux mobiles. Ils permettent aux entreprises d’atteindre de nouveaux segments de clientèle et de mettre en place de nouveaux processus de travail.