in

À mesure que les entreprises reprennent leurs activités, les cybercriminels recherchent de nouveaux angles d’attaque

 

Paul Manafort est sorti de prison le 13 mai. Pour les acteurs qui évoluent dans le monde du document comme Alfresco, il est intéressant de revenir sur l’affaire de la rédaction des PDF qui est survenue lors de son procès. En 2019, les avocats qui représentaient Paul Manafort, un ancien lobbyiste, conseiller politique, avocat et directeur de campagne présidentielle de Donald Trump, ont soumis un document judiciaire au procureur spécial, Robert Mueller, en réponse à ses allégations selon lesquelles il aurait violé son accord de coopération en mentant à plusieurs reprises aux procureurs. En effet, sur les pages cinq, six, sept et neuf du dit document, les avocats ou collaborateurs du conseiller ont tenté de cacher des passages sensibles.

Si certaines parties de la version publique du document semblent avoir été noircies à l’aide de blocs de couleur, il est rapidement apparu que toute personne disposant d’Adobe Acrobat ou d’un outil de visualisation PDF pouvait facilement copier et coller le texte existant sous les blocs noircis dans un autre document pour révéler les passages cachés. Un incident similaire s’était déjà produit en 2011 avec le Ministère de la Défense au Royaume-Uni.

Editer du texte sur un PDF – comment cela a-t-il pu mal tourner ?

Le format PDF propose cependant des alternatives qui auraient pu permettre de cacher les passages sensibles du document. En général, un document numérisé est converti en « imagePDF ». Il en résulte un document scanné comme un fax qui est composé de points noirs et blancs voire de couleurs (s’il provient d’un scanner couleur) et ne contient aucun texte additionnel pour la recherche ou la copie. La rédaction de ce type de document consiste simplement à convertir en noir les points qui représentent l’image et le texte. Compte tenu de la charge de travail des avocats et du volume de documents scannés, nous pouvons imaginer que la personne qui a cherché à cacher le texte pensait que le document était numérisé. Il croyait probablement qu’en noircissant les éléments de texte ils ne pourraient être lus et que les points noirs et blancs qui constituent le texte en dessous des blocs noircis ne pourraient être visualisés.

En réalité, il existe deux autres typologies de documents PDF qui contiennent à la fois l’image du texte et les données textuelles placées « sous » le texte. Dans ces PDF, les données textuelles permettent de faire des recherches dans le document et de copier-coller le texte. Ces documents peuvent être créés de deux manières.

Dans un premier cas, le document image est exécuté via un module de reconnaissance optique de caractères (OCR) avec le texte intégré derrière l’image pour permettre la recherche et d’autres fonctionnalités de texte comme le copier-coller. Mais le document peut également être créé à partir d’un traitement de texte ou d’un programme capable d’utiliser des polices directement dans un PDF. D’après notre examen rapide, nous pouvons supposer que le document a été créé de cette manière et qu’il n’a jamais été scanné car le document de Manafort est très propre (c’est-à-dire qu’il n’y a pas de points parasites généralement associés aux documents scannés) et que la taille du fichier est très réduite, contrairement à celle des images contenant du texte. Dans l’un ou l’autre de ces cas, le simple fait d’appliquer des blocs noircis sur les mots ne supprime pas le texte sous-jacent.

Il existe pourtant des solutions disposant de fonctionnalités permettant d’éditer correctement ce type de document comme des options de :

  • Suggestion de rédaction : Options de rédaction de texte basées sur des modèles et pouvant être préconfigurées. De cette manière, les numéros de téléphone, les numéros de sécurité sociale et d’autres informations peuvent être identifiés, et l’utilisateur a le choix de les garder ou non.
  • Recherche et rédaction : Permet d’entrer un terme de recherche afin de sélectionner un mot spécifique (nom, adresse) à rédiger.
  • Rédaction sélective de texte : tout texte peut être sélectionné et édité.
  • Rédaction d’une zone sélectionnée : possibilité de dessiner une zone autour du texte ou des graphiques pour supprimer à la fois l’image et le texte en dessous.
  • Rédaction groupée sur un dossier: Possibilité de rédiger les attributs ou valeurs communs à tous les documents.
  • Rédaction groupée lors d’une recherche : Capacité de recherche permettant de supprimer les attributs ou valeurs communs à tous les documents.

Pourtant largement utilisé, que ce soit dans un contexte personnel ou professionnel, le format PDF reste maitrisé que de façon superficielle. L’affaire Manafort met d’ailleurs en lumière cette méconnaissance flagrante du format, mais fait également état d’un manque d’égard envers la sécurité des documents de façon plus générale. Même si la sécurisation du document reste cruciale, les données qui y sont contenues sont d’autant plus importantes que celles-ci peuvent être extraites (OCR) puis utilisées pour alimenter des systèmes plus complexes notamment basés sur l’intelligence artificielle. Il est donc crucial pour les documents et les données d’être sécurisés pour limiter leur fuite, leur utilisation et leur fructification par des tiers qui n’auraient jamais dû y avoir accès.

[1] Une rédaction est un type d’annotation spécifique, utilisé pour supprimer définitivement des termes ou des informations d’un document à des fins de sécurité/confidentialité.

 Par William Bailhache, Vice President Southern EMEA chez Alfresco

Morgane
Morgane Palomo

Diplômée d'un master un brand management marketing, sa curiosité et sa soif de savoir ne sont étanchées. De nature créative, elle a su diversifier ses expériences. De la création graphique, à l'événementiel en passant par la communication interne et le marketing digital, elle s’est construit un savoir pluriel et avant tout polyvalent.

Written by Morgane Palomo

Diplômée d'un master un brand management marketing, sa curiosité et sa soif de savoir ne sont étanchées. De nature créative, elle a su diversifier ses expériences. De la création graphique, à l'événementiel en passant par la communication interne et le marketing digital, elle s’est construit un savoir pluriel et avant tout polyvalent.