Pourquoi la recherche par mots-clés ne suffit plus pour traiter un DSAR sur des données non structurées

Dans un workflow DSAR, la recherche par mots-clés peut aider à démarrer. Mais dès que les données sont dispersées dans des e-mails, pièces jointes et documents libres, elle devient vite insuffisante pour produire une réponse fiable, complète et défendable.

DSAR signifie Data Subject Access Request, c’est-à-dire une demande d’accès aux données personnelles au sens du RGPD, généralement rattachée au droit d’accès prévu à l’article 15.

Introduction

Quand une organisation reçoit une demande d’accès au titre du RGPD, dans le cadre du droit d’accès prévu à l’article 15, l’un des premiers réflexes consiste souvent à lancer des recherches par mots-clés dans les systèmes disponibles. Le nom de la personne, son adresse e-mail, un identifiant salarié, parfois quelques variantes orthographiques : cette approche semble simple, rapide et raisonnable.

Dans certains cas, elle permet effectivement de retrouver une partie des données pertinentes. Mais dès que le périmètre d’un DSAR inclut des e-mails, des documents bureautiques, des pièces jointes, des notes internes ou d’autres contenus non structurés, cette méthode atteint vite ses limites.

Le problème n’est pas seulement qu’elle manque de précision. C’est surtout qu’elle donne souvent une illusion de couverture. On a l’impression d’avoir “cherché”, alors qu’en réalité une partie importante des données pertinentes peut rester invisible, mal qualifiée ou noyée dans le bruit documentaire.

Pour les équipes juridiques, RH et IT, l’enjeu n’est donc pas de supprimer la recherche par mots-clés, mais de comprendre pourquoi elle ne suffit plus à elle seule dans un processus DSAR moderne.

Pourquoi la recherche par mots-clés reste attractive

Si cette méthode est encore aussi répandue, ce n’est pas par hasard. Elle présente plusieurs avantages immédiats :

elle est simple à expliquer,
elle existe déjà dans la plupart des outils,
elle permet de lancer une première collecte rapidement,
elle donne une impression de maîtrise.

Dans des environnements fortement structurés, elle peut même fonctionner correctement pour certains cas simples. Lorsqu’une donnée est stable, bien formée et stockée dans un champ identifiable, une recherche ciblée peut retrouver des éléments utiles avec un effort limité.

Le problème commence quand les données personnelles du demandeur ne sont plus contenues dans des champs propres, mais disséminées dans du langage naturel, des échanges conversationnels, des commentaires, des historiques de réponses ou des pièces jointes hétérogènes.

Le premier problème : les données non structurées ne parlent pas toujours le langage de la requête

Dans les e-mails et documents libres, les données personnelles ne sont pas toujours mentionnées de manière uniforme.

Une personne peut être désignée :

par son prénom uniquement,
par une initiale,
par un surnom interne,
par une fonction,
par une adresse e-mail partielle,
ou même par un contexte implicite sans mention directe de son nom.

Dans ce type de contenu, une recherche fondée sur quelques mots-clés explicites ne capte qu’une partie du périmètre réel. Elle retrouve ce qui correspond à la requête, mais pas forcément ce qui concerne réellement la personne.

C’est une différence fondamentale : retrouver des occurrences n’est pas la même chose qu’identifier des données pertinentes dans leur contexte.

Le deuxième problème : trop de bruit, pas assez de signal

La recherche par mots-clés ne produit pas seulement des oublis. Elle produit aussi beaucoup de faux positifs.

Plus les termes recherchés sont larges ou ambigus, plus le volume de résultats augmente. Le nom du demandeur peut apparaître dans :

des signatures automatiques,
des listes de diffusion,
des fils de réponse sans intérêt réel,
des copies d’e-mails,
des documents où la personne est seulement mentionnée en passant.

Le résultat, c’est que les équipes passent du temps à relire des masses de documents peu utiles, alors même que certains contenus réellement importants peuvent rester cachés parce qu’ils ne contiennent pas les bons marqueurs textuels.

Autrement dit, la recherche par mots-clés a souvent un double défaut :

elle manque des éléments importants,
elle surcharge la revue avec des résultats secondaires.

Le troisième problème : le contexte disparaît

Dans un DSAR, le sujet n’est pas seulement de retrouver un nom. Il faut comprendre ce que le document dit réellement sur la personne concernée.

Or une recherche par mots-clés ne comprend pas le contexte. Elle ne distingue pas facilement :

une simple mention administrative,
une information substantielle sur la personne,
une appréciation interne,
une donnée de tiers,
un échange où le sens dépend de plusieurs messages en chaîne.

Cette limite est cruciale dans les données non structurées. Un e-mail isolé peut paraître anodin, alors que son importance ne devient visible qu’en lisant le fil complet ou en reliant plusieurs pièces entre elles.

C’est précisément là que les approches purement lexicales montrent leur faiblesse : elles trouvent du texte, mais elles ne hiérarchisent pas correctement le sens.

Pourquoi cela devient un vrai risque de conformité

Dans un traitement DSAR, les limites d’une recherche par mots-clés ne sont pas seulement un problème d’efficacité. Elles peuvent devenir un problème de qualité et, dans certains cas, de conformité.

Une organisation doit généralement être capable de démontrer qu’elle a mis en œuvre une recherche raisonnable et cohérente au regard du périmètre de la demande formulée au titre de l’article 15. Si la méthode utilisée est trop rudimentaire pour traiter un corpus complexe, plusieurs risques apparaissent :

omission de documents pertinents,
revue incomplète de certaines sources,
résultats incohérents d’un dossier à l’autre,
charge excessive sur les équipes de validation,
difficulté à expliquer les choix méthodologiques.

Le danger n’est pas seulement de “rater un fichier”. Le danger est d’installer un processus qui semble industrialisé, alors qu’il repose encore sur un mécanisme de recherche trop simpliste pour les données réellement traitées.

À quoi ressemble une approche plus robuste

La bonne réponse n’est pas d’abandonner totalement la recherche par mots-clés. Elle reste utile comme point d’entrée. En revanche, elle doit être intégrée dans une méthode plus large.

Une approche plus robuste combine généralement :

une collecte structurée des sources pertinentes,
une logique de recherche enrichie au-delà de quelques termes fixes,
une capacité à regrouper les documents par contexte,
une revue adaptée au niveau de risque,
un contrôle humain sur les cas ambigus.

L’objectif n’est pas de rendre la recherche plus “intelligente” dans l’absolu. L’objectif est de mieux rapprocher la méthode de recherche de la réalité documentaire du DSAR.

Le rôle des technologies d’analyse documentaire

Dès que les volumes deviennent significatifs, les organisations cherchent naturellement à aller au-delà du simple moteur de recherche interne.

Les technologies d’analyse documentaire peuvent aider à :

détecter des entités au-delà des expressions exactes,
rapprocher des variantes d’identification,
classer les documents par type ou sensibilité,
mettre en évidence des relations contextuelles,
accélérer la revue des corpus les plus lourds.

Mais là encore, il faut rester précis. Ces outils n’éliminent pas la nécessité d’une gouvernance claire. Ils peuvent améliorer le repérage, le tri et la priorisation, sans supprimer le besoin d’une revue humaine sur les cas sensibles.

L’intérêt concret est surtout de réduire la dépendance à une logique binaire de type “le mot existe / le mot n’existe pas”, qui devient vite trop pauvre pour des données non structurées.

Ce que les équipes juridiques, RH et IT ont intérêt à viser

Pour les équipes internes, le vrai objectif n’est pas d’avoir une recherche “parfaite”. Il est d’avoir un processus DSAR suffisamment solide pour :

couvrir les sources importantes,
réduire les oublis évitables,
limiter la surcharge de revue,
expliquer la méthode employée,
conserver une réponse défendable.

Cela suppose souvent de sortir d’une logique purement technique pour revenir à une logique de workflow :

où cherche-t-on ?
comment priorise-t-on ?
comment qualifie-t-on les résultats ?
quels cas nécessitent une revue approfondie ?
comment documente-t-on les arbitrages ?

C’est cette articulation entre méthode, technologie et contrôle qui rend le processus plus crédible.

Conclusion

La recherche par mots-clés n’a pas disparu du traitement des DSAR. Elle reste utile pour lancer une collecte, filtrer un corpus ou retrouver certaines occurrences explicites.

Mais sur des données non structurées, elle ne suffit plus. Elle laisse passer des informations pertinentes, génère beaucoup de bruit et échoue souvent à restituer le contexte nécessaire à une revue sérieuse.

Pour les organisations qui veulent industrialiser leurs réponses RGPD sans perdre en qualité, l’enjeu n’est donc pas de chercher plus de mots. L’enjeu est d’adopter une approche plus contextualisée, plus structurée et plus défendable du traitement documentaire.

DSAR et données non structurées : pourquoi la recherche par mots-clés ne suffit plus