(MC18) (INYBER) Confidentialité différentielle et données sémantiques: quelle protection?
La quantité de données produites par les particuliers et les entreprises a explosé durant les dernières décennies. Leur exploitation offre des opportunités mais questionne quant au respect de la vie privée. La confidentialité différentielle (DP) s’est imposée comme modèle majeur pour protéger les données des individus tout en permettant des analyses statistiques.
Formalisée par une simple équation, la protection effective proposée par la DP n’est pourtant pas trivialement explicable. Intuitivement, un mécanisme est dit DP si la probabilité de produire une même sortie sur des bases de données voisines -c’est à dire à une distance de 1- est proche -à exponentiel de epsilon près-. Un attaquant observant la sortie d’un tel mécanisme ne peut ainsi affirmer avec certitude quelle base de données au sein d’un voisinage a été utilisée pour la produire. La DP repose donc sur deux paramètres fondamentaux : une distance et une constante epsilon, formalisant ce qui est protégé et un degré de protection.
Durant cette présentation, nous nous intéressons en particulier aux bases de données représentées sous la forme de graphe avec une sémantique intrinsèque, dont un des exemples les plus proéminents est RDF, base du web sémantique. Nous présenterons différentes distances sur ces graphes représentant des modèles de protection de plus en plus précise, qui présentent un sacrifice raisonnable de la protection au profit de l’utilité du mécanisme résultant. Finalement, nous évoquerons la question du degré de protection en montrant que celui-ci n’est pas fixe à epsilon constant, mais qu’il dépend de l’espace des bases de données considéré, et en particulier des contraintes qui lui sont associées.
Allez à la source