Чтобы понять дифференциальную локальную конфиденциальность. Возьмем пример: у меня есть группа людей, и я хочу опросить их о чем-то личном и личном, о чем, я думаю, они могут лгать. Итак, как мы можем это сделать?
В следующем методе используется «правдоподобное отрицание» путем добавления случайности к ответу каждого человека. тогда мы сможем с некоторой точностью восстановить основную статистику.
Техника следующая:
- Подбросьте монету. Если первый подбрасывает монету ГОЛОВА, попросите их ответить честно.
- Если первый бросок монеты - TAIL, подбросьте вторую монету и добавьте шум в базу данных вместо этой записи в базе данных (добавьте «Да» для HEAD и «Нет» для ХВОСТ.
Таким образом, теперь каждый человек защищен «правдоподобным отрицанием».
Обозначение:
в нашем примере мы будем использовать следующие обозначения:
Пример моделирования базы данных с 10 записями:
В нашем примере мы имитируем опрос 10 человек на предмет чего-то. мы используем смещенную монету для первого подбрасывания монеты, что дает ГОЛОВУ в 60% случаев и ХВОСТ в 40% случаев.
Это означает, что вероятность первого подбрасывания монеты (c1) будет равна 0,6, а вероятность шума (n) будет равна 0,4.
Наша база данных следует «распределению Бернулли», где, если событие произошло, оно принимает значение 1, а если оно не произошло, принимает значение 0.
Обратите внимание, что в таком распределении среднее значение случайной величины является приближением ее вероятности, потому что мы имеем дело со значениями единиц и нулей.
Восстановление исходной истинной статистики
Итак, у нас есть база данных с искаженными данными (S), и теперь мы хотим восстановить оценку истинного среднего значения распределения (t), что нам делать?
Как видно из приведенной выше таблицы, искаженные данные (S) были рассчитаны на основе истинных данных (T) в соответствии со следующим уравнением:
Аналогичным образом, искаженное среднее значение базы данных может быть вычислено на основе оценки истинного среднего значения базы данных в соответствии со следующим уравнением:
Помните, что мы ввели шум, когда первое подбрасывание монеты c1 привело к появлению ХВОСТОВ. это означает, что первый подбрасывание монеты и шум дополняют друг друга. Математически это можно записать:
Подставляя уравнение (2) в уравнение (1), получаем:
Мы можем получить оценку вероятности истинного распределения, решив приведенное выше уравнение алгебраически следующим образом:
Погрешность вычисления оценки истинной вероятности распределения может быть вычислена следующим образом:
Собираем все вместе программно
Мы можем смоделировать описанный выше процесс программно в следующем блокноте jupyter.
Вы можете открыть следующую записную книжку в Google Colaboratory и самостоятельно запустить моделирование, варьируя количество шума и вероятность второго подбрасывания монеты: