Математика локальной дифференциальной конфиденциальности

Чтобы понять дифференциальную локальную конфиденциальность. Возьмем пример: у меня есть группа людей, и я хочу опросить их о чем-то личном и личном, о чем, я думаю, они могут лгать. Итак, как мы можем это сделать?

В следующем методе используется «правдоподобное отрицание» путем добавления случайности к ответу каждого человека. тогда мы сможем с некоторой точностью восстановить основную статистику.

Техника следующая:

Подбросьте монету. Если первый подбрасывает монету ГОЛОВА, попросите их ответить честно.
Если первый бросок монеты - TAIL, подбросьте вторую монету и добавьте шум в базу данных вместо этой записи в базе данных (добавьте «Да» для HEAD и «Нет» для ХВОСТ.

Таким образом, теперь каждый человек защищен «правдоподобным отрицанием».

Обозначение:

в нашем примере мы будем использовать следующие обозначения:

Пример моделирования базы данных с 10 записями:

В нашем примере мы имитируем опрос 10 человек на предмет чего-то. мы используем смещенную монету для первого подбрасывания монеты, что дает ГОЛОВУ в 60% случаев и ХВОСТ в 40% случаев.

Это означает, что вероятность первого подбрасывания монеты (c1) будет равна 0,6, а вероятность шума (n) будет равна 0,4.

Наша база данных следует «распределению Бернулли», где, если событие произошло, оно принимает значение 1, а если оно не произошло, принимает значение 0.

Обратите внимание, что в таком распределении среднее значение случайной величины является приближением ее вероятности, потому что мы имеем дело со значениями единиц и нулей.

Восстановление исходной истинной статистики

Итак, у нас есть база данных с искаженными данными (S), и теперь мы хотим восстановить оценку истинного среднего значения распределения (t), что нам делать?

Как видно из приведенной выше таблицы, искаженные данные (S) были рассчитаны на основе истинных данных (T) в соответствии со следующим уравнением:

Аналогичным образом, искаженное среднее значение базы данных может быть вычислено на основе оценки истинного среднего значения базы данных в соответствии со следующим уравнением:

Помните, что мы ввели шум, когда первое подбрасывание монеты c1 привело к появлению ХВОСТОВ. это означает, что первый подбрасывание монеты и шум дополняют друг друга. Математически это можно записать:

Подставляя уравнение (2) в уравнение (1), получаем:

Мы можем получить оценку вероятности истинного распределения, решив приведенное выше уравнение алгебраически следующим образом:

Погрешность вычисления оценки истинной вероятности распределения может быть вычислена следующим образом:

Собираем все вместе программно

Мы можем смоделировать описанный выше процесс программно в следующем блокноте jupyter.

Вы можете открыть следующую записную книжку в Google Colaboratory и самостоятельно запустить моделирование, варьируя количество шума и вероятность второго подбрасывания монеты:

Google Colaboratory
Демонстрация локальной дифференциальной конфиденциальности

Математика локальной дифференциальной конфиденциальности

Обозначение:

Пример моделирования базы данных с 10 записями:

Восстановление исходной истинной статистики

Собираем все вместе программно

Вопросы по теме