sfondotecnica per offuscare i dati in cluster e preservare la privacy in r
ho qualche dati dell'indagine privato che contiene una colonna di informazioni riservate: la posizione geografica degli intervistati. in nessun caso questa informazione può essere divulgata.
come è comune nella ricerca di sondaggi, affinché gli utenti possano calcolare correttamente una varianza sul mio set di dati di rilevamento, quegli utenti avranno bisogno di quella posizione geografica (inaccettabile) o, in alternativa, di un set di replicate weights. posso creare quell'insieme di pesi replicati; tuttavia, è abbastanza semplice esaminare le correlazioni tra questi pesi e calcolare indietro quali degli intervistati condividono la stessa posizione geografica. anche questo è inaccettabile.
per aiutarmi con questa domanda, non è necessario avere familiarità con replicate weights
- basti pensare a loro come poche colonne di dati cluster fortemente correlati.
Capisco che se voglio mantenere tale clustering, un utente malintenzionato avrà sempre ipotesi semi-decenti su chi condivide le posizioni geografiche; Voglio solo rendere quel gioco indovinello meno preciso. sui pesi di replica non-offuscati, un utente malintenzionato può calcolare il 100% dei casi.
richiesta
Sto cercando una tecnica che
- impedisce agli utenti di file uso pubblico dal facilmente dedurre la posizione geografica condivisa largo delle correlazioni tra le variabili pesi replicati
- fa non cancellare le correlazioni tra le mie colonne di dati (le variabili dei pesi di replica)
- può essere implementato su un R
data.frame
oggetto senza un grande investimento di tempo
dico condiviso perché l'utente maligno potrebbe non sapere dove la posizione è, ma potrebbe sapere se due partecipanti al sondaggio sono dalla stessa posizione - una possibilità inaccettabile.
quello che ho provato
io non voglia di reinventare la ruota qui. Sto cercando r sintassi, un pacchetto r, o qualsiasi altra cosa che sarebbe relativamente semplice da implementare. ho trovato one, two, three, four documenti che descrivono tecniche che sarebbero tutte adatte ai miei scopi; sfortunatamente, nessuno degli autori è stato disposto a condividere il codice reale per implementarli.
Posso fare cose semplici come aggiungere e sottrarre valori casuali alle mie colonne di pesi di replica secondo una distribuzione normale, ma preferirei fare affidamento sul lavoro di qualcuno che capisce meglio i problemi di privacy di me.
grazie !!!!
prova a guardare il pacchetto 'sdcMicro' – James
Non è possibile. Più di uno scienziato di dati/guru del software ha dimostrato che è facile estrapolare l'identificazione personale da grossi blocchi di dati presumibilmente anonimi. La tua scelta è, o come hai notato, lasciare un percorso per consentire a qualcuno di ricostruire i geodati, o di rimuovere completamente i geodati e fare le tue analisi basandosi su qualche altro fattore. –
l'ufficio del censimento degli Stati Uniti fa regolarmente ciò che sto descrivendo, nonostante le loro rigide regole di riservatezza. abbassiamo la barra e diciamo "se è abbastanza buono per il censimento, è abbastanza buono per me". sto definendo un nuovo termine: WWCD? grazie –