Программирование, 2023, № 5, стр. 19-34
ПРИМЕНЕНИЕ ИМИТАЦИОННОГО КОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ К ЗАДАЧЕ ОБЕЗЛИЧИВАНИЯ ПЕРСОНАЛЬНЫХ ДАННЫХ. МОДЕЛЬ И АЛГОРИТМ ОБЕЗЛИЧИВАНИЯ МЕТОДОМ СИНТЕЗА
А. В. Борисов a, *, А. В. Босов a, **, А. В. Иванов a, ***
a Федеральный исследовательский центр “Информатика и управление” РАН
119333 Москва, ул. Вавилова, д. 44, кор. 2, Россия
* E-mail: aborisov@ipiran.ru
** E-mail: avbosov@ipiran.ru
*** E-mail: aivanov@ipiran.ru
Поступила в редакцию 14.02.2023
После доработки 12.03.2023
Принята к публикации 14.05.2023
- EDN: ZXUVBM
- DOI: 10.31857/S0132347423050023
Полные тексты статей выпуска доступны в ознакомительном режиме только авторизованным пользователям.
Аннотация
Представлена вторая часть исследования, посвященного тематике автоматизированного обезличивания персональных данных. Обзор и анализ перспектив для исследований, выполненный ранее, здесь дополнен практическим результатом. Предложена модель процесса обезличивания, сводящая задачу обеспечения анонимности персональных данных к манипулированию выборками разнотипных случайных элементов. Соответственно, ключевой идеей преобразования данных для обеспечения их анонимности при условии сохранения полезности является применение метода синтеза, т.е. полной замены всех необезличенных данных синтетическими значениями. В предлагаемой модели выделен набор типов элементов, для которых предложены шаблоны синтеза. Совокупность шаблонов составляет алгоритм обезличивания методом синтеза. Методически каждый шаблон опирается на типовой статистический инструмент – частотные оценки вероятностей, ядерные оценки плотностей Розенблатта–Парзена, статистические средние и ковариации. Применение алгоритма иллюстрируется простым примером из области гражданских авиаперевозок.
Полные тексты статей выпуска доступны в ознакомительном режиме только авторизованным пользователям.
Список литературы
Борисов А.В., Босов А.В., Иванов А.В. Применение имитационного компьютерного моделирования к задаче обезличивания персональных данных. Оценка состояния и основные положения // Программирование, 2023. № 4, с. 58–74.
Aggarwal C.C., Yu P.S. On Privacy-Preservation of Text and Sparse Binary Data with Sketches // SIAM Conference on Data Mining, 2007.
Sweeney L. K-anonymity: a model for protecting privacy // International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 2002. V. 10. № 5. P. 557–570.
Samarati P., Sweeney L. Generalizing Data to Provide Anonymity when Disclosing Information (Abstract) // Proc. of ACM Symposium on Principles of Database Systems, 1998. P. 188.
Samarati P. Protecting Respondents’ Identities in Microdata Release // IEEE Trans. Knowl. Data Eng., 2001. V. 13. № 6. P. 1010–1027.
Bayardo R.J., Agrawal R. Data Privacy through Optimal k-Anonymization // Proceedings of the ICDE Conference, 2005. P. 217–228.
Fung B., Wang K., Yu P. Top-Down Specialization for Information and Privacy Preservation // ICDE Conference, 2005.
Wang K., Yu P., Chakraborty S. Bottom-Up Generalization: A Data Mining Solution to Privacy Protection // ICDM Conference, 2004.
Domingo-Ferrer J., Mateo-Sanz J. Practical data-oriented micro-aggregation for statistical disclosure control // IEEE TKDE, 2002. V. 14. № 1.
Winkler W. Using simulated annealing for k-anonymity // Technical Report 7, US Census Bureau, Washington D.C. 20233, 2002.
Iyengar V.S. Transforming Data to Satisfy Privacy Constraints // KDD Conference, 2002.
Lakshmanan L., Ng R., Ramesh G. To Do or Not To Do: The Dilemma of Disclosing Anonymized Data // ACM SIGMOD Conference, 2005.
Aggarwal C.C., Yu P.S. On Variable Constraints in Privacy-Preserving Data Mining // SIAM Conference, 2005.
Aggarwal C.C. On k-anonymity and the curse of dimensionality // VLDB Conference, 2005.
Iyengar V.S. Transforming Data to Satisfy Privacy Constraints // KDD Conference, 2002.
Machanavajjhala A., Gehrke J., Kifer D., Venkitasubramaniam M. L-Diversity: Privacy Beyond k-Anonymity // ICDE Conference, 2006.
Fung B., Wang K., Yu P. Top-Down Specialization for Information and Privacy Preservation // ICDE Conference, 2005.
Wang K., Yu P., Chakraborty S. Bottom-Up Generalization: A Data Mining Solution to Privacy Protection // ICDM Conference, 2004.
Rosenblatt M. Remarks on Some Nonparametric Estimates of a Density Function // Ann. Math. Statist., 1956. V. 27. № 3. P. 832–837.
Parzen E. On Estimation of a Probability Density Function and Mode // Ann. Math. Statist., 1962. V. 33. № 3. P. 1065–1076.
Silverman B.W. Density Estimation for Statistics and Data Analysis. London: Chapman & Hall/CRC, 1986.
Kullback S., Leibler R.A. On information and sufficiency // Ann. Math. Statist., 1951. V. 22. № 1. P. 79–86.
Дополнительные материалы отсутствуют.
Инструменты
Программирование