ρ-kazanım: fayda temelli veri yayınlama modeli

Yılmaz VURAL, Murat AYDOS
649 95

Öz


Veri mahremiyeti, veri sahiplerinin mahremiyet riskleri ile veri paylaşımının taraflara sağlayacağı fayda arasındaki en iyi dengeyi bulmaya çalışan zor bir problemdir. Bu çalışmada, literatürdeki yaygın mahremiyet modelleri işlevleri açısından incelenmiştir. Veri faydasının hesaplanmasında kullanılan veri kaybı metrikleri ile mahremiyet risklerinin tahmininde kullanılan saldırgan modelleri gözden geçirilmiştir. Aykırı eşdeğer sınıf, veri faydasına katkısı olmayan bastırılmış kayıtları içerir.  Bu çalışmada, aykırı eşdeğer sınıf kazanımının veri faydasını artırmaya yönelik etkisini ortaya koyan, fayda temelli ρ-Kazanım modeli önerilmiştir. Önerilen model içerisinde mahremiyet risklerinin en aza indirgenmesinde k-Anonimlik ve l-Çeşitlilik mahremiyet modelleri birlikte kullanılmıştır. Veri faydasının ölçümünde eşdeğer sınıflar ortalaması metriği kullanılmıştır. Çalışma sonucunda elde edilen bulgulara göre, ρ-Kazanım modeli, veri faydasında iyileşmeyi sağlarken, mahremiyet risk tahminlerinde anlamlı bir olumsuzluğa yol açmamıştır. Veri mahremiyeti risklerini arttırmadan veri faydasını iyileştiren, fayda temelli ρ-Kazanım modelinin veri mahremiyeti probleminin çözümünde etkin bir rol oynayacağı gözlemlenmiştir.

Anahtar kelimeler


ρ-Kazanım modeli; Veri yayınlama, Veri anonimleştirme, Veri mahremiyeti, Veri faydası.

Tam metin:

PDF


Referanslar


Samarati, P., “Protecting respondent’s privacy in micro data release”, IEEE Transaction on Knowledge and Data Engineering, Cilt 13, No 6, 1010-1027, 2001.

Korolova, A., “Protecting privacy while mining and sharing user data”, Doktora Tezi, Stanford Üniversitesi, Bilgisayar Mühendisliği Bölümü, 2012.

Verykios, S.V., Bertino, E., Fovino, N.I., Provenza, P.L., Saygin, Y., Theodoridis, Y., “State-of-the-art in Privacy Preserving Data Mining”, ACM SIGMOD Record, Cilt 33, Sayı 1, 50-57, 2004.

Mahmood, S., “New Privacy Threats for Facebook and Twitter Users”, 2012 Seventh International Conference on P2P, Parallel, Grid, Cloud and Internet Computing, Victoria, Kanada, 164-169, 2012.

Barbaro, M., Zeller, M. A Face Is Exposed for AOL Searcher No. 4417749. http://www.nytimes.com/2006/08/09/technology/09aol.html. Ağustos 9, 2016. Erişim Mart 14, 2017.

Wagas. Someone Hacked and Leaked Entire Turkish Citizenship Database Online. https://www.hackread.com/turkish-citizenship-database-hacked-leaked. Nisan, 2016. Erişim Mart 14, 2017.

Fung, B. C. M., Wang, K., Chen, R., Yu, P. S., “Privacy-preserving data publishing: A survey of recent developments”, ACM Computing Surveys (CSUR), Cilt 42, Sayı 4, 523-553, 2010.

Lin, W., Yang, D., Wang, J., “Privacy preserving data anonymization of spontaneous ADE reporting system dataset”, BMC Medical Informatics and Decision Making, Cilt 10, Sayı 1, 21-35, 2016.

Kohlmayer, F., Prasser F., Kuhn KA.,"The cost of quality: Implementing generalization and suppression for anonymizing biomedical data with minimal information loss", Journal of Biomedical Journal of Biomedical Informatics, Cilt 58, Sayı, 37-48, 2015.

Xu, X., Ma,T., Tang, M., TianA W., “Survey of privacy preserving data publishing using generalization and suppression” In Int. Journal on Applied Mathematics & Information Sciences, Cilt 8, Sayı 3, 1103-1116, 2014.

Brüggemann, R., Patil, PG., Partial Order and Hasse Diagrams, Ranking and Prioritization for Multi-indicator Systems, Springer, New York, 13-23, 2011.

Ferrer-Domingo, J., Mateo-Sanz, J.M., “A Comparative Study Of Microaggregation Methods”, Qüestiió Journal, Cilt. 22, Sayı. 3, 511–526, 1998.

Sweeney, L., “k-Anonymity: A model for protecting privacy,” International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, Cilt 10, Sayı 5, 557–570, 2002.

Machanavajjhala, A., Kifer, D., Gehrke, J., Venkitasubramaniam, M., “L-Diversity: Privacy beyond k-anonymity”, ICDE 2006, Atlanta, ABD, 24, 2006.

Li, N., Li, T., Venkatasubramanian, S.,“t-Closeness: Privacy beyond k-anonymity and l-diversity”, In Proceedings of the International Conference on Data Engineering (ICDE), İstanbul, Türkiye, 106–115, 2007.

Lengdong, W., Hua, H., Osmar, RZ., Utility Enhancement for Privacy Preserving Health Data Publishing, Advanced Data Mining and Applications: 9th International Conference, Springer Berlin Heidelberg, Berlin, 311-322, 2013.

Li, T., Li, N., "On the tradeoff between privacy and utility in data publishing",Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, Paris, Fransa, 517-526,2009.

Hua,M., Pei, J., A Survey of Utility-based Privacy-Preserving Data Transformation Methods, Privacy-Preserving Data Mining: Models and Algorithms, Editör: Aggarwal, C., Yu, PS., Springer, Boston, 207-237,2008.

LeFevre, K., DeWitt DJ., Ramakrishnan, R., “Mondrian Multidimensional k-Anonymity,” ICDE 2006, Atlanta, ABD, 25-36 2006.

Bayardo, R. J., Agrawal, R., “Data privacy through optimal k-anonymization”, ICDE 2005 , Tokyo, Japonya, 217–228, 2005.

Sweeney, L., “Datafly: A system for providing anonymity in medical data”.Proceedings of the IFIP TC11 WG11.3 Eleventh International Conference on Database Securty XI: Status and Prospects, Londra, İngiltere, 356–381, 1998.

Sweeney, L. “Achieving k-anonymity privacy protection using generalization and suppression”, International Journal of Uncertainty, Fuzziness and Knowledge-based Systems, Cilt 10, Sayı 5, 571–588, 2002

.

Wang, K., Fung, BCM.,“Anonymizing sequential releases”,Proceedings of the 12th ACM SIGKDD, Philadelphia, ABD, 414–423, 2006.

Lyengar, VS., “Transforming data to satisfy privacy constraints”, Proceedings of the 8th ACM SIGKDD, Edmonton, Kanada, 279–288, 2002.

El Emam, K., “Guide to the De-Identification of Personal Health Information”, CRC Press,Florida, ABD, 2013.

Dankar, F.K., El Emam, K., “A method for evaluating marketer re-identification risk.” Proceedings of the 2010 EDBT/ICDT Workshops, Lausanne, İsviçre, 1-10, 2010.

Prasser, F., Bild, R., Eicher, J., Spengler, H., Kohlmayer,F., Kuhn, KA., “Lightning: Utility-Driven Anonymization of High-Dimensional Data”, Transactions on Data Privacy Cilt 9, Sayı 2, 161–185, 2016.

Prasser, F., Kohlmayer, F., "Putting Statistical Disclosure Control Into Practice: The ARX Data Anonymization Tool", In: Medical Data Privacy Handbook, Editörler: Divanis, AG., Loukides, G., Springer, İsviçre, 111-145, 2015

Kohlmayer, F., Prasser, F., Kuhn, KA., "The Cost of Quality: Implementing Generalization and Suppression for Anonymizing Biomedical Data With Minimal Information Loss", Journal of Biomedical Informatics, Cilt 58, 37-48,2015.

The UCI Machine Learning Repository. Adult Data Set. https://archive.ics.uci.edu/ml/datasets/Adult Erişim tarihi Mart 14, 2017.




Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 License.