AĞIRLIKLANDIRILMIŞ KOŞULLU KARŞILIKLI BİLGİ İLE ÖZNİTELİK SEÇİMİ

Ceyhun ÇELİK, Hasan Şakir BİLGE
1.835 502

Öz


Büyük verilerin işlenmesi ve bu verilerden anlamlı bilgilerin çıkarılması önemli bir problem haline gelmiştir. Gerçek hayat problemlerinde eldeki verilerin probleme uygun olup olmadığı bilinemez ve ilgisiz veriler oluşturulacak modelin karmaşıklığını arttırır. Daha basit ve düşük maliyetli modeller oluşturmak için veriye boyut indirgeme yaklaşımları uygulanır. Bilgi teorisi tabanlı karşılıklı bilgi yaklaşımları boyut indirgemede yaygın olarak kullanılır. Bu yaklaşımlarda boyut indirgemesi yapılırken veri kümesinden elde edilecek alt kümede girişlerin birbirleri ile minimum fazlalık ve çıkışla maksimum bağımlılığa sahip olması amaçlanmaktadır. Ancak önerilen yaklaşımlarda kullanılan sezgisel fonksiyonlar minimum fazlalık ve maksimum bağımlılık arasındaki ilişkiyi ele alırken değişen problemler karşısında durağan bir yaklaşım sergiler.

Bu çalışmada yeni bir karşılıklı bilgi yaklaşımı önerilmiştir. Önerilen yaklaşımda kullanılan sezgisel fonksiyon, minimum fazlalığın seçim üzerindeki etkinliğini, özniteliklerin sınıfla olan karşılıklı bilgisi ve birbirleri ile olan karşılıklı bilgilerinin arasındaki ilişkiyi değerlendirerek hesaplar. Benzer şekilde maksimum bağımlılık için hem koşullu karşılıklı bilgi hem de karşılıklı bilgi hesaplanır. Böylelikle önerilen sezgisel fonksiyon değişen problemler karşısında dinamik bir yaklaşım sergiler. Test sonuçları önerilen yaklaşımın başarısını göstermektedir. 


Anahtar kelimeler


Öznitelik Seçimi; Koşullu Karşılıklı Bilgi; Maksimum Bağımlılık; Minimum Fazlalık

Tam metin:

PDF


DOI: http://dx.doi.org/10.17341/gummfd.81654

Referanslar


Dash, M., Liu, H., “Feature Selection for Classification”, Intelligent Data Analysis, Cilt 1, 131-156, 1997.

Chandrashekar, G., Sahin, F., “A Survey on Feature Selection Methods”, Computers & Electrical Engineering, Cilt 40, No 1, 16 - 28, 2014.

Alpaydin, E., Introduction to Machine Learning, The MIT Press, 2010.

Guyon, I., “An Introduction to Variable and Feature Selection”, Journal of Machine Learning Research, Cilt 3, 1157-1182, 2003.

Liu, H., Yu, L., “Toward Integrating Feature Selection Algorithms for Classification and Clustering”, IEEE Transactions on Knowledge and Data Engineering, Cilt 17, 491-502, 2005.

Theodoridis, S., Koutroumbas, K., Pattern Recognition, Elsevier, 2008.

Vergara, J., Estevez, P., “A Review of Feature Selection Methods Based on Mutual Information”, Neural Computing and Applications, Cilt 24, No 1, 175-186, 2014.

Cai, Y., Huang, T., Hu, L., Shi, X., Xie, L., Li, Y., “Prediction of Lysine Ubiquitination with mRMR Feature Selection and Analysis”, Amino Acids, Cilt 42, No 4, 1387-1395, 2012.

Abdi, M. J., Hosseini, S. M., Rezghi, M. A., “Novel Weighted Support Vector Machine Based on Particle Swarm Optimization for Gene Selection and Tumor Classification”, Computional and Mathematical Methods in Medicine, Cilt 2012, 1-7, 2012.

Hejazi, M. I., Cai, X., “Input Variable Selection for Water Resources Systems Using A Modified Minimum Redundancy Maximum Relevance (mRMR) Algorithm”, Advances in Water Resources , Cilt 32, No 4, 582 – 593, 2009.

Wang, Y., Miao, Q., Ma, E., Tsui, K. L., Pecht, M., “Online Anomaly Detection for Hard Disk Drives Based on Mahalanobis Distance”, IEEE Transactions on Reliability, Cilt 62, No 1, 136-145, 2013.

Bulling, A., Ward, J., Gellersen, H., Troster, G., “Eye Movement Analysis for Activity Recognition Using Electrooculography”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Cilt 33, No 4, 741-753, 2011.

Battiti, R., “Using Mutual Information for Selecting Features in Supervised Neural Net Learning”, IEEE Transactions on Neural Networks, Cilt 5, No 4, 537-550, 1994.

Peng, H., Long, F., Ding, C., “Feature Selection Based on Mutual Information Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Cilt 27, No 8, 1226-1238, 2005.

Kwak, N., Choi, C. H., “Input Feature Selection for Classification Problems”, IEEE Transactions on Neural Networks, Cilt 13, No 1, 143-159, 2002.

Chow, T. W. S., Huang, D., “Estimating Optimal Feature Subsets Using Efficient Estimation of High-Dimensional Mutual Information”, IEEE Transactions on Neural Networks, Cilt 16, No 1, 213-224, 2005.

Estevez, P., Tesmer, M., Perez, C., Zurada, J., “Normalized Mutual Information Feature Selection”, IEEE Transactions on Neural Networks, Cilt 20, No 2, 189-201, 2009.

Sakar, C. O., Kursun, O., Gurgen, F., “A Feature Selection Method Based on Kernel Canonical Correlation Analysis and The Minimum Redundancy-Maximum Relevance Filter Method”, Expert Systems with Applications, Cilt 39, No 3, 3432 - 3437, 2012.

Sotoca, J. M.i Pla, F., “Supervised Feature Selection by Clustering Using Conditional Mutual Information-Based Distances”, Pattern Recognition, Cilt 43, No 6, 2068 - 2081, 2010.

Cheng, H., Qin, Z., Feng, C., Wang, Y., Li, F., “Conditional Mutual Information-Based Feature Selection Analyzing for Synergy and Redundancy” , ETRI Journal, Cilt 33, 210-218, 2011.

Zeng, Z., Zhang, H., Zhang, R., Zhang, Y., “Hybrid Feature Selection Method Based on Rough Conditional Mutual Information and Naive Bayesian Classifier”, ISRN Applied Mathematics, Cilt 2014, 1-11, 2014.

El Akadi, A., Amine, A., El Ouardighi, A., Aboutajdine, D., “A Two-Stage Gene Selection Scheme Utilizing mRMR Filter and GA Wrapper”, Knowledge and Information Systems, Cilt 26, No 3, 487-500, 2011.

Huang, H., Xie, H. B., Guo, J. Y., Chen, H. J., “Ant Colony Optimization - Based Feature Selection Method for Surface Electromyography Signals Classification”, Computers in Biology and Medicine, Cilt 42, No 1, 30 - 38, 2012.

Bache, K., Lichman, M., UCI Machine Learning Repository, University of California, Irvine, School of Information and Computer Sciences, 2013.

Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P., Coller, H., Loh, M. L., Downing, J. R., Caligiuri, M. A., Bloomfield, C. D., “Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring”, Science, Cilt 286, 531-537, 1999.

Alon, U., Barkai, N., Notterman, D. A., Gish, K., Ybarra, S., Mack, D., Levine, A. J., “Broad Patterns of Gene Expression Revealed by Clustering Analysis of Tumor and Normal Colon Tissues Probed by Oligonucleotide Arrays” Proceedings of the National Academy of Sciences, Cilt 96, No 12, 6745-6750, 1999.

Hsu, C.W., Lin, C.J., “A Comparison of Methods for Multiclass Support Vector Machines”, IEEE Transactions on Neural Networks, Cilt 13, No 2, 415-425, 2002.

Kwak, N., Choi, C. H., “Input Feature Selection by Mutual Information Based on Parzen Window”, IEEE Transactions on Pattern Analysis and Machine Intelligence, Cilt 24, No 12, 1667-1671, 2002.




Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 License.