K-Ortalamalar ve parçacık sürü optimizasyonu tabanlı kümeleme algoritmaları için yeni ilklendirme yaklaşımları

Sinem Çınaroğlu, Hasan Bulut
856 88

Öz


Günümüzde mikrodizi teknolojisi sayesinde genlerin farklı seviyelerini eş zamanlı olarak ifade etmek mümkün hale gelmiştir. Genler içindeki gizli bilgilerin temsil edilmesi, genlerin anlaşılabilirliğini kolaylaştırmakta; ancak gen sayısının fazla olması ve veri setlerindeki yüksek gürültü miktarı gen verilerinin anlaşılmasını zorlaştırmaktadır. Bunun için genlerin anlaşılabilirliğini kolaylaştırmak amacıyla kümeleme kullanılmaktadır. Mikrodizi verileri çok boyutlu verilere en iyi örneklerdendir. Çok boyutlu verileri kümelendirmek için çalışma kapsamında standart K-means ve PSO kümeleme algoritmaları için başlangıç küme merkezlerinin seçimine yönelik yeni yöntemler önerilmiştir. Ayrıca öbek (coreset) yaklaşımı PSO algoritmasına uyarlanmıştır. Geliştirilen yöntemlerin doğruluğu; literatürde sıkça kullanılan veri setleri üzerinde test edilmiş ve bu yaklaşımlar Colon Cancer mikrodizi veri seti üzerinde çalıştırılmıştır. Baz alınan standart K-means ve PSO kümeleme yöntemleri ile geliştirilen yaklaşımlar karşılaştırılmış; performansları çözüme ulaşılan ortalama iterasyon sayısı, Rand ve Silhouette indeksleri kullanılarak değerlendirilmiştir. Deneysel çalışmalarda, geliştirilen yaklaşımların öznitelik seçimi yapılmış normalize veri setleri üzerinde başarılı sonuçlar verdiği gözlemlenmiştir.

Anahtar kelimeler


Kümeleme; PSO; K-means; başlangıç merkezi seçimi; öbek

Tam metin:

PDF


Referanslar


Baldi, P., Brunak, S., Bioinformatics: The Machine Learning Approach, 2nd ed., MA: MIT Press, Cambridge, 2001.

Bertone, P., Gerstein, M., "Integrative Data Mining: The New Direction in Bioinformatics Machine Learning for Analyzing Genome-wide Expression Profiles", IEEE Engineering in Medicine and Biology, Cilt 20, 33-40, 2001.

Valafar, F., "Pattern Recognition Techniques in Microarray Data Analysis: A Survey", Annals of New York Academy of Sciences, Cilt 980, No 1, 41-64, 2002.

Jiang, D., Tang, C., Zhang, A., "Cluster Analysis for Gene Expression Data: A Survey", IEEE Transactions on Knowledge and Data Engineering, Cilt 16, No 11, 1370-1386, 2004.

Handl, J., Knowles, J., Kell, D.B., "Computational Cluster Validation in Post-genomic Data Analysis", Bioinformatics, Cilt 21, 3201–3212, 2005.

Forgy, E. W., "Cluster Analysis of Multivariate Data: Efficiency vs. Interpretability of Classifications", Biometrics, Cilt 21, No 3, 768-769, 1965.

Kaufman, L., Rousseeuw, P.J., Finding Groups in Data: An Introduction to Cluster Analysis, John Wiley & Sons, Inc., New York, 355, 1990 .

Katsavounidis, I., Kuo, C., Zhang, Z., "A New Initialization Technique for Generalized Lloyd Iteration", IEEE Signal Processing Letters, Cilt 1, No 10, 144 -146, 1994.

Bradley, P. S., Fayyad, U. M., "Refining Initial Points for K -Means Clustering", Proc. 15th International Conference on Machine Learning, , Cilt 98, 91-99, 1998.

Khan, S. S., Ahmad, A., "Cluster Center Initialization Algorithm for K-means Clustering", Pattern recognition letters, Cilt 25, No 11, 1293-1302, 2004.

Arai, K., Barakbah, A. R., "Hierarchical K-means: An Algorithm for Centroids Initialization for K-means", Reports of the Faculty of Science and Engineering Saga University, Cilt 36, No 1, 25-31, 2007.

Erişoğlu, M., Çalış, N., Sakallıoğlu, S., "A New Algorithm for Initial Cluster Centers in K-means Clustering", Pattern Recognition Letters, Cilt 32, No 14, 1701-1705, 2011.

Aggarwal, N., Aggarwal, K., "A Mid-point Based K-means Clustering Algorithm for Data Mining", International Journal on Computer Science and Engineering (IJCSE)", Cilt 4, No 6, 1174-1180, 2012a.

Aldahdooh, R. T., Ashour, W., "DIMK-means 'Distance-based Initialization Method for K-means Clustering Algorithm'", International Journal of Intelligent Systems and Applications, Cilt 5, No 2, 41-51, 2013.

Jothi, R., Mohanty, S. K., Ojha, A., "On Careful Selection of Initial Centers for K-means Algorithm", In Proceedings of 3rd International Conference on Advanced Computing, Networking and Informatics (ICACNI), Cilt 1, 435-445, 2016.

Kennedy, J., Eberhart, R., "Particle Swarm Optimization", In Proceedings of IEEE International Conference on Neural Networks, Cilt 4, 1942-1948, 1995.

Poli R., Kennedy, J., Blackwell, T., "Particle Swarm Optimization an Overview", Springer Link, Swarm Intelligence, Cilt 1, No 1, 33–57, 2007.

Omran, M., Salman, A., Engelbrecht, A.P., "Image Classification Using Particle Swarm Optimization", In Proceedings of the 4th Asia-Pacific Conference on Simulated Evolution and Learning (SEAL), Cilt 1, 370-374, 2002.

Abraham, A., Das, S., Roy, S., 2008, "Swarm Intelligence Algorithms for Data Clustering", Soft Computing for Knowledge Discovery and Data Mining, Springer, US, 279-313, 2008.

Bādoiu, M., Har-Peled, S., Indyk, P., "Approximate Clustering via Core-sets", In Proceedings of the 34th Annual ACM Symposium on Theory of Computing (STOC), Quebec-Canada, 250-257, 19-21 May 2002.

Rousseeuw, P.J., "Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis", Computational and Applied Mathematics, Cilt 20, No 1, 53–65, 1987.

Rand, W.M., "Objective Criteria for the Evaluation of Clustering Methods", Journal of the American Statistical Association, Cilt 66 No 336, 846–850, 1971.

Guyon, I., Gunn, S., Ben-Hur, A., Dror, G., "Result Analysis of the NIPS 2003 Feature Selection Challenge", In Advances in Neural Information Processing Systems 17, 545–552, 2005.




Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 License.