METİN SINIFLANDIRMADA SEZGİSEL ARAMA ALGORİTMALARININ PERFORMANS ANALİZİ

Ahmet HALTAŞ, Ahmet ALKAN, Mustafa KARABULUT
2.204 452

Öz


Metin sınıflandırma problemlerinde en büyük sorun, veri uzayının büyük boyutta olması ve başarı oranını düşürmesidir. Sezgisel arama algoritmaları literatürde pek çok alanda kapsamlı bir şekilde kullanılıyor olmalarına rağmen metin sınıflandırma alanında yaygın olarak kullanılmamaktadır. Bunun en önemli sebebi, bu algoritmaların özellik seçimi için kullanıldığında oldukça çok vakit ve hesaplama gücüne ihtiyaç duymalarıdır. Bu çalışmada bu algoritmaları metin sınıflandırmada kullanabilecek bir yöntem benimsenmiş ve popüler dört sezgisel arama algoritması (Genetik Arama, Parçacık Sürü Optimizasyon Arama, Evrimsel Arama, TABU Arama) bu amaçla test edilmiştir. Elde edilen sonuçlara göre, bahsi geçen algoritmalar özellik seçimi amaçlı kullanılarak metin sınıflandırma performansını artırmaktadırlar. Az da olsa TABU arama algoritması diğerlerine göre daha iyi sonuç vermiştir.


Anahtar kelimeler


Metin sınıflandırma, sezgisel algoritma, özellik seçimi

Tam metin:

PDF


DOI: http://dx.doi.org/10.17341/gummfd.84777

Referanslar


Joachims, T., “A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization”, Proceedings of the Fourteenth International Conference on Machine Learning, San Francisco, CA, USA, 143–151, 1997.

Oğuzlar, A., ”Metin Madenciliği Nedir?”, Temel Metin Madenciliği, Bursa, Dora Basım, 2011.

Yang Y. ve Pedersen J. O., “A Comparative Study on Feature Selection in Text Categorization”, Proceedings of the Fourteenth International Conference on Machine Learning, San Francisco, CA, USA, 412–420, 1997.

Zheng Z., Wu X., ve Srihari R., “Feature Selection for Text Categorization on Imbalanced Data”, SIGKDD Explor Newsl, Cilt 6, No. 1, 80–89, Haziran 2004.

Karabulut M., “Fuzzy unordered rule induction algorithm in text categorization on top of geometric particle swarm optimization term selection”, Knowl.-Based Syst., Cilt 54, 288–297, Aralık 2013.

Uğuz H., “A two-stage feature selection method for text categorization by using information gain, principal component analysis and genetic algorithm”, Knowl.-Based Syst., Cilt 24, No. 7, 1024–1032, 2011.

Sebastiani F., “Machine Learning in Automated Text Categorization”, ACM Comput. Surv., Cilt 34, sayı 1, 1–47, Mar. 2002.

Lahtinen T., Automatic indexing: an approach using an index term corpus and combining linguistic and statistical methods, Tez, University of Helsinki, Helsinki, 2000.

Kök V., Kuloğlu N., “Sollama Esnasında Taşıt Ve Yol İle İlgili Faktörlerin Karar Ağacı Yöntemiyle İrdelenmesi”, Erciyes Üniversitesi Fen Bilim. Enstitüsü Derg., No. 21(1–2), 180–188, 2005.

Talbi E.G., “Metaheuristics: From Design to Implementation” Wiley Publishing, 2009.

Engelbrecht A. P., “Computational intelligence: an introduction”, 2nd ed. Chichester, England , Hoboken, NJ, John Wiley & Sons, 2007.

Kennedy J. ve Eberhart R., “Particle swarm optimization”, IEEE International Conference on Neural Networks, Cilt 4, 1942–1948, 1995.

Ortakcı Y. ve Göloğlu C., “Parçacık Sürü Optimizasyonu İle Küme Sayısının Belirlenmesi”, Akademik Bilişim, Uşak, 335–341, 2012.

Haupt R. L. ve Haupt S. E., Practical Genetic Algorithms. John Wiley & Sons, 2004.

Nabiyev V. V., Yapay zeka: insan-bilgisayar etkileşimi, Ankara, Seçkin Yayıncılık, 2012.

Czapiński M., “An effective Parallel Multistart Tabu Search for Quadratic Assignment Problem on CUDA platform”, J. Parallel Distrib. Comput., Cilt 73, No. 11, 1461–1468, Kasım 2013.

Sebastiani F., “Machine Learning in Automated Text Categorization”, ACM Comput Surv, Cilt 34, No. 1, 1–47, Mar. 2002.

Alpaydin E., Introduction to machine learning, 2nd ed. Cambridge, MIT Press, 2010.

Aggarwal C. C. ve Zhai C., “A Survey of Text Classification Algorithms”, Mining Text Data, Eds. Springer US, ss. 163–222, 2012.

Yang Y., “An Evaluation of Statistical Approaches to Text Categorization”, Inf Retr, Cilt 1, No. 1–2, ss. 69–90, May 1999.

“Machine Learning Project at the University of Waikato in New Zealand.” [Çevrimiçi]: http://www.cs.waikato.ac.nz/ml/. [Erişim: 24-Mart-2015].




Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 License.