Bu proje, müşteri şikayetleri içeren büyük bir veri setinde benzer kayıtları tespit etmek ve bu kayıtları bir masaüstü uygulamasında göstermek amacıyla geliştirilmiştir. Proje, veriler arasında benzerliklerin tespitinde multithreading kullanarak arama süresini azaltmayı hedefler.
Multithreading (çok iş parçacıklı çalışma) , bir merkezi işlem biriminin (CPU) (veya çok çekirdekli bir işlemcideki tek bir çekirdeğin) aynı anda işletim sistemi tarafından desteklenen birden fazla yürütme iş parçacığı sağlama yeteneğidir. Bu tür programlamada birden fazla iş parçacığı aynı anda çalışır. Çok iş parçacıklı model, sorgulamalı olay döngüsü kullanmaz. CPU zamanı boşa harcanmaz ve boşta kalma süresi minimumdur. Bu, daha verimli programlarla sonuçlanır. Herhangi bir nedenle bir iş parçacığı duraklatıldığında, diğer iş parçacıkları normal şekilde çalışır.
Bu veri seti, finansal ürünler ve hizmetler hakkında alınan gerçek dünya şikayetlerini içermektedir. Veri seti, müşterilerin Kredi Raporları, Öğrenci Kredileri, Para Transferi gibi finans sektöründeki birden fazla ürün ve hizmet hakkında yaptığı şikayetlerin farklı bilgilerini içermektedir.
Kullanılacak veri setine bu linkten ulaşabilirsiniz: https://www.kaggle.com/datasets/selener/consumer-complaint-database
- Veri İşleme: Şikayetler veri seti, null değerler, noktalama işaretleri ve stopword'lerden temizlenmiştir.
- Benzerlik Tespiti: Multithreading kullanılarak veriler arasındaki benzerlik oranları hesaplanmıştır.
- Grafik Arayüz: Kullanıcı dostu bir masaüstü uygulaması ile verilerin ve benzerlik oranlarının görselleştirilmesi sağlanmıştır.
- Programlama Dili: Python
- GUI Araçları: Qt Designer
- Kütüphaneler:
nltk
- Stopword'leri kaldırmak içinPyQt5
- Grafik arayüzü oluşturmak içinthreading
- Multithreading işlemleri için
-
Gerekli Kütüphaneleri Yükleyin: Gerekli Python kütüphanelerini yüklemek için aşağıdaki komutu çalıştırın:
pip install nltk pyqt5
-
Stopword Veritabanını İndirin: NLTK kütüphanesi tarafından kullanılan stopword veritabanını indirmek için Python komutunu çalıştırın:
import nltk nltk.download('stopwords')
-
Proje Dosyalarını İndirin: Proje dosyalarını GitHub'dan klonlayın veya indirin:
git clone https://github.com/mevlutayilmaz/multithreading-in-big-data.git
-
Uygulamayı Çalıştırın: Proje dizininde
main.py
dosyasını çalıştırarak uygulamayı başlatın:python main.py
-
GUI'yi Dönüştürün: Qt Designer ile oluşturulmuş
.ui
dosyasını Python koduna dönüştürün:pyuic5 -o convertGui.py untitled.ui
Bu adım, Qt Designer'da oluşturduğunuz grafik arayüzün Python koduna dönüştürülmesini sağlar.
convertGui.py
dosyasını proje dizininde bulabilirsiniz. -
Veri Setini Hazırlayın: Proje dizininde
rows.csv
verows2.csv
dosyalarını kullanarak veri setinizi hazırlayın. Bu dosyalar, benzerlik tespiti işlemleri için kullanılacaktır. -
Proje Yapılandırmasını Kontrol Edin:
main.py
,convertGui.py
, veGui.py
dosyalarının doğru yapılandırıldığından emin olun. Her dosya, uygulamanızın doğru çalışması için gerekli olan kodu içermelidir. -
Test ve Geliştirme: Uygulamanızı test edin ve gerekli geliştirmeleri yapın. Uygulama işleyişi ve kullanıcı arayüzü ile ilgili her türlü değişiklik bu aşamada yapılmalıdır.
Uygulamanız açıldıktan sonra, kullanıcı arayüzü üzerinden veri setinizi yükleyebilir ve benzerlik tespiti işlemlerini başlatabilirsiniz.