Kümeleme Nedir?

3 min readFeb 19, 2021

Akan Verilerde Kümeleme Nedir?

Kümeleme, danışmansız öğrenme yöntemi ile gerçekleştirilen bir sınıflandırmadır. Küme, içerisindeki nesneler birbirine farklı kümelerde yer alan nesnelere göre daha çok benzemektedir. Kümeleme işlemindeki amaçlardan birisi de kümeler arasındaki farklılıkları ve kümeler içi benzerlikleri en yüksek düzeye çıkarmaktır. Özetlemek gerekirse, aynı kümelerdeki veri noktaları arasındaki benzerlik fazlayken, farklı kümelerdeki veri noktaları arasındaki benzerlik azdır. Kümeleme yönteminde kullanılan yaklaşımlardan birisi de veri noktaları arasındaki uzaklık ölçümü veya yakınlığa dayalı bir benzerlik değerlendirilerek nesnelerin bir araya toplanması şeklinde ifade edilmektedir.

Akan Verilerde Kümeleme

Akan verilerde kümeleme işleminde, sistem veriyi bir defa okumalı, hızlı olmalı ve kendisini gelen veriye göre uyarlayabilmelidir. Akan verilerde kümeleme yöntemlerinin, finansal uygulamalar, ağ (network) analizi, telekomünikasyon, çağrı merkezleri, web, sensör ağ, meteoroloji, bilim ve mühendislik araştırmaları, sosyal medya, mobil uygulamalar, IoT (nesnelerin interneti / Internet of Things) gibi alanlarda kullanımı artmaktadır.

Şekil 5’te görüldüğü gibi akan verinin sonu belli değildir. Boyut sonsuz kabul edilirse verilerin depolanarak işlenme imkanı yoktur. Bu yüzden çevrimiçi öğrenen sistemler geliştirilmektedir. Bu sistemlerin sahip olması gereken özellikler;

Uyarlanabilirlik, sistemin her veri için kendisini uyarlaması gerekmektedir.
Veri sadece bir defa işlenmelidir.
Veri sistem tarafından kısa sürede az kaynak ile işlenebilmeli.
Eski kümelerin yeni veriye göre adapte olabilmesi gerekmektedir (yok etme, birleştirme vb.)
Veri akarken, kümeleme işlemi de devam etmeli.
Sapan verilerin tespiti yapılmalı.
Gerçek zamanlı işleme.

Akan Verilerde Kümeleme Yöntemlerinin Zorlukları

Akan verilerde kümeleme yaparken karşımıza çıkan zorluklardan bazıları aşağıda sıralanmıştır:

Akan veri kümeleme de normal kümeleme yöntemlerinin aksine veriler dinamik ve değişkendir
Verileri depolama ve sonradan işleme imkanı olmamaktadır, veri akışının, teorik olarak bir sonu olmadığı düşünülürse, toplam veri hacmi bile bilinmemektedir.
Sonuçlar zamansal olarak değişmektedir.
Sapan verilerin tespiti ve düzeltilmesi zordur.
Verilerden istatistiksel bilgi çıkarmak zordur.
Parametrelerin belirlenmesi tüm veri olmadığı için oldukça zordur.
Uyarlanabilirlik, modelin her veri için kendisini uyarlaması gerekmektedir.
Veri sadece bir defa işlenmelidir.
Paralel ve iteratif işleme gerektirir.
Veri kısa sürede az kaynak ile işlenebilmelidir.
Eski kümelerin yeni veriye göre adapte olabilmesi gerekmektedir (yok etme, birleştirme gibi).
Veri akarken kümeleme işlemi de devam etmeli.
Anlık olarak model cevap dönebilmeli.
Veri hızına bağlı olarak hızlı ilerleyen bir kümeleme yaklaşımı tercih edilmeli.
Akan verilerde çok boyutlu veri işlemek oldukça zordur bunun için farklı yöntemler geliştirilmeli.

Akan Verilerde Kümeleme Yaklaşımlarının Uygulandığı Alanlar

Günümüzde bütün işlerimizi internet üzerinden halledebiliyor duruma geldik. Bu da yapılan işlemlerin anlık sonuçlanmasını ve bizleri doğru bir şekilde geri dönüş verilmesini gerektirmektedir. Akan verilerde kümeleme yöntemlerinin uygulanabileceği alanlar ise;

Finansal (borsa),
Ağ izleme,
Telekomünikasyon çağrı kayıtları ve verileri,
Web logları ve anlık tıklamalar,
Sensör ağ,
Güvenlik izleme,
Meteorolojik,
Ticaret (kredi kartı işlem akışları),
Bankacılık,
İmalat, güç kaynağı,
Bilim ve mühendislik

gibi alanlarda kullanmakta ve giderek kullanım alanları portföyünü genişletmektedir. IoT’un giderek yaygınlaştığı günümüzde de bu yöntemlerin kullanım alanlarının giderek artacağını söylemek mümkündür .

Written by Zeynep Küçük