Yapay Öğrenme ile Anomali Tespiti: Siyah Kuğuları Yakalamak

07 Ocak 2020 9 dk okunma süresi

Yapay öğrenme kavramı, bilgisayarların bir problemi çözmekte örnek veri ya da deneyimi kullanacak biçimde programlanması olarak tanımlanmıştır [1]. Yapay öğrenme algoritmaları genellikle, veri içindeki düzenlilikleri ve örüntüleri yakalamaya odaklanır. Peki düzen yıkıcıları, çizginin dışındakileri, aykırı değerleri yani anomalileri nasıl yakalayacağız?

 

Bu yazımız ile beklenenden anlamlı bir şekilde farklı olan anomalilerin ne olduğuna ve neden önemli olduklarına göz atacağız. Anomalileri yapay öğrenme yöntemleri ile yakalamanın mümkün olup olmadığını irdeleyeceğiz. Anomali tespiti için, farklı olarak nelere ihtiyacımız olduğunu sorgulayacağız. Ayrıca karmaşık sistemler ve veri bilimi yaklaşımlarını neden bir araya getirmemiz gerektiği konusunda fikir yürüteceğiz.

 

Siyah Kuğu

 

Hayatın her alanında ender rastlanan, beklenmeyen sıra dışı olaylarla karşılaşabiliriz. Nassim Taleb bu tür olayları, yani anomalileri, siyah kuğu olarak niteliyor [2]. Taleb’e göre şimdiye kadar etrafımızda gördüğümüz tüm kuğuların beyaz olması nedeniyle, siyah bir kuğunun var olabileceğini hayal etmememiz oldukça zordur [3].

 

‘’Tek bir gözlem, milyonlarca beyaz kuğunun binlerce yıldır teyit etmiş olduğu genel bir kanıyı geçersiz kılabilir. Bunun için tek bir siyah kuğu olması yeterlidir.’’ - Nassim Taleb [2]

 

Siyah kuğu ile karşılaşmanın, diğer bir ifadeyle beklenmeyen bir duruma maruz kalmanın yıkıcı sonuçları olabilir. Bu durumu kavramak için Bertrant Russell’ın Tümevarımcı Hindi Hikayesi’ni hatırlamak faydalı olacaktır [4].  Bu hikâyede, yemi her gün aksatılmadan verilen bir hindinin insanın dost olduğuna dair inancı her geçen gün daha da pekişmektedir. Şükran Günü geldiğinde, elinde yem yerine bıçak ile gelen insanı gördüğü zaman, hindi geçmişe bakarak gelecek tahmininde bulunmanın fena halde yanıltıcı olduğunu anlar. Fakat artık hindi için çok geçtir.

 

Ana soru: Hindi açısından bakıldığında kelimenin tam anlamıyla düzen yıkıcı bu olay gerçekten tahmin edilemez bir olay mıydı? Yapay öğrenme mühendislerinin, Russell’ın tümevarımcı hindisinin durumuna düşmemesi için ne yapması gerekiyor?

 

Verinin Önemi

 

Daha önceleri karmaşık ve zor problemleri yapay öğrenme ile bilgisayarlara çözdürmek için yepyeni algoritmik yaklaşımlara ihtiyaç duyduğumuza inanıyorduk. Gelişmeler gösterdi ki yepyeni bir yaklaşımdan ziyade, büyük miktarlardaki veriyi halihazırda elimizde olan modellere doğru şekilde dahil etmek başarımızı oldukça arttırabiliyor [1]. İşte tam da bu nedenle, yeni çağın petrolü veridir.

 

Veri, sinyal artı gürültü olarak düşünülmelidir. Ham veri içindeki değerli ve anlamlı bilgiye sinyal, geri kalana ise gürültü deriz. Önemli olan, veri işleme ile veriyi gürültüden temizleyerek değerli sinyali elde edebilmektir [5].

 

Anomali

 

Anomaliler, düzenliliği bozma amacıyla üretilmiş bir bakıma anti-örüntülerdir. Beklenene anlamlı bir biçimde aykırı değerlere sahiptirler. Her gürültü bir anomalidir, ama her anomali bir gürültü değildir. Gürültü yanlışlıkla kaza sonucu üretilmiştir. Anomali ise belirli bir amaca yönelik bilinçli olarak üretilmiş de olabilir. Normal veriler ve anomaliler arasındaki en temel fark niceliktir. Anormal veriler oldukça seyrekken, normal veriler ezici çoğunluğa sahiptir.

 

‘’Bütün mutlu aileler birbirine benzer. Oysa mutsuz ailelerin her birinin kendine özgü bir mutsuzluğu vardı’’ - Tolstoy [6]

 

Ayrıca Tolstoy’a atıfta bulunarak şunları söyleyebiliriz: Bütün normal veriler birbirine benzer. Oysa her anomalinin kendine özgü bir anormalliği vardır.

 

Anomali Tespit Modelleri

 

Anomali tespiti için kullanılabilecek başlıca yöntemler şunlardır:

 

(a) Veri dağılımı Normal dağılıma benziyorsa, ortalamadan 3 standart sapma uzaklıkta bulunan veri noktaları aykırı değerler içerdiği için anomali olarak nitelenebilir.

 

(b)  Denetimsiz yapay öğrenme algoritmaları ile kümeleme yapılarak, merkez noktalar tespit edilir ve veri noktaları merkeze uzaklıkları ölçüsünde anomali olarak nitelenebilir.

 

(c) İzolasyon ormanları yönteminde; değer aralığı içerisinde rastgele bir kesim noktasının üstünde ya da altında kalan tek nokta olması için, yani veri noktasının izole olması için kaç adet kesime ihtiyaç duyduğuna bakılır [7]. Normal noktalar, iç içe olduğu için izole edilmesi kolay değildir ve fazla sayıda kesim gerekir. Anomaliler ise, çok az sayıda kesim noktası ile kolayca izole edilebilir. İzole olana kadar kullanılan kesim sayısı, anomali skoru ile ters orantılıdır.

 

(d) Özel bir derin öğrenme yöntemi olan, AutoEncoder’lar da anomali tespiti için kullanılabilir. Encoder (Kodlama) aşamasında girdi verisi, bir darboğazdan geçirilir ve verinin daha az boyutlu bir temsili elde edilir. Bu aşamada verideki en önemli bilgilerin sıkıştırılmış bir temsili elimize geçmiş olur. Ardından, Decoder (Kod çözme) aşaması aracılığıyla bu sıkıştırılmış bilgi tekrar girdi ile aynı boyuta yükseltilir. Amaç, çıktı katmanında, girdi verisini kayıpsız olarak geri elde etmektir. Burada, sistem sayıca daha fazla olan normal verilerle eğitildiği için normal veride, veriyi tekrar oluşturma hatası düşüktür. Az sayıdaki anormal veriler,  AutoEncoder’lar eğitimi için yeterli olmadığından, anomaliler için veriyi tekrar oluşturma hataları yüksektir. Tekrar oluşturma hatası anomali skoru olarak kullanılabilir.

 

Gerçek Hayatta Anomali Tespiti

 

Anomali tespiti yoğun olarak güvenlik gerektiren sistemlerin izlenmesinde kullanılmaktadır. Bilhassa, finans sektöründeki tüm öncü firmalar sistem loglarında anomali tespiti üzerine çalışmaktadırlar. Firmalar, bilgisayarlardaki veri trafiğinde beklenenin dışında bir aktivite olup olmadığı otomatik olarak tespit etmeye çalışmaktadır. Bu siber saldırı anlamına gelebilir. Finans sektörünün anomali tespiti ile özel olarak ilgilenmesinin asıl nedeni, sahtecilik (fraud) tespitidir. Örneğin, müşteri bilgileri ile beklenmedik yer ve zamanda, sıra dışı meblağlar ile para transferi gerçekleşmesi sahtecilik şüphesi uyandırmaktadır.

 

Karmaşık Sistemler ve Veri Bilimi Topluluğu üyeleri güvenlik kameralarını izleyerek, görüntülerdeki asayişi bozan beklenmeyen durumları (taciz, hırsızlık, kavga vb) tespit etmeye yönelik bir çalışma başlatmıştır [8]. Burada temel varsayım, asayişi bozan olayları içeren görüntülerin, normal görüntülerden anlamlı bir şekilde farklı olduğudur. Benzer biçimde, enerji sektörü de dijital verileri analiz edebilir. Elektrik tüketiminde, ev olarak görünen yerde normalden fazla tüketim yapılıyorsa belki de vergi ödememek için kaçak çalışan merdiven altı bir işletme vardır. Yahut ulusal güvenliği tehdit eden bir üretim yapılmaktadır.

 

Anomali kavramı sosyal bilimlerde ise ‘anomi’ olarak karşımıza çıkar. Anomi, toplumun bireyle olan sosyal bağının kopması olarak tanımlanır. Toplumun kültür ve ahlaki yapısı ile bağını koparmış olan bir birey toplum için tehdit oluşturabilir. Hatta terör örgütlerinin eleman bulması ancak ve ancak bununla mümkün olabilir.

 

Sağlık alanında, beklenenin dışında gelen ölçüm değerleri (nabız, vücut sıcaklığı vb.) ile hastalık tahmini otomatik olarak yapılabilir. Olası bir kalp krizi, önceden tespit edilebilir ya da siz daha hiçbir şeyin farkında değilken doktorunuza bir uyarı bildirimi iletilebilir.

 

Anomali tespitinin gerçek hayatta gerekliliğini anlatan bunun gibi daha birçok örnek sayılabilir. Anomali tespiti ile ilgili tüm bu örnekler, güvenliğimizi tehdit eden durumların önceden tespitine dairdir. Anomali tespitinin kalbinde güvenlik ihtiyacı yatar. Keşke, Bertrant Russell’ın tümevarımcı hindisi de bunu bilseydi.

 

Kritik ve zor olan sorumuza geri dönecek olursak; yapay öğrenme mühendislerinin, Bertrant Russell’ın tümevarımcı hindisinin durumuna düşmemesi için ne yapması gerekiyor?

 

 

Karmaşık Sistemler ve Veri Bilimi

 

Veri zenginleştirme ya da veriyi çeşitlendirme, bizi hindinin düştüğü tuzaktan kurtarabilirdi. Modelimize, yem ile birlikte hindiyi besleyen insanın davranışlarındaki değişimi de ölçmenin ve eklemenin bir yolunu bulmamız gerekmektedir.  Ayrıca, çevredeki diğer veri kaynakları ile kendi verimiz arasında ilişki kurmak da faydalı olacaktır. Daha önceki yıllarda, çevredeki farklı hindilerin başına neler gelmişti?

 

İnsan doğası gereği siyah kuğuları tanımak için programlanmamıştır ve hayatın doğrusal ilişkiler ile ilerlediğine inanmayı ister [9]. Aksi takdirde hayat dayanılmaz olacaktır. Hayatın karmaşıklığına göz kapamayı isteriz. Ders kitaplarımız bile, sadece baş edebildiği doğrusal sistemleri anlatır. Halbuki ne tarih, ne toplum, ne de başka bir kompleks sistem aşamalar halinde düz ve pürüzsüz bir şekilde ilerlemez. Varlığını hissettirmeyen küçük değişimler birikerek, ani kırılmalara ve seviyeler arası sıçramalara neden olur.

 

‘’Mavi hapı alırsan bu hikaye sona erer, yatağında uyanırsın ve neye inanmak istersen ona inanırsın. Kırmızı hapı alırsan harikalar diyarında kalırsın. Ben de sana tavşan deliğinin ne kadar derinlere gittiğini gösteririm. Unutma, sana vadettiğim tek şey hakikat, fazlası değil…’’ – Morpheus, (Matrix Filmi [10])

 

Çok az veri bilimci, Matrix’de Morpheus’un Neo’ya sunduğu kırmızı hapı almayı isteyecektir. Ve ilerleyen yıllarda ortaya çıkacak olan standart veri bilimci enflasyonunda git gide silikleşip kaybolacaktır. Bugünün ve önümüzdeki on yılın bilimi veri bilimidir. Ama bu bilim dalı geleceğin bilimi olan karmaşık sistemler ile birleştirilmelidir. Bu yüzden bilgeliğe giden yolda yürümek isteyenlerimiz, kırmızı hapı alıp karmaşık sistemleri öğrenmelidir. Ve biz insanların çocuğu olan yapay zekâ algoritmalarına da bu yetenekleri kazandırmalıdır.

 

Sizleri, Karmaşık Sistemler ve Veri Bilimi Topluluğumuza katılmaya davet ediyorum [8]. Unutmayın; size vadedilen sadece gerçek, fazlası değil…

 

Dr. Öğr. Üyesi Uzay ÇETİN

İstanbul Bilgi Üniversitesi Bilgisayar Mühendisliği Bölümü

 

Not:

Cansu Başak’a yazım hatalarını düzeltme konusundaki yardımları için ayrıca teşekkür etmek isterim.

 

Kaynakça

 

 

[1] Ethem Alpaydın (2011), Yapay Öğrenme, Boğaziçi Üniversitesi Yayınevi / Temel Bilim – Mühendislik Dizisi, 1. Basım

[2] Taleb, Nassim Nicholas (2008), Siyah Kuğu, Olasılıksız Görünenin Etkisi, Varlık Yayınları

[3] Robin M. Hogarth, Emre Soyer, Jason Ford (2012), Belirsizliğin Doğası: Siyah Kuğular ve Sisli Mayın Tarlaları, Harward Business Review Türkiye

[4] Russel, Bertnard (2017), Felsefe Sorunları, Kabalcı Yayınları 

[5] U. Cetin and Y. E. Gundogmus, Feature Selection with Evolving, Fast and Slow Using Two Parallel Genetic Algorithms, 2019 UBMK, Turkey, 2019, pp. 699-703. doi: 10.1109/UBMK.2019.8907165

[6] Lev Nikolayeviç Tolstoy (2015), Anna Karenina, İletişim Yayıncılık

[7] F. T. Liu, K. M. Ting and Z. Zhou (2008), Isolation Forest, Eighth IEEE International Conference on Data Mining, Pisa, pp. 413-422. doi: 10.1109/ICDM.2008.17

[8] Karmaşık Sistemler ve Veri Bilimi Topluluğu https://www.linkedin.com/company/kavetr/

[9] Utkan Uluçay, Siyah Kuğu Geniş Özeti, Blog yazısı http://daha-iyisini-yapabilirmiyiz.blogspot.com/2015/10/siyah-kugu-nassim-nicholas-taleb-2007.html

[10] The Matrix (1999), Yönetmen Lana Wachowski, Lilly Wachowski