3. Supervised Learning
Supervised Learning: etiketli verilerden
öğrenmedir. Yapay öğrenmede yoğun olarak
kullanılır.
Ör: Spam mailleri önemli mesajlardan ayıran
bir email sınıflayıcısını ele alalım:
5. Supervised Learning
M örnek kümesi Destek Vektör Makineleri, Karar
Ağaçları gibi yöntemlerle eğitilir.
Elde edilen eğitim kümesi yeni emaillerin
ayıklanmasında kullanılır.
7. UnSupervised Learning
Etiketli veri elde etmek pahalıdır ve her zaman
verileri etiketlemek mümkün olamayabilir.
Bunun yanında,
Etiketsiz veriler çok daha ucuzdur.
8. UnSupervised Learning
Görev: Konuşma analizi
Telefon Görüşme Kayıtları
1 saatlik veriyi tanımlayabilmek için 400 saatlik
fonetik seviyede veri setine ihtiyaç duyulur
film f ih_n uh_gl_n m
be all bcl b iy iy_tr ao_tr ao l_dl
9. Etiketli küçük veri setleri ve etiketsiz büyük veri setleri
ile öğrenmedir.
Semi-Supervised Learning Algoritmaları:
Self Training
Generative Models
S3VMs (Transductive SVM)
Graph-Based Algorithms
Multiview Algorithms
Semi-Supervised Learning
10. Self-Training Algorithm
Algoritma
»»𝑋 𝑢 : Etiketsiz veri »»(𝑋1, 𝑌1): etiketli veri »» 𝑓: öğrenici
1. 𝑋1, 𝑌1 veri setinden 𝑓 ‘yi eğit
2. 𝑥 ∈ 𝑋 𝑢 tahmin et
3. 𝑥, 𝑓 𝑥 etiketli verilere ekle
4. Tekrar et
11. Self-Training Algorithm
Çeşitli uygulama şekilleri:
Yüksek güven düzeyine sahip olanları 𝑥, 𝑓 𝑥 ekle
Etiketlenen tüm verileri 𝑥, 𝑓 𝑥 ekle
Belli ağırlık ölçütüne göre ekle
19. Self-Training Avantaj-Dezavantaj
Avantajları:
• En basit semi-supervised learning yöntemidir
• Var olan sınıflandırıcılara uygulanabilir
• Doğal dil işleme gibi alanlarda etkin olarak
kullanılabilir
Dezavantajları:
• Güçlü bir eğitim kümesi oluşana kadar hata
yapılabilir
26. Transductive Support Vector Machines
Semi-Supervised SVMs = Transductive SVMs
(TSVMs)
Etiketli ve etiketsiz verilerin maksimum sınırı aranır
27. Transductive Support Vector Machines
TSVM adımları:
• 𝑋 𝑢 ‘daki tüm mümkün etiketlenebilecek verileri al
• Her birine standart SVM uygula
• En geniş çerçeveli SVM ‘i seç
33. Transductive Support Vector Machines
Avantajları:
• SVM uygulanan her durumda uygulanabilir
• Matematiksel sistemi kolay anlaşılabilirdir
Dezavantajları:
• Optimizasyonu zordur
• Yanlış çözümde hapsolabilir
34. Graph-Based Methods
Çok sayıda etiketli veri varsa En Yakın Komşuluk Algoritması
kullanılabilir
Çok sayıda etiketsiz veri varsa
bunlar çözüm için bir araç
olarak kullanılabilir
41. Co-Training
Her bir örnek ya da örneği açıklayan özellik iki alt kümeye
bölünebilir.
Bunların her biri hedef fonksiyonu öğrenmek için yeterlidir.
İki sınıflandırıcı aynı verileri kullanarak öğrenebilir
Ör: web sayfası sınıflandırması için link ve sayfa içeriği
Multiview Algorithms
42. Co-Training Algoritması
Giriş: İşaretli veri seti L
İşaretsiz veri seti U
Döngü:
L yi kullanarak h1 i eğit (ör: link sınıflandırıcı)
L yi kullanrak h2 yi eğit (ör: sayfa sınıflandırıcı)
h1 ile U da p tane pozitif, n tane negatif veri etiketle
h2 ile U da p tane pozitif, n tane negatif veri etiketle
Etiketlenen en güvenli verileri L ye ekle
43. Co-Training Deneysel Sonuçlar
12 etiketli web sayfası (L)
1000 etiketsiz web sayfası (U)
Ortalama hata: etiketli veriler ile öğrenmede %11.1
Ortalama hata: Co-training ile öğrenmede %5.0
Sayfa bazlı
sınıflandırma
Link bazlı
sınıflandırma
Birleşik
sınıflandırma
Supervised
Learning
12.9 12.4 11.1
Co-training 6.2 11.6 5.0
44. Kaynaklar
Olivier Chapelle, Alexander Zien, Bernhard Sch¨olkopf (Eds.). (2006) Semi-
supervised learning. MIT Press.
Xiaojin Zhu (2005). Semi-supervised learning literature survey. TR-1530. University
of Wisconsin-Madison Department of Computer Science.
Matthias Seeger (2001). Learning with labeled and unlabeled data.Technical
Report. University of Edinburgh.
Notes de l'éditeur
Maliyeti yüksek Bulunması zor Özel cihazlar gerektirebilir
Etiketleme işlemini yapmak için birini tutmak gerekebilir, etiketlerin sağlamlığı açısından özel testler gerekebilir.
Yararlı olduğu pek çok alan vardır Elde etmesi ucuzdur Önemli bilgiler kaybolabilir
En yakın görsel kelimenin indexine göre bir parça tanımlanır.
Generative(üretici) yaklaşımlar istatistiksel öğrenme ile 𝑃(𝑥|𝑦) olasılığını tahmin etmeye çalışarak verilerin hangi sınıfa ait olduğunu bulmaya çalışır
Etiketli veriler üzerinde uygun model ve sınırlar bu şekilde oluşur.
Etiketsiz veriler teta paremetresine göre etiketli verilerle aynı dağılıma sahipse çözümün doğruluğu yükselir. Aksi azaltır.
SVM: danışmanlı öğrenmede etiketli veriler üzerinde maksimum kümeyi arar.
TSVM: etiketli ve etiketsiz veriler üzerinde maksimum kümeyi arar.
Sonuç olarak küçük miktardaki etiketli veriler ile büyük miktardaki etiketsiz veriler kullanılarak öğrenme artırılabilir.