Semi supervised learning Türkçe

İÇERİK
1.Supervised Learning
2.Unsupervised Learning
3.Semi-Supervised Learning
4.Semi-Supervised Learning Algorithms

Supervised Learning
Supervised Learning: etiketli verilerden
öğrenmedir. Yapay öğrenmede yoğun olarak
kullanılır.
Ör: Spam mailleri önemli mesajlardan ayıran
bir email sınıflayıcısını ele alalım:

Supervised Learning
M adet örnek alarak spam olanları ve olmayanları
etiketleyelim.

Supervised Learning
M örnek kümesi Destek Vektör Makineleri, Karar
Ağaçları gibi yöntemlerle eğitilir.
Elde edilen eğitim kümesi yeni emaillerin
ayıklanmasında kullanılır.

Kullanım Alanları
Ses Tanıma
Sürücüsüz Araç Sistemleri
Doküman Sınıflama
Yüz Tanıma, Görüntü Tanıma

UnSupervised Learning
Etiketli veri elde etmek pahalıdır ve her zaman
verileri etiketlemek mümkün olamayabilir.
Bunun yanında,
Etiketsiz veriler çok daha ucuzdur.

UnSupervised Learning
Görev: Konuşma analizi
 Telefon Görüşme Kayıtları
 1 saatlik veriyi tanımlayabilmek için 400 saatlik
fonetik seviyede veri setine ihtiyaç duyulur
film  f ih_n uh_gl_n m
be all  bcl b iy iy_tr ao_tr ao l_dl

Etiketli küçük veri setleri ve etiketsiz büyük veri setleri
ile öğrenmedir.
Semi-Supervised Learning Algoritmaları:
Self Training
Generative Models
S3VMs (Transductive SVM)
Graph-Based Algorithms
Multiview Algorithms
Semi-Supervised Learning

Self-Training Algorithm
Algoritma
»»𝑋 𝑢 : Etiketsiz veri »»(𝑋1, 𝑌1): etiketli veri »» 𝑓: öğrenici
1. 𝑋1, 𝑌1 veri setinden 𝑓 ‘yi eğit
2. 𝑥 ∈ 𝑋 𝑢 tahmin et
3. 𝑥, 𝑓 𝑥 etiketli verilere ekle
4. Tekrar et

Çeşitli uygulama şekilleri:
Yüksek güven düzeyine sahip olanları 𝑥, 𝑓 𝑥 ekle
Etiketlenen tüm verileri 𝑥, 𝑓 𝑥 ekle
Belli ağırlık ölçütüne göre ekle

Örnek: Görüntü Tanıma
Resim 10x10 ‘luk küçük parçalara bölünür

Her parça normalize edilir
200 görselden oluşan bir sözlük tanımlanır
 Renk yoğunluğuna göre
etiketleme yapılır

1:0 2:1 3:2 4:2 5:0 6:0 7:0 8:3 9:0 10:3 11:3 12:0 13:0 14:0 15:0 16:3 17:1
18:0 19:0 20:1 21:0 22:0 23:0 24:0 25:6 26:0 27:6 28:0 29:0 30:0 31:1 32:0 33:0 34:0
35:0 36:0 37:0 38:0 39:0 40:0 41:0 42:1 43:0 44:2 45:0 46:0 47:0 48:0 49:3 50:0 51:3
52:0 53:0 54:0 55:1 56:1 57:1 58:1 59:0 60:3 61:1 62:0 63:3 64:0 65:0 66:0 67:0 68:0
69:0 70:0 71:1 72:0 73:2 74:0 75:0 76:0 77:0 78:0 79:0 80:0 81:0 82:0 83:0 84:3 85:1
86:1 87:1 88:2 89:0 90:0 91:0 92:0 93:2 94:0 95:1 96:0 97:1 98:0 99:0 100:0 101:1
102:0 103:0 104:0 105:1 106:0 107:0 108:0 109:0 110:3 111:1 112:0 113:3 114:0 115:0
116:0 117:0 118:3 119:0 120:0 121:1 122:0 123:0 124:0 125:0 126:0 127:3 128:3
129:3 130:4 131:4 132:0 133:0 134:2 135:0 136:0 137:0 138:0 139:0 140:0 141:1
142:0 143:6 144:0 145:2 146:0 147:3 148:0 149:0 150:0 151:0 152:0 153:0 154:1
155:0 156:0 157:3 158:12 159:4 160:0 161:1 162:7 163:0 164:3 165:0 166:0 167:0
168:0 169:1 170:3 171:2 172:0 173:1 174:0 175:0 176:2 177:0 178:0 179:1 180:0
181:1 182:2 183:0 184:0 185:2 186:0 187:0 188:0 189:0 190:0 191:0 192:0 193:1
194:2 195:4 196:0 197:0 198:0 199:0 200:0

1.Adım:
İki etiketli resmi Naive Bayes ile eğit

2.Adım:
Etiketsiz veri setinden tahminde bulun

3.Adım:
Yüksek benzerlikteki resimleri etiketli kümeye ekle

4.Adım:
Tanımlayıcıyı yeniden eğit ve devam et

Self-Training Avantaj-Dezavantaj
Avantajları:
• En basit semi-supervised learning yöntemidir
• Var olan sınıflandırıcılara uygulanabilir
• Doğal dil işleme gibi alanlarda etkin olarak
kullanılabilir
Dezavantajları:
• Güçlü bir eğitim kümesi oluşana kadar hata
yapılabilir

Generative Models
Model parametreleri: 𝜃 = 𝑤1, 𝑤2, 𝜇1, 𝜇2, Σ1, Σ2
Ortak olasılık fonksiyonu:
𝑝 𝑥, 𝑦 𝜃 = 𝑝 𝑦 𝜃 𝑝 𝑥 𝑦, 𝜃
= 𝑤 𝑦 𝒩(𝑥; 𝜇 𝑦, Σ 𝑦)
Bayes kuralı:
Sınıflandırma 𝑝 𝑦 𝑥, 𝜃 =
𝑝 𝑥, 𝑦 𝜃
Σ 𝑦′ 𝑝 𝑥, 𝑦 𝜃

Generative Models
Etiketli veriler 𝑋1, 𝑌1 :
Her bir sınıfın Gauss dağılımına
sahip olduğu göz önüne
alındığında, sınır neresi
olmalıdır?

Generative Models
En uygun model ve sınırları:

Generative Models
Etiketsiz veriler eklendiğinde:

Generative Models
Etiketsiz verilerle birlikte,
en uygun model ve sınırları:

Generative Models
Sınıf sınırları farklı çünkü farklı miktarda veri içeriyorlar
𝑝 𝑋1, 𝑌1 𝜃 𝑝 𝑋1, 𝑌1, 𝑋 𝑢 𝜃

Transductive Support Vector Machines
Semi-Supervised SVMs = Transductive SVMs
(TSVMs)
Etiketli ve etiketsiz verilerin maksimum sınırı aranır

TSVM adımları:
• 𝑋 𝑢 ‘daki tüm mümkün etiketlenebilecek verileri al
• Her birine standart SVM uygula
• En geniş çerçeveli SVM ‘i seç

TSVM
+
+
_
_
etiketli veriler
+
+
_
_
+
+
_
_
SVM

TSVM
+
+
_
_
etiketli veriler
+
+
_
_
+
+
_
_
TSVM
SVM

Avantajları:
• SVM uygulanan her durumda uygulanabilir
• Matematiksel sistemi kolay anlaşılabilirdir
Dezavantajları:
• Optimizasyonu zordur
• Yanlış çözümde hapsolabilir

Graph-Based Methods
 Çok sayıda etiketli veri varsa En Yakın Komşuluk Algoritması
kullanılabilir
 Çok sayıda etiketsiz veri varsa
bunlar çözüm için bir araç
olarak kullanılabilir

Graph-Based Methods
Elyazısı tanımlamada:

Graph-Based Methods
Metin Sınıflandırma örneği
Astronomi ve Seyahat sınıf
 Benzerlik örtüşen kelimelerle
ölçülür

Graph-Based Methods
 Etiketli verilerin tek başına yetersiz kaldığı durumlarda,
 Örtüşen kelime yok!

Graph-Based Methods
Etiketsiz veriler kullanıldığında:
Etiketler benzer etiketsiz kelimelerle eşleşir.

Graph-Based Methods
• Nodes: 𝑋𝑙 ∪ 𝑋 𝑢
• Edges: özelliklerden hesaplanmış benzerlik ağırlıkları
• K-en yakın komşuluk grafiği, ağırlıklandırılmamış (0,1)
• Mesafeye göre ağırlıklandırma
𝑤 = exp −
𝑥 𝑖−𝑥 𝑗
2
𝜎2 ile hesaplanır.
• İstenilen: tüm düğümlerde örtüşen benzerlikler

Graph-Based Methods Algorithms
Kullanılan Algoritmalar
• Mincut
• Harmonic
• Local and Global Consistency
• Manifold Regularization

Co-Training
 Her bir örnek ya da örneği açıklayan özellik iki alt kümeye
bölünebilir.
 Bunların her biri hedef fonksiyonu öğrenmek için yeterlidir.
 İki sınıflandırıcı aynı verileri kullanarak öğrenebilir
Ör: web sayfası sınıflandırması için link ve sayfa içeriği
Multiview Algorithms

Co-Training Algoritması
Giriş: İşaretli veri seti L
İşaretsiz veri seti U
Döngü:
L yi kullanarak h1 i eğit (ör: link sınıflandırıcı)
L yi kullanrak h2 yi eğit (ör: sayfa sınıflandırıcı)
h1 ile U da p tane pozitif, n tane negatif veri etiketle
h2 ile U da p tane pozitif, n tane negatif veri etiketle
Etiketlenen en güvenli verileri L ye ekle

Co-Training Deneysel Sonuçlar
 12 etiketli web sayfası (L)
 1000 etiketsiz web sayfası (U)
 Ortalama hata: etiketli veriler ile öğrenmede %11.1
 Ortalama hata: Co-training ile öğrenmede %5.0
Sayfa bazlı
sınıflandırma
Link bazlı
sınıflandırma
Birleşik
sınıflandırma
Supervised
Learning
12.9 12.4 11.1
Co-training 6.2 11.6 5.0

Kaynaklar
 Olivier Chapelle, Alexander Zien, Bernhard Sch¨olkopf (Eds.). (2006) Semi-
supervised learning. MIT Press.
 Xiaojin Zhu (2005). Semi-supervised learning literature survey. TR-1530. University
of Wisconsin-Madison Department of Computer Science.
 Matthias Seeger (2001). Learning with labeled and unlabeled data.Technical
Report. University of Edinburgh.

Semi supervised learning Türkçe

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Semi supervised learning Türkçe

Notes de l'éditeur