SlideShare une entreprise Scribd logo
1  sur  44
Semi-Supervised Learning
İÇERİK
1.Supervised Learning
2.Unsupervised Learning
3.Semi-Supervised Learning
4.Semi-Supervised Learning Algorithms
Supervised Learning
Supervised Learning: etiketli verilerden
öğrenmedir. Yapay öğrenmede yoğun olarak
kullanılır.
Ör: Spam mailleri önemli mesajlardan ayıran
bir email sınıflayıcısını ele alalım:
Supervised Learning
M adet örnek alarak spam olanları ve olmayanları
etiketleyelim.
Supervised Learning
M örnek kümesi Destek Vektör Makineleri, Karar
Ağaçları gibi yöntemlerle eğitilir.
Elde edilen eğitim kümesi yeni emaillerin
ayıklanmasında kullanılır.
Kullanım Alanları
Ses Tanıma
Sürücüsüz Araç Sistemleri
Doküman Sınıflama
Yüz Tanıma, Görüntü Tanıma
UnSupervised Learning
Etiketli veri elde etmek pahalıdır ve her zaman
verileri etiketlemek mümkün olamayabilir.
Bunun yanında,
Etiketsiz veriler çok daha ucuzdur.
UnSupervised Learning
Görev: Konuşma analizi
 Telefon Görüşme Kayıtları
 1 saatlik veriyi tanımlayabilmek için 400 saatlik
fonetik seviyede veri setine ihtiyaç duyulur
film  f ih_n uh_gl_n m
be all  bcl b iy iy_tr ao_tr ao l_dl
Etiketli küçük veri setleri ve etiketsiz büyük veri setleri
ile öğrenmedir.
Semi-Supervised Learning Algoritmaları:
Self Training
Generative Models
S3VMs (Transductive SVM)
Graph-Based Algorithms
Multiview Algorithms
Semi-Supervised Learning
Self-Training Algorithm
Algoritma
»»𝑋 𝑢 : Etiketsiz veri »»(𝑋1, 𝑌1): etiketli veri »» 𝑓: öğrenici
1. 𝑋1, 𝑌1 veri setinden 𝑓 ‘yi eğit
2. 𝑥 ∈ 𝑋 𝑢 tahmin et
3. 𝑥, 𝑓 𝑥 etiketli verilere ekle
4. Tekrar et
Self-Training Algorithm
Çeşitli uygulama şekilleri:
Yüksek güven düzeyine sahip olanları 𝑥, 𝑓 𝑥 ekle
Etiketlenen tüm verileri 𝑥, 𝑓 𝑥 ekle
Belli ağırlık ölçütüne göre ekle
Self-Training Algorithm
Örnek: Görüntü Tanıma
Resim 10x10 ‘luk küçük parçalara bölünür
Self-Training Algorithm
Her parça normalize edilir
200 görselden oluşan bir sözlük tanımlanır
 Renk yoğunluğuna göre
etiketleme yapılır
Self-Training Algorithm
1:0 2:1 3:2 4:2 5:0 6:0 7:0 8:3 9:0 10:3 11:3 12:0 13:0 14:0 15:0 16:3 17:1
18:0 19:0 20:1 21:0 22:0 23:0 24:0 25:6 26:0 27:6 28:0 29:0 30:0 31:1 32:0 33:0 34:0
35:0 36:0 37:0 38:0 39:0 40:0 41:0 42:1 43:0 44:2 45:0 46:0 47:0 48:0 49:3 50:0 51:3
52:0 53:0 54:0 55:1 56:1 57:1 58:1 59:0 60:3 61:1 62:0 63:3 64:0 65:0 66:0 67:0 68:0
69:0 70:0 71:1 72:0 73:2 74:0 75:0 76:0 77:0 78:0 79:0 80:0 81:0 82:0 83:0 84:3 85:1
86:1 87:1 88:2 89:0 90:0 91:0 92:0 93:2 94:0 95:1 96:0 97:1 98:0 99:0 100:0 101:1
102:0 103:0 104:0 105:1 106:0 107:0 108:0 109:0 110:3 111:1 112:0 113:3 114:0 115:0
116:0 117:0 118:3 119:0 120:0 121:1 122:0 123:0 124:0 125:0 126:0 127:3 128:3
129:3 130:4 131:4 132:0 133:0 134:2 135:0 136:0 137:0 138:0 139:0 140:0 141:1
142:0 143:6 144:0 145:2 146:0 147:3 148:0 149:0 150:0 151:0 152:0 153:0 154:1
155:0 156:0 157:3 158:12 159:4 160:0 161:1 162:7 163:0 164:3 165:0 166:0 167:0
168:0 169:1 170:3 171:2 172:0 173:1 174:0 175:0 176:2 177:0 178:0 179:1 180:0
181:1 182:2 183:0 184:0 185:2 186:0 187:0 188:0 189:0 190:0 191:0 192:0 193:1
194:2 195:4 196:0 197:0 198:0 199:0 200:0
Self-Training Algorithm
1.Adım:
İki etiketli resmi Naive Bayes ile eğit
Self-Training Algorithm
2.Adım:
Etiketsiz veri setinden tahminde bulun
Self-Training Algorithm
3.Adım:
Yüksek benzerlikteki resimleri etiketli kümeye ekle
Self-Training Algorithm
4.Adım:
Tanımlayıcıyı yeniden eğit ve devam et
Self-Training Avantaj-Dezavantaj
Avantajları:
• En basit semi-supervised learning yöntemidir
• Var olan sınıflandırıcılara uygulanabilir
• Doğal dil işleme gibi alanlarda etkin olarak
kullanılabilir
Dezavantajları:
• Güçlü bir eğitim kümesi oluşana kadar hata
yapılabilir
Generative Models
Model parametreleri: 𝜃 = 𝑤1, 𝑤2, 𝜇1, 𝜇2, Σ1, Σ2
Ortak olasılık fonksiyonu:
𝑝 𝑥, 𝑦 𝜃 = 𝑝 𝑦 𝜃 𝑝 𝑥 𝑦, 𝜃
= 𝑤 𝑦 𝒩(𝑥; 𝜇 𝑦, Σ 𝑦)
Bayes kuralı:
Sınıflandırma 𝑝 𝑦 𝑥, 𝜃 =
𝑝 𝑥, 𝑦 𝜃
Σ 𝑦′ 𝑝 𝑥, 𝑦 𝜃
Generative Models
Etiketli veriler 𝑋1, 𝑌1 :
Her bir sınıfın Gauss dağılımına
sahip olduğu göz önüne
alındığında, sınır neresi
olmalıdır?
Generative Models
En uygun model ve sınırları:
Generative Models
Etiketsiz veriler eklendiğinde:
Generative Models
Etiketsiz verilerle birlikte,
en uygun model ve sınırları:
Generative Models
Sınıf sınırları farklı çünkü farklı miktarda veri içeriyorlar
𝑝 𝑋1, 𝑌1 𝜃 𝑝 𝑋1, 𝑌1, 𝑋 𝑢 𝜃
Transductive Support Vector Machines
Semi-Supervised SVMs = Transductive SVMs
(TSVMs)
Etiketli ve etiketsiz verilerin maksimum sınırı aranır
Transductive Support Vector Machines
TSVM adımları:
• 𝑋 𝑢 ‘daki tüm mümkün etiketlenebilecek verileri al
• Her birine standart SVM uygula
• En geniş çerçeveli SVM ‘i seç
Transductive Support Vector Machines
TSVM
+
+
_
_
etiketli veriler
+
+
_
_
+
+
_
_
SVM
Transductive Support Vector Machines
TSVM
+
+
_
_
etiketli veriler
+
+
_
_
+
+
_
_
SVM
Transductive Support Vector Machines
TSVM
+
+
_
_
etiketli veriler
+
+
_
_
+
+
_
_
SVM
Transductive Support Vector Machines
TSVM
+
+
_
_
etiketli veriler
+
+
_
_
+
+
_
_
SVM
Transductive Support Vector Machines
TSVM
+
+
_
_
etiketli veriler
+
+
_
_
+
+
_
_
TSVM
SVM
Transductive Support Vector Machines
Avantajları:
• SVM uygulanan her durumda uygulanabilir
• Matematiksel sistemi kolay anlaşılabilirdir
Dezavantajları:
• Optimizasyonu zordur
• Yanlış çözümde hapsolabilir
Graph-Based Methods
 Çok sayıda etiketli veri varsa En Yakın Komşuluk Algoritması
kullanılabilir
 Çok sayıda etiketsiz veri varsa
bunlar çözüm için bir araç
olarak kullanılabilir
Graph-Based Methods
Elyazısı tanımlamada:
Graph-Based Methods
Metin Sınıflandırma örneği
Astronomi ve Seyahat sınıf
 Benzerlik örtüşen kelimelerle
ölçülür
Graph-Based Methods
 Etiketli verilerin tek başına yetersiz kaldığı durumlarda,
 Örtüşen kelime yok!
Graph-Based Methods
Etiketsiz veriler kullanıldığında:
Etiketler benzer etiketsiz kelimelerle eşleşir.
Graph-Based Methods
• Nodes: 𝑋𝑙 ∪ 𝑋 𝑢
• Edges: özelliklerden hesaplanmış benzerlik ağırlıkları
• K-en yakın komşuluk grafiği, ağırlıklandırılmamış (0,1)
• Mesafeye göre ağırlıklandırma
𝑤 = exp −
𝑥 𝑖−𝑥 𝑗
2
𝜎2 ile hesaplanır.
• İstenilen: tüm düğümlerde örtüşen benzerlikler
Graph-Based Methods Algorithms
Kullanılan Algoritmalar
• Mincut
• Harmonic
• Local and Global Consistency
• Manifold Regularization
Co-Training
 Her bir örnek ya da örneği açıklayan özellik iki alt kümeye
bölünebilir.
 Bunların her biri hedef fonksiyonu öğrenmek için yeterlidir.
 İki sınıflandırıcı aynı verileri kullanarak öğrenebilir
Ör: web sayfası sınıflandırması için link ve sayfa içeriği
Multiview Algorithms
Co-Training Algoritması
Giriş: İşaretli veri seti L
İşaretsiz veri seti U
Döngü:
L yi kullanarak h1 i eğit (ör: link sınıflandırıcı)
L yi kullanrak h2 yi eğit (ör: sayfa sınıflandırıcı)
h1 ile U da p tane pozitif, n tane negatif veri etiketle
h2 ile U da p tane pozitif, n tane negatif veri etiketle
Etiketlenen en güvenli verileri L ye ekle
Co-Training Deneysel Sonuçlar
 12 etiketli web sayfası (L)
 1000 etiketsiz web sayfası (U)
 Ortalama hata: etiketli veriler ile öğrenmede %11.1
 Ortalama hata: Co-training ile öğrenmede %5.0
Sayfa bazlı
sınıflandırma
Link bazlı
sınıflandırma
Birleşik
sınıflandırma
Supervised
Learning
12.9 12.4 11.1
Co-training 6.2 11.6 5.0
Kaynaklar
 Olivier Chapelle, Alexander Zien, Bernhard Sch¨olkopf (Eds.). (2006) Semi-
supervised learning. MIT Press.
 Xiaojin Zhu (2005). Semi-supervised learning literature survey. TR-1530. University
of Wisconsin-Madison Department of Computer Science.
 Matthias Seeger (2001). Learning with labeled and unlabeled data.Technical
Report. University of Edinburgh.

Contenu connexe

Tendances

오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것NAVER Engineering
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석BOAZ Bigdata
 
Domain adaptation for Image Segmentation
Domain adaptation for Image SegmentationDomain adaptation for Image Segmentation
Domain adaptation for Image SegmentationDeepak Thukral
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs홍배 김
 
[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터Donghyeon Kim
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News DetectionBOAZ Bigdata
 
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...Hansol Kang
 
Detailed Description on Cross Entropy Loss Function
Detailed Description on Cross Entropy Loss FunctionDetailed Description on Cross Entropy Loss Function
Detailed Description on Cross Entropy Loss Function범준 김
 
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용NAVER Engineering
 
Style gan2 review
Style gan2 reviewStyle gan2 review
Style gan2 reviewtaeseon ryu
 
A friendly introduction to GANs
A friendly introduction to GANsA friendly introduction to GANs
A friendly introduction to GANsCsongor Barabasi
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스  - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스  - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발BOAZ Bigdata
 
Fairness and Popularity Bias in Recommender Systems: an Empirical Evaluation
Fairness and Popularity Bias in Recommender Systems: an Empirical EvaluationFairness and Popularity Bias in Recommender Systems: an Empirical Evaluation
Fairness and Popularity Bias in Recommender Systems: an Empirical EvaluationCataldo Musto
 
Synthetic Data for Big Data Privacy
Synthetic Data for Big Data PrivacySynthetic Data for Big Data Privacy
Synthetic Data for Big Data PrivacyMOSTLY AI
 
PRML Chapter 9
PRML Chapter 9PRML Chapter 9
PRML Chapter 9Sunwoo Kim
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현BOAZ Bigdata
 
Generative Adversarial Network (+Laplacian Pyramid GAN)
Generative Adversarial Network (+Laplacian Pyramid GAN)Generative Adversarial Network (+Laplacian Pyramid GAN)
Generative Adversarial Network (+Laplacian Pyramid GAN)NamHyuk Ahn
 

Tendances (20)

오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [투니버스] : 스파크 기반 네이버 웹툰 댓글 수집 및 분석
 
Domain adaptation for Image Segmentation
Domain adaptation for Image SegmentationDomain adaptation for Image Segmentation
Domain adaptation for Image Segmentation
 
Domain adaptation
Domain adaptationDomain adaptation
Domain adaptation
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs
 
[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터[논문리뷰] Data Augmentation for 1D 시계열 데이터
[논문리뷰] Data Augmentation for 1D 시계열 데이터
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [뉴진스] : Multi-modal Fake News Detection
 
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
 
Wasserstein GAN
Wasserstein GANWasserstein GAN
Wasserstein GAN
 
Detailed Description on Cross Entropy Loss Function
Detailed Description on Cross Entropy Loss FunctionDetailed Description on Cross Entropy Loss Function
Detailed Description on Cross Entropy Loss Function
 
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
 
Tuning learning rate
Tuning learning rateTuning learning rate
Tuning learning rate
 
Style gan2 review
Style gan2 reviewStyle gan2 review
Style gan2 review
 
A friendly introduction to GANs
A friendly introduction to GANsA friendly introduction to GANs
A friendly introduction to GANs
 
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스  - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스  - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
제 18회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [추적 24시] : 완전 자동결제를 위한 무인점포 이용자 Tracking System 개발
 
Fairness and Popularity Bias in Recommender Systems: an Empirical Evaluation
Fairness and Popularity Bias in Recommender Systems: an Empirical EvaluationFairness and Popularity Bias in Recommender Systems: an Empirical Evaluation
Fairness and Popularity Bias in Recommender Systems: an Empirical Evaluation
 
Synthetic Data for Big Data Privacy
Synthetic Data for Big Data PrivacySynthetic Data for Big Data Privacy
Synthetic Data for Big Data Privacy
 
PRML Chapter 9
PRML Chapter 9PRML Chapter 9
PRML Chapter 9
 
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
제 17회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [AutoCar죠] : 자율주행 로봇 층간 이동을 위한 인지 기능 구현
 
Generative Adversarial Network (+Laplacian Pyramid GAN)
Generative Adversarial Network (+Laplacian Pyramid GAN)Generative Adversarial Network (+Laplacian Pyramid GAN)
Generative Adversarial Network (+Laplacian Pyramid GAN)
 

Semi supervised learning Türkçe

  • 2. İÇERİK 1.Supervised Learning 2.Unsupervised Learning 3.Semi-Supervised Learning 4.Semi-Supervised Learning Algorithms
  • 3. Supervised Learning Supervised Learning: etiketli verilerden öğrenmedir. Yapay öğrenmede yoğun olarak kullanılır. Ör: Spam mailleri önemli mesajlardan ayıran bir email sınıflayıcısını ele alalım:
  • 4. Supervised Learning M adet örnek alarak spam olanları ve olmayanları etiketleyelim.
  • 5. Supervised Learning M örnek kümesi Destek Vektör Makineleri, Karar Ağaçları gibi yöntemlerle eğitilir. Elde edilen eğitim kümesi yeni emaillerin ayıklanmasında kullanılır.
  • 6. Kullanım Alanları Ses Tanıma Sürücüsüz Araç Sistemleri Doküman Sınıflama Yüz Tanıma, Görüntü Tanıma
  • 7. UnSupervised Learning Etiketli veri elde etmek pahalıdır ve her zaman verileri etiketlemek mümkün olamayabilir. Bunun yanında, Etiketsiz veriler çok daha ucuzdur.
  • 8. UnSupervised Learning Görev: Konuşma analizi  Telefon Görüşme Kayıtları  1 saatlik veriyi tanımlayabilmek için 400 saatlik fonetik seviyede veri setine ihtiyaç duyulur film  f ih_n uh_gl_n m be all  bcl b iy iy_tr ao_tr ao l_dl
  • 9. Etiketli küçük veri setleri ve etiketsiz büyük veri setleri ile öğrenmedir. Semi-Supervised Learning Algoritmaları: Self Training Generative Models S3VMs (Transductive SVM) Graph-Based Algorithms Multiview Algorithms Semi-Supervised Learning
  • 10. Self-Training Algorithm Algoritma »»𝑋 𝑢 : Etiketsiz veri »»(𝑋1, 𝑌1): etiketli veri »» 𝑓: öğrenici 1. 𝑋1, 𝑌1 veri setinden 𝑓 ‘yi eğit 2. 𝑥 ∈ 𝑋 𝑢 tahmin et 3. 𝑥, 𝑓 𝑥 etiketli verilere ekle 4. Tekrar et
  • 11. Self-Training Algorithm Çeşitli uygulama şekilleri: Yüksek güven düzeyine sahip olanları 𝑥, 𝑓 𝑥 ekle Etiketlenen tüm verileri 𝑥, 𝑓 𝑥 ekle Belli ağırlık ölçütüne göre ekle
  • 12. Self-Training Algorithm Örnek: Görüntü Tanıma Resim 10x10 ‘luk küçük parçalara bölünür
  • 13. Self-Training Algorithm Her parça normalize edilir 200 görselden oluşan bir sözlük tanımlanır  Renk yoğunluğuna göre etiketleme yapılır
  • 14. Self-Training Algorithm 1:0 2:1 3:2 4:2 5:0 6:0 7:0 8:3 9:0 10:3 11:3 12:0 13:0 14:0 15:0 16:3 17:1 18:0 19:0 20:1 21:0 22:0 23:0 24:0 25:6 26:0 27:6 28:0 29:0 30:0 31:1 32:0 33:0 34:0 35:0 36:0 37:0 38:0 39:0 40:0 41:0 42:1 43:0 44:2 45:0 46:0 47:0 48:0 49:3 50:0 51:3 52:0 53:0 54:0 55:1 56:1 57:1 58:1 59:0 60:3 61:1 62:0 63:3 64:0 65:0 66:0 67:0 68:0 69:0 70:0 71:1 72:0 73:2 74:0 75:0 76:0 77:0 78:0 79:0 80:0 81:0 82:0 83:0 84:3 85:1 86:1 87:1 88:2 89:0 90:0 91:0 92:0 93:2 94:0 95:1 96:0 97:1 98:0 99:0 100:0 101:1 102:0 103:0 104:0 105:1 106:0 107:0 108:0 109:0 110:3 111:1 112:0 113:3 114:0 115:0 116:0 117:0 118:3 119:0 120:0 121:1 122:0 123:0 124:0 125:0 126:0 127:3 128:3 129:3 130:4 131:4 132:0 133:0 134:2 135:0 136:0 137:0 138:0 139:0 140:0 141:1 142:0 143:6 144:0 145:2 146:0 147:3 148:0 149:0 150:0 151:0 152:0 153:0 154:1 155:0 156:0 157:3 158:12 159:4 160:0 161:1 162:7 163:0 164:3 165:0 166:0 167:0 168:0 169:1 170:3 171:2 172:0 173:1 174:0 175:0 176:2 177:0 178:0 179:1 180:0 181:1 182:2 183:0 184:0 185:2 186:0 187:0 188:0 189:0 190:0 191:0 192:0 193:1 194:2 195:4 196:0 197:0 198:0 199:0 200:0
  • 19. Self-Training Avantaj-Dezavantaj Avantajları: • En basit semi-supervised learning yöntemidir • Var olan sınıflandırıcılara uygulanabilir • Doğal dil işleme gibi alanlarda etkin olarak kullanılabilir Dezavantajları: • Güçlü bir eğitim kümesi oluşana kadar hata yapılabilir
  • 20. Generative Models Model parametreleri: 𝜃 = 𝑤1, 𝑤2, 𝜇1, 𝜇2, Σ1, Σ2 Ortak olasılık fonksiyonu: 𝑝 𝑥, 𝑦 𝜃 = 𝑝 𝑦 𝜃 𝑝 𝑥 𝑦, 𝜃 = 𝑤 𝑦 𝒩(𝑥; 𝜇 𝑦, Σ 𝑦) Bayes kuralı: Sınıflandırma 𝑝 𝑦 𝑥, 𝜃 = 𝑝 𝑥, 𝑦 𝜃 Σ 𝑦′ 𝑝 𝑥, 𝑦 𝜃
  • 21. Generative Models Etiketli veriler 𝑋1, 𝑌1 : Her bir sınıfın Gauss dağılımına sahip olduğu göz önüne alındığında, sınır neresi olmalıdır?
  • 22. Generative Models En uygun model ve sınırları:
  • 24. Generative Models Etiketsiz verilerle birlikte, en uygun model ve sınırları:
  • 25. Generative Models Sınıf sınırları farklı çünkü farklı miktarda veri içeriyorlar 𝑝 𝑋1, 𝑌1 𝜃 𝑝 𝑋1, 𝑌1, 𝑋 𝑢 𝜃
  • 26. Transductive Support Vector Machines Semi-Supervised SVMs = Transductive SVMs (TSVMs) Etiketli ve etiketsiz verilerin maksimum sınırı aranır
  • 27. Transductive Support Vector Machines TSVM adımları: • 𝑋 𝑢 ‘daki tüm mümkün etiketlenebilecek verileri al • Her birine standart SVM uygula • En geniş çerçeveli SVM ‘i seç
  • 28. Transductive Support Vector Machines TSVM + + _ _ etiketli veriler + + _ _ + + _ _ SVM
  • 29. Transductive Support Vector Machines TSVM + + _ _ etiketli veriler + + _ _ + + _ _ SVM
  • 30. Transductive Support Vector Machines TSVM + + _ _ etiketli veriler + + _ _ + + _ _ SVM
  • 31. Transductive Support Vector Machines TSVM + + _ _ etiketli veriler + + _ _ + + _ _ SVM
  • 32. Transductive Support Vector Machines TSVM + + _ _ etiketli veriler + + _ _ + + _ _ TSVM SVM
  • 33. Transductive Support Vector Machines Avantajları: • SVM uygulanan her durumda uygulanabilir • Matematiksel sistemi kolay anlaşılabilirdir Dezavantajları: • Optimizasyonu zordur • Yanlış çözümde hapsolabilir
  • 34. Graph-Based Methods  Çok sayıda etiketli veri varsa En Yakın Komşuluk Algoritması kullanılabilir  Çok sayıda etiketsiz veri varsa bunlar çözüm için bir araç olarak kullanılabilir
  • 36. Graph-Based Methods Metin Sınıflandırma örneği Astronomi ve Seyahat sınıf  Benzerlik örtüşen kelimelerle ölçülür
  • 37. Graph-Based Methods  Etiketli verilerin tek başına yetersiz kaldığı durumlarda,  Örtüşen kelime yok!
  • 38. Graph-Based Methods Etiketsiz veriler kullanıldığında: Etiketler benzer etiketsiz kelimelerle eşleşir.
  • 39. Graph-Based Methods • Nodes: 𝑋𝑙 ∪ 𝑋 𝑢 • Edges: özelliklerden hesaplanmış benzerlik ağırlıkları • K-en yakın komşuluk grafiği, ağırlıklandırılmamış (0,1) • Mesafeye göre ağırlıklandırma 𝑤 = exp − 𝑥 𝑖−𝑥 𝑗 2 𝜎2 ile hesaplanır. • İstenilen: tüm düğümlerde örtüşen benzerlikler
  • 40. Graph-Based Methods Algorithms Kullanılan Algoritmalar • Mincut • Harmonic • Local and Global Consistency • Manifold Regularization
  • 41. Co-Training  Her bir örnek ya da örneği açıklayan özellik iki alt kümeye bölünebilir.  Bunların her biri hedef fonksiyonu öğrenmek için yeterlidir.  İki sınıflandırıcı aynı verileri kullanarak öğrenebilir Ör: web sayfası sınıflandırması için link ve sayfa içeriği Multiview Algorithms
  • 42. Co-Training Algoritması Giriş: İşaretli veri seti L İşaretsiz veri seti U Döngü: L yi kullanarak h1 i eğit (ör: link sınıflandırıcı) L yi kullanrak h2 yi eğit (ör: sayfa sınıflandırıcı) h1 ile U da p tane pozitif, n tane negatif veri etiketle h2 ile U da p tane pozitif, n tane negatif veri etiketle Etiketlenen en güvenli verileri L ye ekle
  • 43. Co-Training Deneysel Sonuçlar  12 etiketli web sayfası (L)  1000 etiketsiz web sayfası (U)  Ortalama hata: etiketli veriler ile öğrenmede %11.1  Ortalama hata: Co-training ile öğrenmede %5.0 Sayfa bazlı sınıflandırma Link bazlı sınıflandırma Birleşik sınıflandırma Supervised Learning 12.9 12.4 11.1 Co-training 6.2 11.6 5.0
  • 44. Kaynaklar  Olivier Chapelle, Alexander Zien, Bernhard Sch¨olkopf (Eds.). (2006) Semi- supervised learning. MIT Press.  Xiaojin Zhu (2005). Semi-supervised learning literature survey. TR-1530. University of Wisconsin-Madison Department of Computer Science.  Matthias Seeger (2001). Learning with labeled and unlabeled data.Technical Report. University of Edinburgh.

Notes de l'éditeur

  1. Maliyeti yüksek Bulunması zor Özel cihazlar gerektirebilir Etiketleme işlemini yapmak için birini tutmak gerekebilir, etiketlerin sağlamlığı açısından özel testler gerekebilir.
  2. Yararlı olduğu pek çok alan vardır Elde etmesi ucuzdur Önemli bilgiler kaybolabilir
  3. En yakın görsel kelimenin indexine göre bir parça tanımlanır.
  4. Generative(üretici) yaklaşımlar istatistiksel öğrenme ile 𝑃(𝑥|𝑦) olasılığını tahmin etmeye çalışarak verilerin hangi sınıfa ait olduğunu bulmaya çalışır
  5. Etiketli veriler üzerinde uygun model ve sınırlar bu şekilde oluşur.
  6. Etiketsiz veriler teta paremetresine göre etiketli verilerle aynı dağılıma sahipse çözümün doğruluğu yükselir. Aksi azaltır.
  7. SVM: danışmanlı öğrenmede etiketli veriler üzerinde maksimum kümeyi arar. TSVM: etiketli ve etiketsiz veriler üzerinde maksimum kümeyi arar.
  8. Sonuç olarak küçük miktardaki etiketli veriler ile büyük miktardaki etiketsiz veriler kullanılarak öğrenme artırılabilir.