91. 0.0
평준화
[0.0 , 1.0]
시간
가중치
항목
가중치
방송 시청 이력
uno
!
BJID 시청시간 평균
10001 rani0224 10’ 9’
10001 afkbo1 120’ 95’
10001 afmlb1 32’ 93
추천이력
uno
!
BJID Y/N
10001 rani0224 T
10001 afkbo1 T
아이템 사용이력
uno
!
BJID 개수
10001 rani0224 50
10001 afkbo1 10
방송 시청 이력
uno
!
BJID 시청시간
10001 rani0224 0.57
10001 afkbo1 0.73
10001 afmlb1 0.21
추천이력
uno
!
BJID Y/N
10001 rani0224 1.0
10001 afkbo1 1.0
아이템 사용이력
uno
!
BJID 개수
10001 rani0224 0.5
10001 afkbo1 0.1
평균 평준화
Boolean Value
!
[ F, T ] → [ 0 , 1]
Scale
!
[0 , 100] → [0.0 1.0]
1.0 (관심도)
92. 0.0
1.0 (관심도)
평준화
[0.0 , 1.0]
시간
가중치
항목
가중치
30
22.5
15
7.5
0
D D -2 D -4 D -6 D -8 D -10 D -12 D -14 D -16 D -18 D -20 D -22 D -24 D -26 D -28
93. 0.0
1.0 (관심도)
평준화
[0.0 , 1.0]
시간
가중치
항목
가중치
30
22.5
15
7.5
0
[ Tips. 시간 가중치 간단하게 처리 하는 법]
= 데이터값 ÷ (경과일) = D/1 + D/2 + D/3 … D/30
= 데이터값 ÷( (경과일)
= 데이터값 ÷( log(경과일) )
D D -2 D -4 D -6 D -8 D -10 D -12 D -14 D -16 D -18 D -20 D -22 D -24 D -26 D -28
97. 0.0
0.623573 0.57521 0.34565 0.21736
1.0 (관심도)
방송 시청
이벤트
추천
이벤트
아이템선물
이벤트
HDFS 방송시청
평준화
HQL
Redis
Cluster
Sorted
Set
Hive
External
Table
시간
가중치
HQL
BJ
관심도
계산
HQL
(항목
가중치)
Redis
Save
(UDF)
HQL
추천
평준화
HQL
아이템
평준화
HQL
시간
가중치
HQL
시간
가중치
HQL
98. 0.0
0.623573 0.57521 0.34565 0.21736
1.0 (관심도)
방송 시청
이벤트
추천
이벤트
아이템선물
이벤트
HDFS 방송시청
평준화
HQL
Redis
Cluster
Sorted
Set
HIVE
External
Table
시간
가중치
HQL
Redis
Save
(UDF)
HQL
추천
평준화
HQL
아이템
평준화
HQL
시간
가중치
HQL
시간
가중치
HQL
MR-Hive
Compati
ble
BJ
관심도
계산
HQL
(항목
가중치)
99. 0.0
0.623573 0.57521 0.34565 0.21736
1.0 (관심도)
방송 시청
이벤트
추천
이벤트
아이템선물
이벤트
HDFS 방송시청
평균화
HQL
Redis
Cluster
Sorted
Set
HIVE
External
Table
시간
가중치
HQL
Merge
HQL
Redis
Save
(UDF)
HQL
평균화
추천
HQL
아이템
평균화
HQL
시간
가중치
HQL
시간
가중치
HQL
MR-Hive
Compati
ble
Query Base Processing
100. 0.0
0.623573 0.57521 0.34565 0.21736
1.0 (관심도)
방송 시청
이벤트
추천
이벤트
아이템선물
이벤트
HDFS 방송시청
평균화
HQL
Redis
Cluster
Sorted
Set
HIVE
External
Table
시간
가중치
HQL
Merge
HQL
Redis
Save
(UDF)
HQL
평균화
추천
HQL
아이템
평균화
HQL
시간
가중치
HQL
시간
가중치
HQL
MR-Hive
Compati
ble
Query Base Processing
In
Memory
Store
146. 유사도 측정 – 왜 이렇게 알고리즘에 따라
결과가 다른가?
Cosine Similarity !
아빠와 더 닮은 이유?!
Cosine 방식은 Item의 각도 즉 비율을 측정!
그래서 전체적인 비율이 비슷한 아빠가 유사도가 높음
Euclidean Similarity!
엄마와 더 닮은 이유?!
Euclidean은 Item간에 떨어진 거리를 측정!
그래서 엄마가 얼굴이 더 작아서 엄마가 유사도가 높음
147. 이런 사진으로 Eucliean으로 유사도를 측
정한다면?
Euclidean 방식은 아기와 가까운 곳에 있는 사람이 유사하
다고 측정됨
197. 방송 시청
이벤트
Clustering BJ 유사도
HDFS Redis
Cluster
Sorted
Set
hdfs
files
Data
정제
MR
BJ
군집화
MR
Matrix
BJ
유사도
측정
MR
BJ
Matrix
MySQL
관리자 큐레이션 기능
White / Black List / 가중치
198. 방송 시청
이벤트
Clustering BJ 유사도
HDFS Redis
Cluster
Sorted
Set
Hourly Batch Job
hdfs
files
Data
정제
MR
BJ
군집화
MR
Matrix
BJ
유사도
측정
MR
BJ
Matrix
MySQL
관리자 큐레이션 기능
White / Black List / 가중치
199. 방송 시청
이벤트
Clustering BJ 유사도
HDFS Redis
Cluster
Sorted
Set
예전 데이터와 Data
BJ
상관없이
실시간으로 hdfs
정제
군집화
files
MR
변경되는 MR
방송은?
Matrix
BJ
유사도
측정
MR
BJ
Matrix
MySQL
관리자 큐레이션 기능
White / Black List / 가중치
233. Counts
방송 시청
이벤트
방송 시청
이벤트
방송 시청
이벤트
방송 시청
이벤트
Message Queue
방송 시청
방이송벤 트시청
방이송벤 트시청
이벤트
방송 시청
방이송벤 트시청
방이송벤 트시청
방송 시청 이벤트
이벤트
방송 시청
이벤트
Redis
Writer
Redis
Writer
Redis
Writer
Redis
Cluster
Sorted
Set
Aggregation Set
Async Processing
In-Memory
234. Clustering BJ 유사도
Matrix
방송 시청
이벤트
방송 시청
이벤트
방송 시청
이벤트
방송 시청
이벤트
실시간
236. Counts
Message Queue
방송 시청
방이송벤 트시청
방이송벤 트시청
이벤트
방송 시청
방이송벤 트시청
방이송벤 트시청
방송 시청 이벤트
이벤트
방송 시청
이벤트
Redis
Writer
Redis
Writer
Redis
Writer
Redis
Cluster
Sorted
Set
Async
Processing
239. Counts
방송 시청
이벤트
방송 시청
이벤트
방송 시청
이벤트
방송 시청
이벤트
Message Queue
방송 시청
방이송벤 트시청
방이송벤 트시청
이벤트
방송 시청
방이송벤 트시청
방이송벤 트시청
방송 시청 이벤트
이벤트
방송 시청
이벤트
Redis
Writer
Redis
Writer
Redis
Writer
Redis
Cluster
Sorted
Set
Async
Processing
Aggregation
Write
242. Counts
방송 시청
이벤트
방송 시청
이벤트
방송 시청
이벤트
방송 시청
이벤트
Message Queue
방송 시청
방이송벤 트시청
방이송벤 트시청
이벤트
방송 시청
방이송벤 트시청
방이송벤 트시청
방송 시청 이벤트
이벤트
방송 시청
이벤트
Redis
Writer
Redis
Writer
Redis
Writer
Redis
Cluster
Sorted
Set
Async
Processing
Aggregation
Write
In
Memory
Store
381. Data
Stream
Data
Routing
Cache
Store
Batch Process
Workflow Jobs
Realtime Process
시청
자
BJ
방송
Sys
Stat
Hadoop
HQL Jobs
MapReduce
ElasticSearch
Message Queue Architecture
Shard
Store
None
Shard
Store
Zookeeper Coordinator
382. Data
Stream
Data
Routing
Cache
Store
Batch Process
Workflow Jobs
Realtime Process
수집
API
Hadoop
HQL Jobs
MapReduce
ElasticSearch
Redis
Cluster
MySQL
Zookeeper Coordinator
UDP
Sender
Network
Mirroring
File/Mysql
Tailer
ZeroMQ
Thrift
383. Data
Stream
Data
Routing
Cache
Store
Batch Process
장애없이 Workflow 고성능의 Jobs
데이터 수집
(네트워크 미러설정, 신뢰성 × )
Realtime Process
수집
API
Hadoop
HQL Jobs
MapReduce
Elastic Search
Redis
Cluster
MySQL
Zookeeper Coordinator
UDP
Sender
Network
Mirroring
File/Mysql
Tailer
ZeroMQ
Thrift
일반적인 데이터 수집 방법
장애의 영향없이 고성능의 데이터 수집
(신뢰성을 보장 × )
신뢰성이 높음
그러나 에이젼트설치 및 의존성이 높음
384. Data
Stream
Data
Routing
Cache
Store
Batch Process
Workflow Jobs
Realtime Process
수집
API
Hadoop
HQL Jobs
MapReduce
Elastic Search
Redis
Cluster
MySQL
Zookeeper Coordinator
UDP
Sender
Network
Mirroring
File/Mysql
Tailer
ZeroMQ
Thrift
-Dynamic한 Data Pipeline의
추가/변경/삭제 장점
- Workflow 들의 scale-out 지원
- Async Data 처리
- 메시지 Broker없이 다이렉트로 메
시지 전달
- 고성능의 데이터 전달 시 (채팅 등)
385. Data
Stream
Data
Routing
Cache
Store
Batch Process
Workflow Jobs
Realtime Process
수집
API
Hadoop
HQL Jobs
MapReduce
ElasticSearch
Redis
Cluster
MySQL
Zookeeper Coordinator
UDP
Sender
Network
Mirroring
File/Mysql
Tailer
ZeroMQ
Thrift
386. Data
Stream
Data
Routing
Cache
Store
Batch Process
Shard/None Shard Store
Topology 구성
대량의 서비스 트래픽 수용
Workflow Jobs
중간 / 통계 데이터 저장
중급의 서비스 트래픽 수용
Realtime Process
수집
API
Hadoop
HQL Jobs
MapReduce
Elastic Search
Redis
Cluster
MySQL
Zookeeper Coordinator
UDP
Sender
Network
Mirroring
File/Mysql
Tailer
ZeroMQ
Thrift
387. Data
Stream
Data
Routing
Cache
Store
Batch Process
Workflow Jobs
Realtime Process
수집 API
Hadoop
HQL Jobs
MapReduce
Elastic Search
Redis
Cluster
MySQL
Zookeeper Coordinator
UDP
Sender
File/Mysql
Tailer
추천 시스템은?
388. Data
Stream
Data
Routing
Cache
Store
Batch Process
Cowatching Counts
(Workflow Jobs)
Realtime Process
시청
자
BJ
방송
Hadoop
관심도 HQL
연관도
MapReduce
Theme Ranks
(ElasticSearch)
Message Queue Architecture
유저
개인화
(관심도)
BJ
Matrix
(연관도)
Zookeeper Coordinator
Sys
Stat
Theme
Ranks
397. Data
Stream
Data
Routing
Cache
Store
Batch Process
Workflow Jobs
Realtime Process
시청
자
BJ
방송
Hadoop
HQL Jobs
MapReduce
ElasticSearch
Message Queue Architecture
Shard
Store
None
Shard
Store
Zookeeper Coordinator
Sys
Stat
398. Data
Stream
Data
Routing
Cache
Store
Realtime Process
시청
자
BJ
방송
ElasticSearch
!
Message Queue Architecture
None
Shard
Store
Gender/Age 패턴
선형 별풍선 선물 패턴
시청 시간 패턴
강퇴 사용자
…
채팅 패턴
Zookeeper Coordinator