SlideShare une entreprise Scribd logo
1  sur  15
Overview 
스파크 사용자 모임 
(www.facebook.com/groups/sparkkoreauser/) 
이상훈 (SK C&C) 
(phoenixlee1@gmail.com)
스파크 사용자 모임 진행상황 
• 제 1회 테크톡 (14.11.06) 
• Spark Overview, 이상훈, SK C&C 
• Spark를 이용한 데이터분석(powered by Zeppelin), 김상우, 
VCNC 
• Analysis Access log with Spark, Alex, NFLabs 
• Iot와 Realtime Analysis, BICube 
• 제 2회 테크톡 (예정) 
• Spark Streaming + Kafka, 원종석, 다음 카카오 
• Spark SQL 
• SparkR 
• …
Apache Spark? 
• Cluster computing platform designed to be fast and 
general-purpose 
• Speed : RDD라는 방식을 통해 메모리를 사용을 극대화하여 
interactive, streaming이 빠르게 처리 
• Generality : 분산처리, 배치처리, interactive, streaming을 모두 
같은 엔짂위에서 처리하도록 하며 각각의 작업의 연계가 쉽도록 
되어 있음 
• In addition : Python, Java, Scala + SQL + libraries 
• 설계목표 
• Low Latency Query -> Interactive 
• Low Latency queries on live data -> Streaming 
• Sophisticated data processing -> Machine Learning…
Fast! 
“Spark the fastest open source engine for sorting a petabyte” - DataBricks
History 
• History 
• 09년 UC Berkeley RAD Lab(AMP Lab 젂싞)에 의해 시작됨 
• Mapreduce을 이용하다가 iteration과 interactive job에 한계를 
느끼고 새로운 프로젝트를 기획 
• 11년 UC Berkeley AMP Lab에 의해 High Level Component 개 
발 시작 
• BDAS(Berkeley Data Analytics Stack) – Shark, Spark Streaming, 
Tachyon 
• 13년 06월 Apache 프로젝트로 옮겨졌고 현재는 Apache Top 
Project
Spark Stack
RDDs, Cluster Manager 
• RDDs (Resilient Distributed Datasets) 
• 클러스터 젂체에서 공유되는 데이터 형태로 대부분 메모리에 올 
라가 있음 
• Read Only - 데이터를 수정할 수 있게되면 데이터 유실시 복구 
가 어려움. 대싞 새로운 메모리를 확보하여 새로운 값을 할당. 
• Fault Tolerance – Lineage를 이용한 데이터 복구
RDDs, Cluster Manager 
• RDDs (Resilient Distributed Datasets) 
• Need not exist in physical storage – RDDs는 메모리에 분산 임 
시저장하기 때문에 데이터 처리시 디스크를 사용하지 않음. 그러 
나, 데이터 복구시 매우 안정적인 저장공갂으로부터 (ex> HDFS) 
데이터를 복원하기 시작함 
• Laziness : 모든 작업은 여러 작업을 설정해두고 마지막 
Operation 함수 수행시 계산함 
• Map, Reduce, Counter, Filter, Join 등 다양한 작업이 가능 
• Cluster Manager 
• Standalone, Yarn, Mesos 
• 우리는…. Yarn으로 맋이 통합되고 있음
Spark SQL & Shark 
• Shark 
• Spark의 “Sark”와 Hive의 “H”를 합쳐서 맊든 단어로 Spark 엔짂 
위에서 Hive가 동작
Spark SQL & Shark 
• Shark 
• Mapreduce의 불필요한 Harddisk 쓰기를 없앴음 
• In-memory, Harddisk, Hybrid Table 지원 
• 다른 Spark Component와의 연계 
• 우리는.. 
• 1~2년젂 Hive가 너무 느려서 방법을 찾던중 우연히 발견 
• 무엇보다 Hive UDF가 호홖된다는 점에서 매력적이었음 
• Hive를 다시 뜯어고치며 업데이트하다보니 필요한 기능이 늦게 업 
데이트 되는것이 가장 큰 문제였음. 
• 그리고 메모리 오류도 자주 발생 
• 그러나, In-memory table에서의 작업이 너무 빠름! 
• 데이터가 큰 ETL과 기본 통계작업은 Tajo로.. Report나 On-line 
Query는 Shark로 운영중.(50여대)
Spark SQL & Shark 
• Spark SQL 
• “Spark the fastest open source engine for sorting a petabyte” 
• 우리는… 
• 하반기까지 Shark를 Spark SQL로 젂홖하려고 했으나.. 
• ODBC Server가 불안정 
• Parquet 방식의 Partitioned Table이 제대로 지원이 안됨 -> 젂홖 연기
Spark Streaming
Spark Streaming 
• 우리는.. 
• 보안관제 분석 부분 빅데이터(?) 실시갂 이슈가 발생하여 솔루션 
을 맊들기로 함 
• Storm과 Spark Streaming로 2번의 POC를(12년, 13년) 했으나 
Spark Streaming은 아직 안정성이 떨어짂다고 판단함 
• 갂단한 프로젝트는 Redis를 이용했고 복잡한 프로젝트에서는 
Storm을 주로 사용함 
• Storm VS Spark Streaming 
• Real Streaming VS Micro batch 
• At Most Once, At Least Once, Exactly Once VS Exactly Once 
• Fault-tolerance 
• Plugin Data Source VS Fixed Data Source 
• 1 million Records/s/node? VS 10 thousands records/s/node?
MLlib, GraphX 
• Machine Learning, Graph 분석할 수 있도록 해줌 
• 가장 유명한 Mahout과 비교하면 아직 알고리즘이 맋이 
구현된 상태는 아니지맊 속도는 훨씬 빠름 
• Machine Learning 특성상 반복작업이 맋아서 더 큰 차이 
가 발생할 수도 있음 
• 우리는… 
• 맨날 사젂 테스트맊 하고 프로젝트에서 제대로 홗용해보지 못했음..: : (
Future of Spark 
• Spark Summit 
• Spark summit East 2015, New York (3월) 
• Spark summit 2015, San Francisco (6월) 
• 업데이트 
• 현재 안정화 버젂 1.1 
• 3달에 한번씩 Minor release 
• Join 
• Mahout On Spark 
• Hive On Spark 
• Spark & Tez 
• SparkR 
• Tableau on Spark 
• Zepplin

Contenu connexe

Tendances

Spark machine learning & deep learning
Spark machine learning & deep learningSpark machine learning & deep learning
Spark machine learning & deep learninghoondong kim
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기AWSKRUG - AWS한국사용자모임
 
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With SparkSpark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With SparkSangHoon Lee
 
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지위키북스
 
Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Teddy Choi
 
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampCloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampSang-bae Lim
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습동현 강
 
Apache Zeppelin으로 데이터 분석하기
Apache Zeppelin으로 데이터 분석하기Apache Zeppelin으로 데이터 분석하기
Apache Zeppelin으로 데이터 분석하기SangWoo Kim
 
스사모 테크톡 - Apache Flink 둘러보기
스사모 테크톡 - Apache Flink 둘러보기스사모 테크톡 - Apache Flink 둘러보기
스사모 테크톡 - Apache Flink 둘러보기SangWoo Kim
 
Apache Spark 입문에서 머신러닝까지
Apache Spark 입문에서 머신러닝까지Apache Spark 입문에서 머신러닝까지
Apache Spark 입문에서 머신러닝까지Donam Kim
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache TajoGruter
 
2.apache spark 실습
2.apache spark 실습2.apache spark 실습
2.apache spark 실습동현 강
 
Presto, Zeppelin을 이용한 초간단 BI 구축 사례
Presto, Zeppelin을 이용한 초간단 BI 구축 사례Presto, Zeppelin을 이용한 초간단 BI 구축 사례
Presto, Zeppelin을 이용한 초간단 BI 구축 사례Hyoungjun Kim
 
왜 Spark 와 infinispan 왜 같이 쓰지
왜 Spark 와 infinispan 왜 같이 쓰지 왜 Spark 와 infinispan 왜 같이 쓰지
왜 Spark 와 infinispan 왜 같이 쓰지 Un Gi Jung
 
Spark로 알아보는 빅데이터 처리
Spark로 알아보는 빅데이터 처리Spark로 알아보는 빅데이터 처리
Spark로 알아보는 빅데이터 처리Jeong-gyu Kim
 
Cloudera & Zookeeper
Cloudera & ZookeeperCloudera & Zookeeper
Cloudera & ZookeeperJunyoung Park
 
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축Juhong Park
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWSMatthew (정재화)
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)SANG WON PARK
 

Tendances (20)

Spark machine learning & deep learning
Spark machine learning & deep learningSpark machine learning & deep learning
Spark machine learning & deep learning
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With SparkSpark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With Spark
 
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
빅데이터 분석을 위한 스파크 2 프로그래밍 : 대용량 데이터 처리부터 머신러닝까지
 
Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)Spark와 Hadoop, 완벽한 조합 (한국어)
Spark와 Hadoop, 완벽한 조합 (한국어)
 
Cloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcampCloudera session seoul - Spark bootcamp
Cloudera session seoul - Spark bootcamp
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 
Apache Zeppelin으로 데이터 분석하기
Apache Zeppelin으로 데이터 분석하기Apache Zeppelin으로 데이터 분석하기
Apache Zeppelin으로 데이터 분석하기
 
스사모 테크톡 - Apache Flink 둘러보기
스사모 테크톡 - Apache Flink 둘러보기스사모 테크톡 - Apache Flink 둘러보기
스사모 테크톡 - Apache Flink 둘러보기
 
Apache Spark 입문에서 머신러닝까지
Apache Spark 입문에서 머신러닝까지Apache Spark 입문에서 머신러닝까지
Apache Spark 입문에서 머신러닝까지
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
Introduction to Apache Tajo
Introduction to Apache TajoIntroduction to Apache Tajo
Introduction to Apache Tajo
 
2.apache spark 실습
2.apache spark 실습2.apache spark 실습
2.apache spark 실습
 
Presto, Zeppelin을 이용한 초간단 BI 구축 사례
Presto, Zeppelin을 이용한 초간단 BI 구축 사례Presto, Zeppelin을 이용한 초간단 BI 구축 사례
Presto, Zeppelin을 이용한 초간단 BI 구축 사례
 
왜 Spark 와 infinispan 왜 같이 쓰지
왜 Spark 와 infinispan 왜 같이 쓰지 왜 Spark 와 infinispan 왜 같이 쓰지
왜 Spark 와 infinispan 왜 같이 쓰지
 
Spark로 알아보는 빅데이터 처리
Spark로 알아보는 빅데이터 처리Spark로 알아보는 빅데이터 처리
Spark로 알아보는 빅데이터 처리
 
Cloudera & Zookeeper
Cloudera & ZookeeperCloudera & Zookeeper
Cloudera & Zookeeper
 
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
[NDC 2018] Spark, Flintrock, Airflow 로 구현하는 탄력적이고 유연한 데이터 분산처리 자동화 인프라 구축
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 

Similaire à Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106

Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Jungsu Heo
 
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들Woong Seok Kang
 
Python & Spark
Python & SparkPython & Spark
Python & Sparkitproman35
 
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdfSK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdfDeukJin Jeon
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big dataH K Yoon
 
분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기NAVER D2
 
Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Keeyong Han
 
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기Wonha Ryu
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)SeungYong Baek
 
Spark streaming tutorial
Spark streaming tutorialSpark streaming tutorial
Spark streaming tutorialMinho Kim
 
[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준NAVER D2
 
Bottled water 요약 설명 20151114
Bottled water 요약 설명 20151114Bottled water 요약 설명 20151114
Bottled water 요약 설명 20151114Daeyong Shin
 
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019devCAT Studio, NEXON
 
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처hoondong kim
 
[스마트스터디]MongoDB 의 역습
[스마트스터디]MongoDB 의 역습[스마트스터디]MongoDB 의 역습
[스마트스터디]MongoDB 의 역습smartstudy_official
 
The nosql echossytem
The nosql echossytemThe nosql echossytem
The nosql echossytem종석 박
 
[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영NAVER D2
 

Similaire à Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106 (20)

Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
Web Analytics at Scale with Elasticsearch @ naver.com - Part 1
 
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들
AWSKRUG DS - 데이터 엔지니어가 실무에서 맞닥뜨리는 문제들
 
Python & Spark
Python & SparkPython & Spark
Python & Spark
 
Apache Spark
Apache SparkApache Spark
Apache Spark
 
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdfSK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
SK ICT Tech Summit 2019_BIG DATA-11번가_DP_v1.2.pdf
 
NoSQL
NoSQLNoSQL
NoSQL
 
빅데이터, big data
빅데이터, big data빅데이터, big data
빅데이터, big data
 
분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기분산저장시스템 개발에 대한 12가지 이야기
분산저장시스템 개발에 대한 12가지 이야기
 
Hadoop Introduction (1.0)
Hadoop Introduction (1.0)Hadoop Introduction (1.0)
Hadoop Introduction (1.0)
 
Start spark
Start sparkStart spark
Start spark
 
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
NDC 2016, [슈판워] 맨땅에서 데이터 분석 시스템 만들어나가기
 
데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)데이터 레이크 알아보기(Learn about Data Lake)
데이터 레이크 알아보기(Learn about Data Lake)
 
Spark streaming tutorial
Spark streaming tutorialSpark streaming tutorial
Spark streaming tutorial
 
[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준[246] foursquare데이터라이프사이클 설현준
[246] foursquare데이터라이프사이클 설현준
 
Bottled water 요약 설명 20151114
Bottled water 요약 설명 20151114Bottled water 요약 설명 20151114
Bottled water 요약 설명 20151114
 
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
 
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처
[AI & DevOps] BigData Scale Production AI 서비스를 위한 최상의 플랫폼 아키텍처
 
[스마트스터디]MongoDB 의 역습
[스마트스터디]MongoDB 의 역습[스마트스터디]MongoDB 의 역습
[스마트스터디]MongoDB 의 역습
 
The nosql echossytem
The nosql echossytemThe nosql echossytem
The nosql echossytem
 
[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영
 

Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106

  • 1. Overview 스파크 사용자 모임 (www.facebook.com/groups/sparkkoreauser/) 이상훈 (SK C&C) (phoenixlee1@gmail.com)
  • 2. 스파크 사용자 모임 진행상황 • 제 1회 테크톡 (14.11.06) • Spark Overview, 이상훈, SK C&C • Spark를 이용한 데이터분석(powered by Zeppelin), 김상우, VCNC • Analysis Access log with Spark, Alex, NFLabs • Iot와 Realtime Analysis, BICube • 제 2회 테크톡 (예정) • Spark Streaming + Kafka, 원종석, 다음 카카오 • Spark SQL • SparkR • …
  • 3. Apache Spark? • Cluster computing platform designed to be fast and general-purpose • Speed : RDD라는 방식을 통해 메모리를 사용을 극대화하여 interactive, streaming이 빠르게 처리 • Generality : 분산처리, 배치처리, interactive, streaming을 모두 같은 엔짂위에서 처리하도록 하며 각각의 작업의 연계가 쉽도록 되어 있음 • In addition : Python, Java, Scala + SQL + libraries • 설계목표 • Low Latency Query -> Interactive • Low Latency queries on live data -> Streaming • Sophisticated data processing -> Machine Learning…
  • 4. Fast! “Spark the fastest open source engine for sorting a petabyte” - DataBricks
  • 5. History • History • 09년 UC Berkeley RAD Lab(AMP Lab 젂싞)에 의해 시작됨 • Mapreduce을 이용하다가 iteration과 interactive job에 한계를 느끼고 새로운 프로젝트를 기획 • 11년 UC Berkeley AMP Lab에 의해 High Level Component 개 발 시작 • BDAS(Berkeley Data Analytics Stack) – Shark, Spark Streaming, Tachyon • 13년 06월 Apache 프로젝트로 옮겨졌고 현재는 Apache Top Project
  • 7. RDDs, Cluster Manager • RDDs (Resilient Distributed Datasets) • 클러스터 젂체에서 공유되는 데이터 형태로 대부분 메모리에 올 라가 있음 • Read Only - 데이터를 수정할 수 있게되면 데이터 유실시 복구 가 어려움. 대싞 새로운 메모리를 확보하여 새로운 값을 할당. • Fault Tolerance – Lineage를 이용한 데이터 복구
  • 8. RDDs, Cluster Manager • RDDs (Resilient Distributed Datasets) • Need not exist in physical storage – RDDs는 메모리에 분산 임 시저장하기 때문에 데이터 처리시 디스크를 사용하지 않음. 그러 나, 데이터 복구시 매우 안정적인 저장공갂으로부터 (ex> HDFS) 데이터를 복원하기 시작함 • Laziness : 모든 작업은 여러 작업을 설정해두고 마지막 Operation 함수 수행시 계산함 • Map, Reduce, Counter, Filter, Join 등 다양한 작업이 가능 • Cluster Manager • Standalone, Yarn, Mesos • 우리는…. Yarn으로 맋이 통합되고 있음
  • 9. Spark SQL & Shark • Shark • Spark의 “Sark”와 Hive의 “H”를 합쳐서 맊든 단어로 Spark 엔짂 위에서 Hive가 동작
  • 10. Spark SQL & Shark • Shark • Mapreduce의 불필요한 Harddisk 쓰기를 없앴음 • In-memory, Harddisk, Hybrid Table 지원 • 다른 Spark Component와의 연계 • 우리는.. • 1~2년젂 Hive가 너무 느려서 방법을 찾던중 우연히 발견 • 무엇보다 Hive UDF가 호홖된다는 점에서 매력적이었음 • Hive를 다시 뜯어고치며 업데이트하다보니 필요한 기능이 늦게 업 데이트 되는것이 가장 큰 문제였음. • 그리고 메모리 오류도 자주 발생 • 그러나, In-memory table에서의 작업이 너무 빠름! • 데이터가 큰 ETL과 기본 통계작업은 Tajo로.. Report나 On-line Query는 Shark로 운영중.(50여대)
  • 11. Spark SQL & Shark • Spark SQL • “Spark the fastest open source engine for sorting a petabyte” • 우리는… • 하반기까지 Shark를 Spark SQL로 젂홖하려고 했으나.. • ODBC Server가 불안정 • Parquet 방식의 Partitioned Table이 제대로 지원이 안됨 -> 젂홖 연기
  • 13. Spark Streaming • 우리는.. • 보안관제 분석 부분 빅데이터(?) 실시갂 이슈가 발생하여 솔루션 을 맊들기로 함 • Storm과 Spark Streaming로 2번의 POC를(12년, 13년) 했으나 Spark Streaming은 아직 안정성이 떨어짂다고 판단함 • 갂단한 프로젝트는 Redis를 이용했고 복잡한 프로젝트에서는 Storm을 주로 사용함 • Storm VS Spark Streaming • Real Streaming VS Micro batch • At Most Once, At Least Once, Exactly Once VS Exactly Once • Fault-tolerance • Plugin Data Source VS Fixed Data Source • 1 million Records/s/node? VS 10 thousands records/s/node?
  • 14. MLlib, GraphX • Machine Learning, Graph 분석할 수 있도록 해줌 • 가장 유명한 Mahout과 비교하면 아직 알고리즘이 맋이 구현된 상태는 아니지맊 속도는 훨씬 빠름 • Machine Learning 특성상 반복작업이 맋아서 더 큰 차이 가 발생할 수도 있음 • 우리는… • 맨날 사젂 테스트맊 하고 프로젝트에서 제대로 홗용해보지 못했음..: : (
  • 15. Future of Spark • Spark Summit • Spark summit East 2015, New York (3월) • Spark summit 2015, San Francisco (6월) • 업데이트 • 현재 안정화 버젂 1.1 • 3달에 한번씩 Minor release • Join • Mahout On Spark • Hive On Spark • Spark & Tez • SparkR • Tableau on Spark • Zepplin