SlideShare une entreprise Scribd logo
1  sur  150
การวิเคราะห์ข้อมูลขนาดใหญ่ (Big Data)
และเทคนิคดาต้า ไมน์นิ่ง (Data Mining)
ดร.เอกสิทธิ์ พัชรวงศ์ศักดา
ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญดาต้า คิวบ์ และ
อาจารย์ประจำหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่
วิทยาลัยนวัตกรรมด้านเทคโนโลยีและวิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์


ณ มหาวิทยาลัยราชภัฏเพชรบุรี
วันพุธที่ 8 มีนาคม 2560
http://dataminingtrend.com http://facebook.com/datacube.th
ประวัติ
• ชื่อ: เอกสิทธิ์ พัชรวงศ์ศักดา
• การศึกษา:
• ปริญญาเอก วิทยาการคอมพิวเตอร์ สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์
• ปริญญาโท วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์
• ปริญญาตรี วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ 

(เกียรตินิยมอันดับ 2)
• ประสบการณ์
• Certified RapidMiner Analyst & Ambassador
• Research Collaboration with Western Digital (Thailand) เฟสที่ 1 ระยะเวลา 6 เดือน
• ร่วมวิจัย โครงการสํารวจข้อมูลเพื่อการวิเคราะห์พฤติกรรมของนักท่องเที่ยวเชิงลึก ด้วยวิธีการทําเหมือง
ข้อมูล การท่องเที่ยวแห่งประเทศไทย (ททท)
• วิทยากรอบรมการใช้งานซอฟต์แวร์ open source ทางด้าน data mining
2
http://dataminingtrend.com http://facebook.com/datacube.th
ประวัติ
• หนังสือ Data Mining ฉบับภาษาไทย
3
(data)3

base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
About us
4
RapidMiner Analyst
Certification
This is to Certify that
Successfully passed the examination for the Certified RapidMiner Analyst.
The RapidMiner Analyst certification level is designed for individuals who wish to demonstrate
a fundamental understanding of how RapidMiner software works and is used.
Certified Analyst professionals will be able to prepare data and create predictive models in
standard data environments typically found within most analyst positions.
The candidate has proven the ability to:
 Prepare data  Build predictive models
 Evaluate the model’s quality  Score new data sets
 Deploy data mining models
With:
 RapidMiner Studio  RapidMiner Server
Eakasit Pacharawongsakda
http://dataminingtrend.com http://facebook.com/datacube.th
ผลงานการอบรม
5
http://dataminingtrend.com http://facebook.com/datacube.th
ผลงานการอบรม
6
http://dataminingtrend.com http://facebook.com/datacube.th
• แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 

(Big Data)
• แนะนำเทคโนโลยี Internet of Things (IoT)
• แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง
• ตัวอย่างการประยุกต์ใช้งาน
• กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง
หัวข้อการบรรยาย
7
ในหนึ่งวันทำงาน
source:http://pad1.whstatic.com/images/thumb/a/aa/Reduce-Anxiety-About-Driving-if-You're-a-Teenager-Step-5-Version-2.jpg/
aid196018-728px-Reduce-Anxiety-About-Driving-if-You're-a-Teenager-Step-5-Version-2.jpg
เวลา 07:00 น. ออกเดินทางไปทำงาน
source: http://www.clipartkid.com/images/259/research-and-report-writing-9-23-12-9-30-12-q2r0wg-clipart.jpg
เวลา 07:45 น. ยังคงติดอยู่บนถนน
เวลา 08:00 น. เจ้านายโทรศัพท์เข้ามาถามงาน
source: https://d1ai9qtk9p41kl.cloudfront.net/assets/mc/psuderman/2011_07/text-drive.png
เวลา 08:05 น. ขับรถไปชนกับคันอื่น
เวลา 10:00 น. ถึงที่ทำงานและทำงานต่อไป
source: http://stuffpoint.com/anime-and-manga/image/285181-anime-and-manga-girl-working-in-the-computer.jpg
เวลา 18:00 น. แวะซื้อของกลับบ้าน
เวลา 20:00 น. กลับถึงบ้านและอยู่คนเดียว
ในหนึ่งวันทำงานกับ

เทคโนโลยีข้อมูลขนาดใหญ่ (Big Data)
http://dataminingtrend.com http://facebook.com/datacube.th
ระบบนำทาง
• แอพพลิเคชัน Waze
17
http://dataminingtrend.com http://facebook.com/datacube.th
ระบบนำทาง
• แอพพลิเคชัน Waze
18
http://dataminingtrend.com http://facebook.com/datacube.th
รถที่ไม่ต้องมีคนขับ (self driving car)
• Waymo (Google self-driving car)
19
http://dataminingtrend.com http://facebook.com/datacube.th
แผงไข่อัจฉริยะ
• Egg Minder
20
http://dataminingtrend.com http://facebook.com/datacube.th
ร้านค้าที่ไม่ต้องรอคิว
• Amazon Go
21
http://dataminingtrend.com http://facebook.com/datacube.th
เทคโนโลยีที่ทำให้ชีวิตประจำวันสะดวกขึ้น
22
http://dataminingtrend.com http://facebook.com/datacube.th
ทำไมผู้หญิงถึงโสด
23
source: https://pishetshotisak.wordpress.com/2016/12/07/ทำไมผู้หญิงถึงขึ้นคาน-ค/
คนเรามักชอบอะไรใหญ่ๆ
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics
• Big Bang
25
source:http://www.thetechy.com/science/exploring-universe-curiosity
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics
• Big Architecture (Great wall of China)
26
source: http://www.history.com/topics/great-wall-of-china
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics
• Big Data
27source: http://www.plmjim.com/?p=583
http://dataminingtrend.com http://facebook.com/datacube.th
Data Evolutions
28
source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
http://dataminingtrend.com http://facebook.com/datacube.th
What is Big Data?
29
source: https://www.youtube.com/watch?v=TzxmjbL-i4Y
http://dataminingtrend.com http://facebook.com/datacube.th
What is Big Data?
30
source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#
http://dataminingtrend.com http://facebook.com/datacube.th
What is Big Data?
• Big Data ประกอบด้วย 3 V
• Volume
• ข้อมูลมีจำนวนเพิ่มขึ้นอย่างมหาศาล
• Velocity
• ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว
• Variety
• ข้อมูลมีความหลากหลายมากขึ้น
31
source: https://upxacademy.com/beginners-guide-to-big-data/
http://dataminingtrend.com http://facebook.com/datacube.th
What is Big Data?
• Huge volume of data
• ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ
เป็นล้านคอลัมน์ (million columns)
32
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data: Volume
33
source:https://datafloq.com/read/infographic/226
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data: Volume
34
source:https://www.adeptia.com
http://dataminingtrend.com http://facebook.com/datacube.th
What is Big Data?
• Huge volume of data
• ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ
เป็นล้านคอลัมน์ (million columns)
• Speed of new data creation and growth
• ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ
35
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data: Velocity
36
source: https://upxacademy.com/beginners-guide-to-big-data/
http://dataminingtrend.com http://facebook.com/datacube.th
What is Big Data?
• Huge volume of data
• ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ
เป็นล้านคอลัมน์ (million columns)
• Speed of new data creation and growth
• ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ
• Complexity of data types and structures
• ข้อมูลมีความหลากหลาย ไม่ได้อยู่ในรูปแบบของตารางเท่านั้น อาจจะเป็น
รูปแบบของข้อความ (text) รูปภาพ (images) หรือ วิดีโอ (video clip)
37
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data: Variety
38
source: https://upxacademy.com/beginners-guide-to-big-data/
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data: Variety
39
source: https://upxacademy.com/beginners-guide-to-big-data/
http://dataminingtrend.com http://facebook.com/datacube.th
What is Big Data?
40
source: http://dataconomy.com/2014/08/infographic-how-to-explain-big-data-to-your-grandmother/
http://dataminingtrend.com http://facebook.com/datacube.th
• แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 

(Big Data)
• แนะนำเทคโนโลยี Internet of Things (IoT)
• แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง
• ตัวอย่างการประยุกต์ใช้งาน
• กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง
หัวข้อการบรรยาย
41
http://dataminingtrend.com http://facebook.com/datacube.th
Internet of Things
42source: http://www.postscapes.com/what-exactly-is-the-internet-of-things-infographic/
http://dataminingtrend.com http://facebook.com/datacube.th
Sensors
43source: http://www.postscapes.com/what-exactly-is-the-internet-of-things-infographic/
http://dataminingtrend.com http://facebook.com/datacube.th
IoT applications
44
http://dataminingtrend.com http://facebook.com/datacube.th
IoT applications
• Disney’s Magic Band
45
source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0
http://dataminingtrend.com http://facebook.com/datacube.th
IoT applications
• GlowCaps
46
source:http://www.vitality.net/glowcaps.html
http://dataminingtrend.com http://facebook.com/datacube.th
IoT applications
• Connected Toothbrush
47
source:https://www.youtube.com/watch?v=gLpUxDdh9iQ
http://dataminingtrend.com http://facebook.com/datacube.th
IoT applications
48
source:https://www.youtube.com/watch?v=TqRN7r7mGmk
http://dataminingtrend.com http://facebook.com/datacube.th
IoT applications
• iBeacon
49
source: https://www.mallmaverick.com/system/site_images/photos/000/001/700/original/blog_ibeacon1.jpg?1391033561
http://dataminingtrend.com http://facebook.com/datacube.th
• แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 

(Big Data)
• แนะนำเทคโนโลยี Internet of Things (IoT)
• แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง
• ตัวอย่างการประยุกต์ใช้งาน
• กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง
หัวข้อการบรรยาย
50
http://dataminingtrend.com http://facebook.com/datacube.th
Data Scientist
51
source: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
http://dataminingtrend.com http://facebook.com/datacube.th
Data Scientist/Engineer/Analyst
52
source: http://insidebigdata.com/wp-content/uploads/2016/04/springboard_infographic.jpg
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data and traditional analytics
53
Big Data Traditional analytics
Type of data Unstructured formats
Formatted in rows and
columns
Volume of data 100 terabytes to petabytes Tens of terabytes or less
Flow of data Constant flow of data Static pool of data
Analysis method
Machine Learning/

Data Mining
Hypothesis-based
Primary purpose Data-based products
Internal decision support
and services
source: big data @ work
http://dataminingtrend.com http://facebook.com/datacube.th
BI & Data Science/Data Mining
54
Business
Intelligence
Data
Mining
Time
Analytical 

Approach
Past Future
Explanatory
Explanatory
source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
BI questions
• What happened last
quarter?
• How many unit sold?
• Where is the problem? In
which situations
Data Mining questions
• What if … ?
• What will happen next?
• Why is this happen?
http://dataminingtrend.com http://facebook.com/datacube.th
• เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง
• การหาความสัมพันธ์ (association analysis)
• หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน
• เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ
• การจัดกลุ่มข้อมูล (clustering)
• แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง
• เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน
• การจำแนกประเภทข้อมูล (classification)
• สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต
• เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป
Data Science/Data Mining methods
55
association rules
clustering
classification
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
56
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
57
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
58
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
59
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
60
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
61
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
62
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis)
63
ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การจัดกลุ่ม (Segmentation)
64
http://dataminingtrend.com http://facebook.com/datacube.th
Segmentation by RFM
• แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า
• ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency)
• ความถี่ของการซื้อสินค้า (Frequency)
• การใช้จ่ายของลูกค้า (Monetary)
65
Customer ID Recency Frequency Monetary
C10001
C10002
C10003
หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
OrderID Customer ID Order Date Total
Amount
O14001 C10003 01-01-2014 10.00
O14002 C10001 02-13-2014 20.00
O14003 C10002 03-14-2014 200.00
O14004 C10001 04-15-2014 10.00
O14005 C10001 08-10-2014 30.00
O14006 C10002 09-14-2014 300.00
ตาราง order detail
http://dataminingtrend.com http://facebook.com/datacube.th
OrderID Customer ID Order Date Total
Amount
O14001 C10003 01-01-2014 10.00
O14002 C10001 02-13-2014 20.00
O14003 C10002 03-14-2014 200.00
O14004 C10001 04-15-2014 10.00
O14005 C10001 08-10-2014 30.00
O14006 C10002 09-14-2014 300.00
Segmentation by RFM
• แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า
• ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency)
• ความถี่ของการซื้อสินค้า (Frequency)
• การใช้จ่ายของลูกค้า (Monetary)
66
Customer ID Recency Frequency Monetary
C10001 151 3 60
ตาราง order detail
หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
http://dataminingtrend.com http://facebook.com/datacube.th
OrderID Customer ID Order Date Total
Amount
O14001 C10003 01-01-2014 10.00
O14002 C10001 02-13-2014 20.00
O14003 C10002 03-14-2014 200.00
O14004 C10001 04-15-2014 10.00
O14005 C10001 08-10-2014 30.00
O14006 C10002 09-14-2014 300.00
Segmentation by RFM
• แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า
• ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency)
• ความถี่ของการซื้อสินค้า (Frequency)
• การใช้จ่ายของลูกค้า (Monetary)
67
Customer ID Recency Frequency Monetary
C10001 151 3 60
C10002 116 2 500
ตาราง order detail
หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
http://dataminingtrend.com http://facebook.com/datacube.th
OrderID Customer ID Order Date Total
Amount
O14001 C10003 01-01-2014 10.00
O14002 C10001 02-13-2014 20.00
O14003 C10002 03-14-2014 200.00
O14004 C10001 04-15-2014 10.00
O14005 C10001 08-10-2014 30.00
O14006 C10002 09-14-2014 300.00
Segmentation by RFM
• แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า
• ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency)
• ความถี่ของการซื้อสินค้า (Frequency)
• การใช้จ่ายของลูกค้า (Monetary)
68
Customer ID Recency Frequency Monetary
C10001 151 3 60
C10002 116 2 500
C10003 372 1 10
ตาราง order detail
หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
http://dataminingtrend.com http://facebook.com/datacube.th
Segmentation by RFM
• แบ่งกลุ่มลูกค้าด้วยวิธี RFM
• เรียงลำดับข้อมูล
• Recency จากน้อยไปมาก
• Frequency และ Monetary จากมากไปน้อย
• แบ่งข้อมูลออกเป็น 5 กลุ่ม กลุ่มละจำนวนเท่าๆ กัน (quintile)
• คำนวณคะแนน RFM ของแต่ละกลุ่ม
69
source: http://www.b-eye-network.com/view/10256
น้อย
มาก
Recency
score = 5
score = 4
score = 3
score = 2
score = 1
มาก
น้อย
Frequency
score = 5
score = 4
score = 3
score = 2
score = 1
มาก
น้อย
Monetary
20% ของข้อมูล
20% ของข้อมูล
20% ของข้อมูล
20% ของข้อมูล
20% ของข้อมูล
score = 5
score = 4
score = 3
score = 2
score = 1
http://dataminingtrend.com http://facebook.com/datacube.th
Segmentation by RFM
• แบ่งกลุ่มลูกค้าด้วยวิธี RFM
• ลูกค้าในแต่ละกลุ่มจะมีลักษณะต่างๆ กัน เช่น
• ลูกค้ากลุ่ม RFM = 555
• เป็นกลุ่มลูกค้าที่มีค่ามากสุด
• ลูกค้ากลุ่ม RFM = 551
• เป็นกลุ่มลูกค้าที่มีการซื้อบ่อยๆ 

แต่ซื้อจำนวนน้อย
• ออก campaign กระตุ้นให้ลูกค้าซื้อสินค้าที่มีราคา

สูงขึ้น (up-selling)
• ลูกค้ากลุ่ม RFM = 115
• เป็นกลุ่มลูกค้าที่นานๆ จะซื้อสักครั้ง แต่ซื้อสินค้าที่มีราคาสูง
• ออก campaign กระตุ้นให้ลูกค้าซื้อสินค้าบ่อยขึ้น
70
Recency
Frequency
M
onetary
1 2 3 4 5
5
4
3
2
1
5
4
3
2
1
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)
71
1
2
3
5
6
4
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering)
72
1 6
4 5
2 3
ลูกค้าที่ใช้โทรเยอะ
ลูกค้าที่ส่ง SMS เยอะ
ลูกค้าที่ใช้งานไม่เยอะ
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต)
73
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• ตัวอย่าง spam e-mail classification
• สร้างโมเดล (classification model) จากข้อมูล training data ซึ่งมีลาเบล (label)
74
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
attribute label
Free
Won
Normal Spam
Spam
classification model
= N = Y
= N = Y
training data
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• ตัวอย่าง spam e-mail classification
• นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล
75
attribute
Free
Won
Normal Spam
Spam
classification model
= N = Y
= N = Y
training data
ID Free Won Cash Type
11 Y Y N ?
12 N Y N ?
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• ตัวอย่าง spam e-mail classification
• นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล
76
attribute
Free
Won
Normal Spam
Spam
classification model
= N = Y
= N = Y
training data
ID Free Won Cash Type
11 Y Y N ?
12 N Y N ?
http://dataminingtrend.com http://facebook.com/datacube.th
Data Science/Data Mining methods
• ตัวอย่าง spam e-mail classification
• นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล
77
attribute
Free
Won
Normal Spam
Spam
classification model
= N = Y
= N = Y
training data
ID Free Won Cash Type
11 Y Y N ?
12 N Y N ?
http://dataminingtrend.com http://facebook.com/datacube.th
• ตัวอย่าง spam e-mail classification
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
Classification example
78
attribute labelID
training data
สร้าง classification model
ID Free Won Cash Type
11 Y Y N ?
12 N Y N ?
unseen data
classification model
ID Type
11 spam
12 spam
1
2
3 4
http://dataminingtrend.com http://facebook.com/datacube.th
Challenges for mining Big Data
• Heterogeneous and Complex Data
• data types are varied such as Social Network data, Biological data, GIS
• data mining technique should take into the consideration relationships in
the data such as network (graph) connectivity, temporal and spatial
• Scalability
• data sets with sizes of gigabytes, terabytes are becoming common.
• data mining technique can be improved by using sampling or developing
parallel or distributed algorithms
79
http://dataminingtrend.com http://facebook.com/datacube.th
Variety
• ข้อมูลมีความหลากหลาย
• Sequence
• เป็นข้อมูลลักษณะของตัวอักษรที่เรียงต่อกันเป็นลำดับ (sequence)
• ตัวอย่างเช่น web click stream sequence, DNA/Protein sequence
• Graph
• เป็นข้อมูลในรูปแบบของโหนด (node) ที่มีเส้นเชื่อมโยงถึงกัน (link)
• ตัวอย่างเช่น
• ความสัมพันธ์ของผู้ใช้งานเครือข่ายสังคมออนไลน์ (Social Network)
• ข้อมูลโครงสร้างทางเคมี (chemical structure)
• เครือข่ายคอมพิวเตอร์ (computer network)
80
http://dataminingtrend.com http://facebook.com/datacube.th
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
81
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
http://dataminingtrend.com http://facebook.com/datacube.th
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
82
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
http://dataminingtrend.com http://facebook.com/datacube.th
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
83
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Sports, Finance> 2/6 = 33%
http://dataminingtrend.com http://facebook.com/datacube.th
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
84
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Sports, Finance> 2/6 = 33%
<Finance, News> 2/6 = 33%
http://dataminingtrend.com http://facebook.com/datacube.th
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
85
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Sports, Finance> 2/6 = 33%
<Finance, News> 2/6 = 33%
<Sports, News> 2/6 = 33%
http://dataminingtrend.com http://facebook.com/datacube.th
Sequential Pattern Mining
• พัฒนาต่อจากการหา frequent itemset
• พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง
• เช่น <News, Finance> ไม่เท่ากับ <Finance, News>
• การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์
86
ลำดับที่ 1 ลำดับที่ 2
Session ID Sequence
1 <News, Finance>
2 <News, Finance>
3 <Sports, Finance, News>
4 <Arts>
5 <Sports, Finance, News>
6 <News, Arts, Entertainment>
ลำดับที่ 1 ลำดับที่ 2
Frequent sequence Frequency
<News, Finance> 2/6 = 33%
<Sports, Finance> 2/6 = 33%
<Finance, News> 2/6 = 33%
<Sports, News> 2/6 = 33%
<Sports, Finance, News> 2/6 = 33%
http://dataminingtrend.com http://facebook.com/datacube.th
Graph Mining
• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
87
image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
http://dataminingtrend.com http://facebook.com/datacube.th
Graph Mining
• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
88
image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
http://dataminingtrend.com http://facebook.com/datacube.th
Graph Mining
• Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น
บ่อย
89
image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
http://dataminingtrend.com http://facebook.com/datacube.th
Text Mining
• การประยุกต์ใช้ข้อมูลประเภทข้อความ
• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์
90source:http://sentiment140.com และ http://www.techguide.com.au
http://dataminingtrend.com http://facebook.com/datacube.th
Text representation
• ในการวิเคราะห์ข้อมูลข้อความต้องทำการแปลงข้อมูลให้อยู่

ในรูปแบบที่มีโครงสร้าง
91
Laying on the sand sun hitting me, this feels good :)
Smells so good I have two :)
i watched 3 movies today, reminded me of my child hood! Finding Nemo 

was always my favourite, but that was when i was MUCH younger! :)
I think NYC would be amazing, I really wanna go there :)
he never care,he never look at me..:(
i am so tired!! and my feet hurt :(
positive
negative
http://dataminingtrend.com http://facebook.com/datacube.th
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
92
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
Term Count
Finding 1
http://dataminingtrend.com http://facebook.com/datacube.th
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
93
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
Term Count
Finding 1
I 3
http://dataminingtrend.com http://facebook.com/datacube.th
Text representation: Bag of Words
• จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ
94
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
Term Count
Finding 1
I 3
Laying 1
MUCH 1
NYC 1
Nemo 1
Smells 1
always 1
am 1
amazing 1
and 1
at 1
be 1
but 1
care 1
Term Count
child 1
favourite 1
feels 1
feet 1
go 1
good 2
have 1
he 2
hitting 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
bag of words
http://dataminingtrend.com http://facebook.com/datacube.th
Text representation: Stemming
• แปลงคำให้เป็นรากศัพท์ (root) เช่น finding แปลงเป็น find
95
Term Count
child 1
favourite 3
feels 1
feet 1
go 1
good 2
have 1
he 2
hitting 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
Term Count
child 1
favourit 1
feel 1
feet 1
go 1
good 2
have 1
he 2
hit 1
hood 1
hurt 1
i 3
look 1
me 1
… 1
Term Count
Finding 1
I 3
Laying 1
MUCH 1
NYC 1
Nemo 1
Smells 1
always 1
am 1
amazing 1
and 1
at 1
be 1
but 1
care 1
Term Count
find 1
i 6
lai 1
much 1
nyc 1
nemo 1
smell 1
alwai 1
am 1
amaz 1
and 1
at 1
be 1
but 1
care 1
bag of words bag of words
http://dataminingtrend.com http://facebook.com/datacube.th
Text representation: Remove stopwords
• ตัดคำที่เป็น stop word ทิ้ง
96
Term Count
find 1
i 6
lai 1
much 1
nyc 1
nemo 1
smell 1
alwai 1
am 1
amaz 1
and 1
at 1
be 1
but 1
care 1
Term Count
child 1
favourit 1
feel 1
feet 1
go 1
good 2
have 1
he 2
hit 1
hood 1
hurt 1
look 1
me 1
… 1
Term Count
find 1
i 6
lai 1
nyc 1
nemo 1
smell 1
alwai 1
amaz 1
child 1
favorit 1
feel 1
feet 1
go 1
good 2
hit 1
Term Count
hood 1
hurt 1
look 1
care 1
movi 1
reali 1
remind 1
sand 1
sun 1
thi 1
think 1
tire 1
todai 1
wa 3
watch 1
remove stopwords
http://dataminingtrend.com http://facebook.com/datacube.th
Convert text to structured data
• Binary occurrence ถ้ามีคำที่เกิดขึ้นในแต่ละเอกสารจะให้ค่าเป็น 1 

ถ้าไม่เกิดขึ้นจะเป็น 0
97
ID find I lai nyc nemo smell alwai … Sentiment
1 0 0 1 0 0 0 0 … positive
2 0 1 0 0 0 1 0 … positive
3 1 1 0 0 1 0 1 … positive
4 0 1 0 1 0 0 0 … positive
5 0 0 0 0 0 0 0 … negative
6 0 1 0 0 0 0 0 … negative
attribute label
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
http://dataminingtrend.com http://facebook.com/datacube.th
Convert text to structured data
• Term Frequency คือจำนวนครั้งที่คำนั้นเกิดขึ้นในเอกสารทั้งหมด
• TF = จำนวนคำในเอกสาร/จำนวนคำทั้งหมดในเอกสาร
98
ID find I lai nyc nemo … Sentiment
1 0 0 0.17 0 0 … positive
2 0 0.17 0 0 0 … positive
3 0.17 0.33 0 0 0.17 … positive
4 0 0.33 0 0.17 0 … positive
5 0 0 0 0 0 … negative
6 0 0.17 0 0 0 … negative
attribute label
ID Tweet Sentiment
1
Laying on the sand sun hitting
me, this feels good. positive
2 Smells so good I have two. positive
3
i watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when i
was MUCH younger!
positive
4
I think NYC would be amazing,
I really wanna go there.
positive
5
he never care,he never look at
me.
negative
6
i am so tired!! and my feet
hurt.
negative
training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
http://dataminingtrend.com http://facebook.com/datacube.th
Handle large corpus of text data
• การนับจำนวนคำปกติจะเป็นแบบเรียงลำดับ (sequential) ทีละเอกสาร ดังนั้นถ้า
เอกสารมีจำนวนเยอะมากๆ จะทำงานได้้ช้า
• ใช้หลักการทำงานแบบขนาน (parallel) โดยใช้วิธีการของ Map/Reduce (Dean and
Ghemawat, OSDI 2004)
• Map takes an input pair and produces a set of intermediate key/value
pairs.
• จะเก็บในรูปแบบ (key1, value1) เช่น (“find”,1), (“I”,1), (“lay”,1), (“I”,1), (“I”,1)
• The Reduce function merges together values to form a possibly smaller set
of values.
• จะเก็บในรูปแบบ (key1, list(value1)) เช่น (“find“,{1}), (“I“,{1,1,1}), (“lay“,{1})
• สุดท้ายจะได้จำนวนคำ คือ (“find”,1), (“I”,3) และ (“lay”,1)
99
http://dataminingtrend.com http://facebook.com/datacube.th
Map/Reduce Framework
100
image source: http://www.infosun.fim.uni-passau.de/cl/MapReduceFoundation/
http://dataminingtrend.com http://facebook.com/datacube.th
Handle large corpus of text data
101
ID Tweet
1
Laying on the sand sun
hitting me, this feels good.
2
Smells so good I have
two.
ID Tweet
3
I watched 3 movies today,
reminded me of my child hood!
Finding Nemo was always my
favourite, but that was when I
was MUCH younger!
4
I think NYC would be amazing,
I really wanna go there.
ID Tweet
5
he never care,he never
look at me.
6
I am so tired!! and my feet
hurt.
เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3
map step
• (“Laying”,1)
• (“on“, 1)
….
• (“I“, 1)
• (“I“,1)
• (“watched“, 1)
….
• (“I“, 1)
• (“he“,1)
• (“never“, 1)
….
• (“I“, 1)
http://dataminingtrend.com http://facebook.com/datacube.th
Handle large corpus of text data
• (“he”,1)
• (“I”,{1,1,1,1,1,1}) => (“I”,6)
• (“Laying”,1)
• (“never”,1)
• (“on”, 1)
• (“watched”,1)
102
reduce stepmap step
• (“Laying”,1)
• (“on“, 1)
….
• (“I“, 1)
• (“I“,1)
• (“watched“, 1)
….
• (“I“, 1)
• (“he“,1)
• (“never“, 1)
….
• (“I“, 1)
เครื่องที่ 1
เครื่องที่ 2
เครื่องที่ 3
http://dataminingtrend.com http://facebook.com/datacube.th
• แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 

(Big Data)
• แนะนำเทคโนโลยี Internet of Things (IoT)
• แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง
• ตัวอย่างการประยุกต์ใช้งาน
• กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง
หัวข้อการบรรยาย
103
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• ตัวอย่างการนำ Data Mining ไปใช้งาน
104
source: http://www.youtube.com/watch?v=f2Kji24833Y
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• บัตรสมาชิก (loyalty card)
• ติดตามพฤติกรรมการซื้อสินค้า
ของลูกค้าจากบัตร loyalty
• นำมาวิเคราะห์และนำเสนอเป็น
โปรโมชันพิเศษให้แต่ละบุคคล
• เพิ่มโอกาสในการขายสินค้าให้กับ
ลูกค้า
• กระตุ้นให้ลูกค้าได้ซื้อสินค้ามาก
ขึ้น เช่น ซื้อสินค้าวันนี้ จะได้
ส่วนลดพิเศษ ทำให้ลูกค้าเกิดการ
ตัดสินใจซื้อทันที
105
image source: http://www.positioningmag.com
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ

นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล
106
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• เบียร์และผ้าอ้อม
• ห้าง Walmart พบว่าทุกวันศุกร์
หลังบ่ายโมง จะมีลูกค้าเพศชาย
อายุระหว่าง 25 – 35 ปี ซื้อสินค้า
Beers และ Diapers มากที่สุด
107
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• คาดการณ์การตั้งครรภ์
• ห้าง Target ทำการ
วิเคราะห์พฤติกรรมการซื้อ
สินค้าของลูกค้าเพศหญิง
• พบรูปแบบ (pattern) ว่า
ถ้ามีการซื้อวิตามิน ซื้อ
อาหารบำรุง หรือ ซื้อตู้
เตียงเพิ่ม ลูกค้าจะเริ่มตั้ง
ครรภ์
• Target จะส่ง promotion
ให้ลูกค้าเหล่านั้น
108
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• แนะนำสินค้าที่เกี่ยวข้อง
• amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner
• Netflix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi
109
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• Google Self-Driving Car
110
source: https://www.youtube.com/watch?v=8fjNSUWX7nQ
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• แนวโน้มราคาตั๋วเครื่องบิน
111
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• คาดการณ์การลาออกของพนักงาน
112
Receive Promotion
= NO = YES
Years with firm < 5
Not Quit
= YES = NO
Partner changed job
Quit Not Quit
= YES = NO
Quit
ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์
113
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย)
114
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• ทำนายอายุและเพศจากรูปภาพ
115
source: http://www.how-old.net
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• Paypal uses RapidMiner to detect churn and identify issues
116
source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• How Etihad Airways Uses Big Data To Reach Its Destination
117
source:https://datafloq.com/read/etihad-airways-big-data-reach-destination/412
http://dataminingtrend.com http://facebook.com/datacube.th
Big Data & Analytics Applications
• Business use cases
• Sales and marketing analytics
• Customer analytics
• Social media analytics
• Plant and facility management.
• Supply chain and channel analytics
• Fraud detection
• Price optimization
118
http://dataminingtrend.com http://facebook.com/datacube.th
Business use cases
• Sales and marketing analytics
• The first involves using analytical models to improve how customer-facing
applications make direct recommendations to the customer
• include better identifying opportunities for cross-selling and upselling
• decreasing abandoned shopping carts and generally improving the
accuracy of integrated recommendation engines
• The second type is intended to show the performance of the marketing
group's processes and campaigns and recommend adjustments to
optimize that performance.
• Analyzing which campaign addressed the needs of identified clusters or
segments
• the success ratios for motivating the campaigns' call to action.
119
http://dataminingtrend.com http://facebook.com/datacube.th
Business use cases
• Customer analytics
• This includes analyzing customer demographics, behaviors and
characteristics to develop models for
• segmenting customers
• predicting churn
• making next-best-offer recommendations to help with customer
retention
• Social media analytics
• The content that streams across social media channels provides ample
opportunities for analyzing customer sentiment and identifying brand risks
when negative information is promulgated about a company's products
120
http://dataminingtrend.com http://facebook.com/datacube.th
Business use cases
• Plant and facility management.
• As more devices and machines are Internet-enabled, organizations
are able to collect and analyze streaming sensor data indicating
continuous measures of power usage, temperature, humidity and
contaminant particles, among a myriad of potential variables.
• Models can be developed for predicting equipment failures and
scheduling pre-emptive maintenance to keep items in working order
without interruption.
121
http://dataminingtrend.com http://facebook.com/datacube.th
Business use cases
• Supply chain and channel analytics
• Analyzing warehouse inventory, point-of-sale transactions and
shipments via a variety of channels (e.g., trucking, rail, shipping)
results in predictive analytical models that can help with
• pre-emptive replenishment
• inventory management strategies
• logistics management
• route optimization
• notifications when delays imperil timely deliveries
122
http://dataminingtrend.com http://facebook.com/datacube.th
Business use cases
• Fraud detection
• An adjunct to the growing risk of identity theft is the growth of
fraudulent activity and transactions
• Financial institutions analyze billions of transactions to identify
patterns of fraudulent behavior, and the analytical models can also
trigger alerts to customers when a potential fraudulent transaction
might be taking place.
123
http://dataminingtrend.com http://facebook.com/datacube.th
Business use cases
• Price optimization
• Retailers looking to maximize overall profitability for product sales may
develop analytical models that combine a variety of data streams,
including competitors' prices, sales transactions across many geographic
regions (to review demand), and information on production, inventories and
the supply chain (to monitor supply).
• The resulting models can be used to dynamically adjust product prices up
when supplies are low, demand is on the increase and competitors are
unable to deliver, or down when inventory needs to be cleared as
seasonal demand shifts.
124
http://dataminingtrend.com http://facebook.com/datacube.th
Outline
• Introduction to Big Data
• Introduction to Internet of Things (IoT)
• Introduction to Data Mining
• Big Data & Analytics applications
• CRISP-DM Process
125
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM
• CRoss-Industry Standard Process for Data Mining (CRISP-DM)
• พัฒนาขึ้นโดย 3 บริษัท
• บริษัท SPSS
• บริษัท DaimlerChrysler
• บริษัท NCR
• เป็น Workflow มาตรฐานสำหรับการทำ data mining
• ประกอบด้วย 6 ขั้นตอน
126
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM
127
3 ขั้นตอนแรกจะใช้เวลา
80% ของทั้งหมด
1 2
3
4
5
6
image source: Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013
http://dataminingtrend.com http://facebook.com/datacube.th
1. Business Understanding
• ขั้นตอนแรกของ CRISP-DM
• ทำความเข้าใจกับปัญหา หรือ โอกาสเชิงธุรกิจ
• ระบุ output หรือเป้าหมายที่ต้องการได้จากการวิเคราะห์ข้อมูลด้วย data mining
• ตัวอย่างเช่น
• ทำอย่างไรถึงเพิ่มยอดขายให้กับสินค้าชนิดต่างๆ ได้
• ต้องการแบ่งกลุ่มนักศึกษาออกตามความสนใจ
• ทำอย่างไรให้ลูกค้ากลับมาซื้อสินค้าได้อีก
• อยากทำนายปริมาณน้ำฝนที่ตกใน 2 วันถัดไป
• อยากรู้ว่าลูกค้าคนใดบ้างมีโอกาสป่วยเป็นโรคมะเร็ง
128
Business
Understanding	
Data
Understanding	
Data
Preparation	
Modeling Evaluation Deployment
http://dataminingtrend.com http://facebook.com/datacube.th
• ในขั้นตอนนี้เป็นการ
• รวบรวมข้อมูลที่เกี่ยวข้อง
• ข้อมูลถูกต้องน่าเชื่อถือ
• ข้อมูลที่ได้มีปริมาณมากพอหรือยัง
• ข้อมูลที่ได้มีความเหมาะสม มีรายละเอียดเพียงพอต่อการนำไปใช้ในการวิเคราะห์
• ตัวอย่าง
• ข้อมูลการซื้อสินค้าคนแต่ละบุคคล
• ข้อมูลการลงทะเบียนและผลการศึกษาของนักศึกษา
Business
Understanding	
Data
Understanding	
Data
Preparation	
Modeling Evaluation Deployment
2. Data Understanding
129
http://dataminingtrend.com http://facebook.com/datacube.th
• ขั้นตอนการเตรียมข้อมูลเป็นขั้นตอนที่ใช้เวลานานที่สุด
• เนื่องจากโมเดลที่ได้จากการทำดาต้าไมน์นิ่งจะให้ผลลัพทธ์ที่ถูกต้อง
หรือไม่นั้น ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ แบ่งออกได้เป็น 3 ขั้นตอน
ย่อยคือ
• 3.1 ทำการคัดเลือกข้อมูล (Data Selection) 
• กำหนดเป้าหมายก่อนว่าเราจะทำการวิเคราะห์อะไร
• เลือกใช้เฉพาะข้อมูลที่เกี่ยวข้องกับสิ่งที่เราจะทำการวิเคราะห์
Business
Understanding	
Data
Understanding	
Data
Preparation	
Modeling Evaluation Deployment
3. Data Preparation
130
http://dataminingtrend.com http://facebook.com/datacube.th
• 3.2 ทำการกลั่นกรองข้อมูล (Data Cleaning) 
• ลบข้อมูลซ้ำซ้อน
• แก้ไขข้อมูลที่ผิดพลาด
• ข้อมูลผิดรูปแบบ
• ข้อมูลที่หายไป
• ข้อมูล outlier ที่แปลกแยกจากคนอื่น
Business
Understanding	
Data
Understanding	
Data
Preparation	
Modeling Evaluation Deployment
3. Data Preparation
131
รหัส เพศ อายุ ความสูง น้ำหนัก
57001 ชาย 18 180 70
5702A ญ 80 35
57123 หญิง 19 150 2500
58002 ช 17 175 90
ข้อมูลนักศึกษาชั้นปีที่ 1 ปีการศึกษา 2557
ผิดรูปแบบ ขาดหาย outlier
http://dataminingtrend.com http://facebook.com/datacube.th
• 3.3 แปลงรูปแบบของข้อมูล (data transformation)
• เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์

ตามอัลกอริทึมของ data mining ที่เลือกใช้
Business
Understanding	
Data
Understanding	
Data
Preparation	
Modeling Evaluation Deployment
3. Data Preparation
132
ID สินค้า จำนวนที่ซื้อ
1 ปากกา 1
1 ยางลบ 1
1 คลิป 10
2 สมุด 2
2 ปากกา 2
3 สมุด 1
3 ปากกา 3
3 ยางลบ 2
ID สมุด ปากกา ยางลบ คลิป
1 - TRUE TRUE TRUE
2 TRUE TRUE - -
3 TRUE TRUE TRUE -
ข้อมูลในฐานข้อมูล POS
ข้อมูลสำหรับการหากฏความสัมพันธ์ (Association Rules)
http://dataminingtrend.com http://facebook.com/datacube.th
• 3.3 แปลงรูปแบบของข้อมูล (data transformation)
• เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์

ตามอัลกอริทึมของ data mining ที่เลือกใช้
Business
Understanding	
Data
Understanding	
Data
Preparation	
Modeling Evaluation Deployment
3. Data Preparation
133
เมื่อวันที่ 4 มกราคม 2557 เฟซบุ๊กเปิดตัวหน้าเพจใหม่ชื่อว่า Facebook A Look Back เมื่อผู้ใช้งาน
คลิกไปยังหน้านี้ก็จะแสดงคลิปวิดีโอที่บอกเล่าเรื่องราวของผู้ใช้งานคนนั้นๆ เช่น เริ่มเล่นเฟซบุ๊กครั้ง
แรกปีไหน, โพสต์แรกบนเฟซบุ๊ก, รูปภาพที่ถูกกดไลค์มากที่สุด, รูปภาพที่ถูกแชร์มากที่สุด และ 20
อันดับเรื่องราวต่าง ๆ ที่เกิดขึ้นในเฟซบุ๊กก็จะถูกแสดงและรวบรวมไว้ในคลิปวิดีโอนี้
ID เฟซบุ๊ก รูปภาพ ไลค์ แชร์ คลิปวิดีโอ
1 4 2 1 1 2
2 …
เอกสารข่าว
ตารางแสดงจำนวนความถี่ของแต่ละคำ
http://dataminingtrend.com http://facebook.com/datacube.th
• 3.3 แปลงรูปแบบของข้อมูล (data transformation)
• เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์

ตามอัลกอริทึมของ data mining ที่เลือกใช้
Business
Understanding	
Data
Understanding	
Data
Preparation	
Modeling Evaluation Deployment
3. Data Preparation
134
ID สีแดง สีเขียว สีน้ำเงิน
1 93 98 167
2 …
รูปภาพ
จำนวน pixel สีแดง สีเขียว สีนำ้เงินที่ปรากฏในรูปภาพ
image source:http://www.travelhouse.ch/reisen/thailand/phuket/jw-marriott-phuket-resort-and-spa
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM
135
3 ขั้นตอนหลังจะใช้เวลา
20% ของทั้งหมด
1 2
3
4
5
6
image source: Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013
http://dataminingtrend.com http://facebook.com/datacube.th
• เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง
• classification
• สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต
• เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป
• clustering
• แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง
• เช่น แบ่งกลุ่มนักศึกษาตามคะแนนที่ได้
• association rules
• หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน
• เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ
Business
Understanding	
Data
Understanding	
Data
Preparation	
Modeling Evaluation Deployment
4. Modeling
136
classification
clustering
association rules
http://dataminingtrend.com http://facebook.com/datacube.th
• ประเมินหรือวัดประสิทธิภาพของโมเดลวิเคราะห์ข้อมูลในขั้นตอนก่อน
หน้านั้น
Business
Understanding	
Data
Understanding	
Data
Preparation	
Modeling Evaluation Deployment
5. Evaluation
137
VS
โมเดล decision tree โมเดล neural network
http://dataminingtrend.com http://facebook.com/datacube.th
Business
Understanding	
Data
Understanding	
Data
Preparation	
Modeling Evaluation Deployment
6. Deployment
• นำโมเดลที่ได้ หรือ ผลการวิเคราะห์ที่ได้ไปใช้งานจริง
138
ใช้จากกฏความสัมพันธ์ที่หาได้
image source: http://www.mysupermarket.co.uk/brands/tesco_discounter_brand_in_tesco.html
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
• ตัวอย่าง CRISP-DM
• อ้างอิงจากงานวิจัยเรื่อง การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการ
ศึกษานิสิตคณะวิศวกรรมศาสตร์ *
1. Business Understanding
• นิสิตคณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์ จะเลือกภาควิชาเมื่อในชั้นปีที่ 2
• นิสิตเลือกภาควิชาไม่ตรงกับความสามารถของตนเอง
• เลือกตามเพื่อน
• เลือกตามที่ผู้ปกครองแนะนำ
• นิสิตบางคนได้ผลการเรียนตกต่ำและทำให้ต้องออกจากมหาวิทยาลัยกลางคัน
139
* กฤษณะ ไวยมัย , ชิดชนก ส่งศิริ และ ธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะ

วิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
2. Data Understanding
• ข้อมูลนิสิตคณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์ช่วงปี พ.ศ. 2535 - 2542
• นิสิตประมาณ 10,000 คน
• ข้อมูลมีจำนวน 476,085 แถว
• ข้อมูลแบ่งเป็น 2 ส่วน
• ข้อมูลประวัติส่วนตัวของนิสิต
• เพศ, ที่อยู่, GPA ระดับมัธยมปลาย, GPA ชั้นปีที่ 1
• ข้อมูลการลงทะเบียนของนิสิต
• เกรดวิชาคณิตศาสตร์, เกรดวิชาฟิสิกส์, เกรดวิชาเคมี
140
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
3. Data Preparation
• คัดเลือกวิชาที่เกี่ยวข้องกับภาควิชาต่างๆ ในคณะวิศวกรรมศาสตร์
• แปลงข้อมูลให้เหมาะสมกับการวิเคราะห์
141
รหัสนิสิต เพศ ที่อยู่ GPA มัธยมปลาย … GPA
37058063 ชาย กรุงเทพ 2.5 … 2.3
37058167 ชาย สงขลา 3.4 … 3.3
… … … … … …
ข้อมูลประวัติส่วนตัวของนิสิต
รหัสนิสิต วิชา ปีการศึกษา เกรด
37058063 คอมพิวเตอร์ 2537 C+
37058063 คณิตศาสตร์ 2537 D
… … … …
ข้อมูลการลงทะเบียนของนิสิต
รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … GPA
37058063 ชาย LOW LOW … 2.3
37058167 ชาย HIGH HIGH … 3.3
… … … … … …
ข้อมูลสำหรับการใช้วิเคราะห์
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
4. Modeling
• แบ่งข้อมูลออกเป็น 2 ส่วน คือ
• 70% ของข้อมูลทั้งหมดใช้ในการสร้างโมเดล
• 30% ของข้อมูลทั้งหมดใช้ในการทดสอบประสิทธิภาพของโมเดล
• สร้างโมเดลด้วยเทคนิค Decision Tree ซึ่งจะได้โมเดลที่สามารถเข้าใจได้ง่าย
• โมเดลแบ่งแยกตามภาควิชาต่างๆ เช่น ภาควิชาวิศวกรรมคอมพิวเตอร์ วิศกรรมไฟฟ้า
• คำตอบ (class) จะแบ่งเป็น 2 ประเภท คือ
• GOOD หมายถึง นิสิตเรียนในภาควิชานี้แล้วจบมาได้ GPA อยู่ในช่วง 40% แรก (top 40%)
• BAD หมายถึง นิสิตเรียนในภาควิชานี้แล้วจบมาได้ GPA อยู่ในช่วง 40% จากท้าย (bottom
40%)
142
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
4. Modeling
143
Computer
= HIGH = LOW
Physics
Good
Good
= LOW = HIGH
Mathematics
Good Bad
= HIGH = LOW
• IF Computer is HIGH THEN
Graduate is Good
• IF Computer is LOW AND

Mathematics is HIGH THEN

Graduate is Good
• IF Computer is LOW AND

Mathematics is LOW AND

Physics is HIGH THEN

Graduate is Good
• IF Computer is LOW AND

Mathematics is LOW AND

Physics is LOW THEN

Graduate is Bad
โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์
เงื่อนไขที่สร้างได้จากโมเดล
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
5. Evaluation
• ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้
• คำนวณค่าความถูกต้อง
6. Deployment
• นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง

จะเลือกภาควิชา
• พิจารณาจากเกรดตามโมเดล

ที่สร้างได้
144
Computer
= HIGH = LOW
Physics
Good
Good
= LOW = HIGH
Mathematics
Good Bad
= HIGH = LOW
โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์
รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng
5700123 ชาย LOW HIGH … ??
ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
5. Evaluation
• ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้
• คำนวณค่าความถูกต้อง
6. Deployment
• นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง

จะเลือกภาควิชา
• พิจารณาจากเกรดตามโมเดล

ที่สร้างได้
145
Computer
= HIGH = LOW
Physics
Good
Good
= LOW = HIGH
Mathematics
Good Bad
= HIGH = LOW
โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์
รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng
5700123 ชาย LOW HIGH … ??
ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
5. Evaluation
• ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้
• คำนวณค่าความถูกต้อง
6. Deployment
• นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง

จะเลือกภาควิชา
• พิจารณาจากเกรดตามโมเดล

ที่สร้างได้
146
Computer
= HIGH = LOW
Physics
Good
Good
= LOW = HIGH
Mathematics
Good Bad
= HIGH = LOW
โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์
รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng
5700123 ชาย LOW HIGH … ??
ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
http://dataminingtrend.com http://facebook.com/datacube.th
CRISP-DM Example 1
5. Evaluation
• ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้
• คำนวณค่าความถูกต้อง
6. Deployment
• นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง

จะเลือกภาควิชา
• พิจารณาจากเกรดตามโมเดล

ที่สร้างได้
147
Computer
= HIGH = LOW
Physics
Good
Good
= LOW = HIGH
Mathematics
Good Bad
= HIGH = LOW
โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์
รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng
5700123 ชาย LOW HIGH … Good
ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
http://dataminingtrend.com http://facebook.com/datacube.th
References
• Andrew Chisholm, Exploring Data with RapidMiner, November 2013
• Markus Hofmann, Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and
Business Analytics Applications, October 25, 2013
• Foster Provost, Data Science for Business: What you need to know about
data mining and data-analytic thinking, August 19, 2013
• Eakasit Pacharawongsakda, An Introduction to Data Mining Techniques (Thai
version), 2014
148
http://dataminingtrend.com http://facebook.com/datacube.th
For more information
• หสม. ดาต้า คิวบ์ (data cube)
• website: http://www.dataminingtrend.com
• facebook: http:facebook.com/datacube.th หรือ http://facebook.com/sit.ake
• email: eakasit@datacube.asia
• lineID: eakasitp
149
http://dataminingtrend.com http://facebook.com/datacube.th
My contact
150

Contenu connexe

Tendances

คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7Pitchayanida Khumwichai
 
data storytelling คือ อะไร ? การเล่าเรื่อง ( สตอรี่เทลลิ่ง ) จากข้อมูล
data storytelling คือ อะไร ? การเล่าเรื่อง ( สตอรี่เทลลิ่ง ) จากข้อมูลdata storytelling คือ อะไร ? การเล่าเรื่อง ( สตอรี่เทลลิ่ง ) จากข้อมูล
data storytelling คือ อะไร ? การเล่าเรื่อง ( สตอรี่เทลลิ่ง ) จากข้อมูลธิติพล เทียมจันทร์
 
My First Data Science Project (using Rapid Miner)
My First Data Science Project (using Rapid Miner)My First Data Science Project (using Rapid Miner)
My First Data Science Project (using Rapid Miner)Data Science Thailand
 
ข่าวปลอม (Fake News) - Check ก่อน Share Part 4 สร้างทักษะรู้เท่าทันข่าวเพื่อร...
ข่าวปลอม (Fake News) - Check ก่อน Share Part 4 สร้างทักษะรู้เท่าทันข่าวเพื่อร...ข่าวปลอม (Fake News) - Check ก่อน Share Part 4 สร้างทักษะรู้เท่าทันข่าวเพื่อร...
ข่าวปลอม (Fake News) - Check ก่อน Share Part 4 สร้างทักษะรู้เท่าทันข่าวเพื่อร...Dr.Kridsanapong Lertbumroongchai
 
Data Science Training | Data Science For Beginners | Data Science With Python...
Data Science Training | Data Science For Beginners | Data Science With Python...Data Science Training | Data Science For Beginners | Data Science With Python...
Data Science Training | Data Science For Beginners | Data Science With Python...Simplilearn
 
Sosiaalinen media, evästeet ja analytiikka tietosuojan näkökulmasta
Sosiaalinen media, evästeet ja analytiikka tietosuojan näkökulmastaSosiaalinen media, evästeet ja analytiikka tietosuojan näkökulmasta
Sosiaalinen media, evästeet ja analytiikka tietosuojan näkökulmastaHarto Pönkä
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data miningphakhwan22
 
เทคนิคการถ่ายภาพสินค้าให้สวย ด้วยมือถือ เบื้องต้น วิทยากร อาจารย์แชมป์
เทคนิคการถ่ายภาพสินค้าให้สวย ด้วยมือถือ เบื้องต้น วิทยากร อาจารย์แชมป์เทคนิคการถ่ายภาพสินค้าให้สวย ด้วยมือถือ เบื้องต้น วิทยากร อาจารย์แชมป์
เทคนิคการถ่ายภาพสินค้าให้สวย ด้วยมือถือ เบื้องต้น วิทยากร อาจารย์แชมป์ธิติพล เทียมจันทร์
 
ข้อมูลและการจัดการข้อมูล
ข้อมูลและการจัดการข้อมูลข้อมูลและการจัดการข้อมูล
ข้อมูลและการจัดการข้อมูลDr.Kridsanapong Lertbumroongchai
 

Tendances (20)

Practical Data Mining: FP-Growth
Practical Data Mining: FP-GrowthPractical Data Mining: FP-Growth
Practical Data Mining: FP-Growth
 
05 classification 1 decision tree and rule based classification
05 classification 1 decision tree and rule based classification05 classification 1 decision tree and rule based classification
05 classification 1 decision tree and rule based classification
 
06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification06 classification 2 bayesian and instance based classification
06 classification 2 bayesian and instance based classification
 
First Step to Big Data
First Step to Big DataFirst Step to Big Data
First Step to Big Data
 
Search Twitter with RapidMiner Studio 6
Search Twitter with RapidMiner Studio 6Search Twitter with RapidMiner Studio 6
Search Twitter with RapidMiner Studio 6
 
Data mining
Data   miningData   mining
Data mining
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data mining
 
คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7คู่มือ practical data mining with rapid miner studio7
คู่มือ practical data mining with rapid miner studio7
 
Introduction to Predictive Analytics with case studies
Introduction to Predictive Analytics with case studiesIntroduction to Predictive Analytics with case studies
Introduction to Predictive Analytics with case studies
 
data storytelling คือ อะไร ? การเล่าเรื่อง ( สตอรี่เทลลิ่ง ) จากข้อมูล
data storytelling คือ อะไร ? การเล่าเรื่อง ( สตอรี่เทลลิ่ง ) จากข้อมูลdata storytelling คือ อะไร ? การเล่าเรื่อง ( สตอรี่เทลลิ่ง ) จากข้อมูล
data storytelling คือ อะไร ? การเล่าเรื่อง ( สตอรี่เทลลิ่ง ) จากข้อมูล
 
Practical Data Science 
Use-cases in Retail & eCommerce
Practical Data Science 
Use-cases in Retail & eCommercePractical Data Science 
Use-cases in Retail & eCommerce
Practical Data Science 
Use-cases in Retail & eCommerce
 
My First Data Science Project (using Rapid Miner)
My First Data Science Project (using Rapid Miner)My First Data Science Project (using Rapid Miner)
My First Data Science Project (using Rapid Miner)
 
ข่าวปลอม (Fake News) - Check ก่อน Share Part 4 สร้างทักษะรู้เท่าทันข่าวเพื่อร...
ข่าวปลอม (Fake News) - Check ก่อน Share Part 4 สร้างทักษะรู้เท่าทันข่าวเพื่อร...ข่าวปลอม (Fake News) - Check ก่อน Share Part 4 สร้างทักษะรู้เท่าทันข่าวเพื่อร...
ข่าวปลอม (Fake News) - Check ก่อน Share Part 4 สร้างทักษะรู้เท่าทันข่าวเพื่อร...
 
PDPA Basics (March 13, 2021)
PDPA Basics (March 13, 2021)PDPA Basics (March 13, 2021)
PDPA Basics (March 13, 2021)
 
Data Science Training | Data Science For Beginners | Data Science With Python...
Data Science Training | Data Science For Beginners | Data Science With Python...Data Science Training | Data Science For Beginners | Data Science With Python...
Data Science Training | Data Science For Beginners | Data Science With Python...
 
02 data werehouse
02 data werehouse02 data werehouse
02 data werehouse
 
Sosiaalinen media, evästeet ja analytiikka tietosuojan näkökulmasta
Sosiaalinen media, evästeet ja analytiikka tietosuojan näkökulmastaSosiaalinen media, evästeet ja analytiikka tietosuojan näkökulmasta
Sosiaalinen media, evästeet ja analytiikka tietosuojan näkökulmasta
 
01 introduction to data mining
01 introduction to data mining01 introduction to data mining
01 introduction to data mining
 
เทคนิคการถ่ายภาพสินค้าให้สวย ด้วยมือถือ เบื้องต้น วิทยากร อาจารย์แชมป์
เทคนิคการถ่ายภาพสินค้าให้สวย ด้วยมือถือ เบื้องต้น วิทยากร อาจารย์แชมป์เทคนิคการถ่ายภาพสินค้าให้สวย ด้วยมือถือ เบื้องต้น วิทยากร อาจารย์แชมป์
เทคนิคการถ่ายภาพสินค้าให้สวย ด้วยมือถือ เบื้องต้น วิทยากร อาจารย์แชมป์
 
ข้อมูลและการจัดการข้อมูล
ข้อมูลและการจัดการข้อมูลข้อมูลและการจัดการข้อมูล
ข้อมูลและการจัดการข้อมูล
 

En vedette

Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Kavita Ganesan
 

En vedette (9)

Building Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributesBuilding Decision Tree model with numerical attributes
Building Decision Tree model with numerical attributes
 
Evaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROCEvaluation metrics: Precision, Recall, F-Measure, ROC
Evaluation metrics: Precision, Recall, F-Measure, ROC
 
Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)Opinion Mining Tutorial (Sentiment Analysis)
Opinion Mining Tutorial (Sentiment Analysis)
 
Predictive analytic-for-retail-business
Predictive analytic-for-retail-businessPredictive analytic-for-retail-business
Predictive analytic-for-retail-business
 
Install weka extension_rapidminer
Install weka extension_rapidminerInstall weka extension_rapidminer
Install weka extension_rapidminer
 
การติดตั้ง RapidMiner Studio 6.1
การติดตั้ง RapidMiner Studio 6.1การติดตั้ง RapidMiner Studio 6.1
การติดตั้ง RapidMiner Studio 6.1
 
Apply (Big) Data Analytics & Predictive Analytics to Business Application
Apply (Big) Data Analytics & Predictive Analytics to Business ApplicationApply (Big) Data Analytics & Predictive Analytics to Business Application
Apply (Big) Data Analytics & Predictive Analytics to Business Application
 
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
Introduction to Feature (Attribute) Selection with RapidMiner Studio 6
 
Introduction to Weka: Application approach
Introduction to Weka: Application approachIntroduction to Weka: Application approach
Introduction to Weka: Application approach
 

Similaire à Introduction to Data Mining and Big Data Analytics

Introduction to big data and analytic eakasit patcharawongsakda
Introduction to big data and analytic eakasit patcharawongsakdaIntroduction to big data and analytic eakasit patcharawongsakda
Introduction to big data and analytic eakasit patcharawongsakdaBAINIDA
 
Big Data as a Service
Big Data as a ServiceBig Data as a Service
Big Data as a ServiceIMC Institute
 
Data strategy พันเอก ดร. เศรษฐพงค์ มะลิสุวรรณ
Data strategy พันเอก ดร. เศรษฐพงค์ มะลิสุวรรณ  Data strategy พันเอก ดร. เศรษฐพงค์ มะลิสุวรรณ
Data strategy พันเอก ดร. เศรษฐพงค์ มะลิสุวรรณ Settapong Malisuwan
 
นิตยสาร IT Trends ของ IMC Institute ฉบับที่ 10
นิตยสาร IT Trends ของ  IMC Institute  ฉบับที่ 10นิตยสาร IT Trends ของ  IMC Institute  ฉบับที่ 10
นิตยสาร IT Trends ของ IMC Institute ฉบับที่ 10IMC Institute
 
ระบบ เทคนิค และมาตรฐาน ในการพัฒนา(เว็บไซต์)ห้องสมุด ในฐานะบริการสาธารณะ (เอกสาร)
ระบบ เทคนิค และมาตรฐาน ในการพัฒนา(เว็บไซต์)ห้องสมุด ในฐานะบริการสาธารณะ (เอกสาร)ระบบ เทคนิค และมาตรฐาน ในการพัฒนา(เว็บไซต์)ห้องสมุด ในฐานะบริการสาธารณะ (เอกสาร)
ระบบ เทคนิค และมาตรฐาน ในการพัฒนา(เว็บไซต์)ห้องสมุด ในฐานะบริการสาธารณะ (เอกสาร)Arthit Suriyawongkul
 
Opendream web-lib-standards-doc-20100703
Opendream web-lib-standards-doc-20100703Opendream web-lib-standards-doc-20100703
Opendream web-lib-standards-doc-20100703opendream
 
Opendream web-lib-standards-doc-20100703
Opendream web-lib-standards-doc-20100703Opendream web-lib-standards-doc-20100703
Opendream web-lib-standards-doc-20100703opendream
 
Trends & Technology for education 2561#2
Trends & Technology for education 2561#2Trends & Technology for education 2561#2
Trends & Technology for education 2561#2Prachyanun Nilsook
 
เทคโนโลยีสารสนเทศเพื่อการเรียนรู้
เทคโนโลยีสารสนเทศเพื่อการเรียนรู้เทคโนโลยีสารสนเทศเพื่อการเรียนรู้
เทคโนโลยีสารสนเทศเพื่อการเรียนรู้TDew Ko
 
Information Technology for Knowledge society
Information Technology for Knowledge societyInformation Technology for Knowledge society
Information Technology for Knowledge societyBoonlert Aroonpiboon
 
ศักยภาพของ AI สู่โอกาสใหม่แห่งการแข่งขันและความสำเร็จ (Thai AI updates in yea...
ศักยภาพของ AI สู่โอกาสใหม่แห่งการแข่งขันและความสำเร็จ (Thai AI updates in yea...ศักยภาพของ AI สู่โอกาสใหม่แห่งการแข่งขันและความสำเร็จ (Thai AI updates in yea...
ศักยภาพของ AI สู่โอกาสใหม่แห่งการแข่งขันและความสำเร็จ (Thai AI updates in yea...Kobkrit Viriyayudhakorn
 
Using Social Media Via Social Network
Using Social Media Via Social NetworkUsing Social Media Via Social Network
Using Social Media Via Social NetworkTaradpmt
 
Using Social Media Via Social Network
Using Social Media Via Social NetworkUsing Social Media Via Social Network
Using Social Media Via Social NetworkTaradpmt
 

Similaire à Introduction to Data Mining and Big Data Analytics (20)

Introduction to big data and analytic eakasit patcharawongsakda
Introduction to big data and analytic eakasit patcharawongsakdaIntroduction to big data and analytic eakasit patcharawongsakda
Introduction to big data and analytic eakasit patcharawongsakda
 
Big Data as a Service
Big Data as a ServiceBig Data as a Service
Big Data as a Service
 
Data strategy พันเอก ดร. เศรษฐพงค์ มะลิสุวรรณ
Data strategy พันเอก ดร. เศรษฐพงค์ มะลิสุวรรณ  Data strategy พันเอก ดร. เศรษฐพงค์ มะลิสุวรรณ
Data strategy พันเอก ดร. เศรษฐพงค์ มะลิสุวรรณ
 
นิตยสาร IT Trends ของ IMC Institute ฉบับที่ 10
นิตยสาร IT Trends ของ  IMC Institute  ฉบับที่ 10นิตยสาร IT Trends ของ  IMC Institute  ฉบับที่ 10
นิตยสาร IT Trends ของ IMC Institute ฉบับที่ 10
 
ระบบ เทคนิค และมาตรฐาน ในการพัฒนา(เว็บไซต์)ห้องสมุด ในฐานะบริการสาธารณะ (เอกสาร)
ระบบ เทคนิค และมาตรฐาน ในการพัฒนา(เว็บไซต์)ห้องสมุด ในฐานะบริการสาธารณะ (เอกสาร)ระบบ เทคนิค และมาตรฐาน ในการพัฒนา(เว็บไซต์)ห้องสมุด ในฐานะบริการสาธารณะ (เอกสาร)
ระบบ เทคนิค และมาตรฐาน ในการพัฒนา(เว็บไซต์)ห้องสมุด ในฐานะบริการสาธารณะ (เอกสาร)
 
Opendream web-lib-standards-doc-20100703
Opendream web-lib-standards-doc-20100703Opendream web-lib-standards-doc-20100703
Opendream web-lib-standards-doc-20100703
 
Opendream web-lib-standards-doc-20100703
Opendream web-lib-standards-doc-20100703Opendream web-lib-standards-doc-20100703
Opendream web-lib-standards-doc-20100703
 
Trends & Technology for education 2561#2
Trends & Technology for education 2561#2Trends & Technology for education 2561#2
Trends & Technology for education 2561#2
 
เทคโนโลยีสารสนเทศเพื่อการเรียนรู้
เทคโนโลยีสารสนเทศเพื่อการเรียนรู้เทคโนโลยีสารสนเทศเพื่อการเรียนรู้
เทคโนโลยีสารสนเทศเพื่อการเรียนรู้
 
20100612 digital-metadata
20100612 digital-metadata20100612 digital-metadata
20100612 digital-metadata
 
Big data
Big dataBig data
Big data
 
digital law for GLAM
digital law for GLAMdigital law for GLAM
digital law for GLAM
 
20190220 digital-archives
20190220 digital-archives20190220 digital-archives
20190220 digital-archives
 
Information Technology for Knowledge society
Information Technology for Knowledge societyInformation Technology for Knowledge society
Information Technology for Knowledge society
 
ศักยภาพของ AI สู่โอกาสใหม่แห่งการแข่งขันและความสำเร็จ (Thai AI updates in yea...
ศักยภาพของ AI สู่โอกาสใหม่แห่งการแข่งขันและความสำเร็จ (Thai AI updates in yea...ศักยภาพของ AI สู่โอกาสใหม่แห่งการแข่งขันและความสำเร็จ (Thai AI updates in yea...
ศักยภาพของ AI สู่โอกาสใหม่แห่งการแข่งขันและความสำเร็จ (Thai AI updates in yea...
 
Big data 101
Big data 101Big data 101
Big data 101
 
333
333333
333
 
Apps for Teacher in the Digital Age
Apps for Teacher in the Digital AgeApps for Teacher in the Digital Age
Apps for Teacher in the Digital Age
 
Using Social Media Via Social Network
Using Social Media Via Social NetworkUsing Social Media Via Social Network
Using Social Media Via Social Network
 
Using Social Media Via Social Network
Using Social Media Via Social NetworkUsing Social Media Via Social Network
Using Social Media Via Social Network
 

Introduction to Data Mining and Big Data Analytics

  • 1. การวิเคราะห์ข้อมูลขนาดใหญ่ (Big Data) และเทคนิคดาต้า ไมน์นิ่ง (Data Mining) ดร.เอกสิทธิ์ พัชรวงศ์ศักดา ผู้ร่วมก่อตั้งห้างหุ้นส่วนสามัญดาต้า คิวบ์ และ อาจารย์ประจำหลักสูตรวิศวกรรมข้อมูลขนาดใหญ่ วิทยาลัยนวัตกรรมด้านเทคโนโลยีและวิศวกรรมศาสตร์ มหาวิทยาลัยธุรกิจบัณฑิตย์ 
 ณ มหาวิทยาลัยราชภัฏเพชรบุรี วันพุธที่ 8 มีนาคม 2560
  • 2. http://dataminingtrend.com http://facebook.com/datacube.th ประวัติ • ชื่อ: เอกสิทธิ์ พัชรวงศ์ศักดา • การศึกษา: • ปริญญาเอก วิทยาการคอมพิวเตอร์ สถาบันเทคโนโลยีนานาชาติสิรินธร (SIIT) มหาวิทยาลัยธรรมศาสตร์ • ปริญญาโท วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ • ปริญญาตรี วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ 
 (เกียรตินิยมอันดับ 2) • ประสบการณ์ • Certified RapidMiner Analyst & Ambassador • Research Collaboration with Western Digital (Thailand) เฟสที่ 1 ระยะเวลา 6 เดือน • ร่วมวิจัย โครงการสํารวจข้อมูลเพื่อการวิเคราะห์พฤติกรรมของนักท่องเที่ยวเชิงลึก ด้วยวิธีการทําเหมือง ข้อมูล การท่องเที่ยวแห่งประเทศไทย (ททท) • วิทยากรอบรมการใช้งานซอฟต์แวร์ open source ทางด้าน data mining 2
  • 4. (data)3
 base|warehouse|mining http://dataminingtrend.com http://facebook.com/datacube.th About us 4 RapidMiner Analyst Certification This is to Certify that Successfully passed the examination for the Certified RapidMiner Analyst. The RapidMiner Analyst certification level is designed for individuals who wish to demonstrate a fundamental understanding of how RapidMiner software works and is used. Certified Analyst professionals will be able to prepare data and create predictive models in standard data environments typically found within most analyst positions. The candidate has proven the ability to:  Prepare data  Build predictive models  Evaluate the model’s quality  Score new data sets  Deploy data mining models With:  RapidMiner Studio  RapidMiner Server Eakasit Pacharawongsakda
  • 7. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 7
  • 11. เวลา 08:00 น. เจ้านายโทรศัพท์เข้ามาถามงาน source: https://d1ai9qtk9p41kl.cloudfront.net/assets/mc/psuderman/2011_07/text-drive.png
  • 12. เวลา 08:05 น. ขับรถไปชนกับคันอื่น
  • 13. เวลา 10:00 น. ถึงที่ทำงานและทำงานต่อไป source: http://stuffpoint.com/anime-and-manga/image/285181-anime-and-manga-girl-working-in-the-computer.jpg
  • 14. เวลา 18:00 น. แวะซื้อของกลับบ้าน
  • 15. เวลา 20:00 น. กลับถึงบ้านและอยู่คนเดียว
  • 25. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics • Big Bang 25 source:http://www.thetechy.com/science/exploring-universe-curiosity
  • 26. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics • Big Architecture (Great wall of China) 26 source: http://www.history.com/topics/great-wall-of-china
  • 27. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics • Big Data 27source: http://www.plmjim.com/?p=583
  • 28. http://dataminingtrend.com http://facebook.com/datacube.th Data Evolutions 28 source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data
  • 29. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? 29 source: https://www.youtube.com/watch?v=TzxmjbL-i4Y
  • 30. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? 30 source: http://www.intel.com/content/www/us/en/big-data/big-data-101-animation.html#
  • 31. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Big Data ประกอบด้วย 3 V • Volume • ข้อมูลมีจำนวนเพิ่มขึ้นอย่างมหาศาล • Velocity • ข้อมูลเพิ่มขึ้นอย่างรวดเร็ว • Variety • ข้อมูลมีความหลากหลายมากขึ้น 31 source: https://upxacademy.com/beginners-guide-to-big-data/
  • 32. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Huge volume of data • ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ เป็นล้านคอลัมน์ (million columns) 32
  • 33. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Volume 33 source:https://datafloq.com/read/infographic/226
  • 35. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Huge volume of data • ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ เป็นล้านคอลัมน์ (million columns) • Speed of new data creation and growth • ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ 35
  • 36. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Velocity 36 source: https://upxacademy.com/beginners-guide-to-big-data/
  • 37. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? • Huge volume of data • ข้อมูลมีขนาดใหญ่มากๆ เช่น มีจำนวนเป็นพันล้านแถว (billion row) หรือ เป็นล้านคอลัมน์ (million columns) • Speed of new data creation and growth • ข้อมูลเกิดขึ้นอย่างรวดเร็วมากๆ • Complexity of data types and structures • ข้อมูลมีความหลากหลาย ไม่ได้อยู่ในรูปแบบของตารางเท่านั้น อาจจะเป็น รูปแบบของข้อความ (text) รูปภาพ (images) หรือ วิดีโอ (video clip) 37
  • 38. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Variety 38 source: https://upxacademy.com/beginners-guide-to-big-data/
  • 39. http://dataminingtrend.com http://facebook.com/datacube.th Big Data: Variety 39 source: https://upxacademy.com/beginners-guide-to-big-data/
  • 40. http://dataminingtrend.com http://facebook.com/datacube.th What is Big Data? 40 source: http://dataconomy.com/2014/08/infographic-how-to-explain-big-data-to-your-grandmother/
  • 41. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 41
  • 42. http://dataminingtrend.com http://facebook.com/datacube.th Internet of Things 42source: http://www.postscapes.com/what-exactly-is-the-internet-of-things-infographic/
  • 45. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • Disney’s Magic Band 45 source:https://disneyworld.disney.go.com/plan/my-disney-experience/bands-cards/#?CMP=SEC-WDWShareEmailNGE-MDX-MagicBand-video&video=0/0/0/0
  • 46. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • GlowCaps 46 source:http://www.vitality.net/glowcaps.html
  • 47. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • Connected Toothbrush 47 source:https://www.youtube.com/watch?v=gLpUxDdh9iQ
  • 49. http://dataminingtrend.com http://facebook.com/datacube.th IoT applications • iBeacon 49 source: https://www.mallmaverick.com/system/site_images/photos/000/001/700/original/blog_ibeacon1.jpg?1391033561
  • 50. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 50
  • 51. http://dataminingtrend.com http://facebook.com/datacube.th Data Scientist 51 source: https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
  • 52. http://dataminingtrend.com http://facebook.com/datacube.th Data Scientist/Engineer/Analyst 52 source: http://insidebigdata.com/wp-content/uploads/2016/04/springboard_infographic.jpg
  • 53. http://dataminingtrend.com http://facebook.com/datacube.th Big Data and traditional analytics 53 Big Data Traditional analytics Type of data Unstructured formats Formatted in rows and columns Volume of data 100 terabytes to petabytes Tens of terabytes or less Flow of data Constant flow of data Static pool of data Analysis method Machine Learning/
 Data Mining Hypothesis-based Primary purpose Data-based products Internal decision support and services source: big data @ work
  • 54. http://dataminingtrend.com http://facebook.com/datacube.th BI & Data Science/Data Mining 54 Business Intelligence Data Mining Time Analytical 
 Approach Past Future Explanatory Explanatory source:Data Science and Big Data Analytics: Discovering, analyzing, visualizing and presenting data BI questions • What happened last quarter? • How many unit sold? • Where is the problem? In which situations Data Mining questions • What if … ? • What will happen next? • Why is this happen?
  • 55. http://dataminingtrend.com http://facebook.com/datacube.th • เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง • การหาความสัมพันธ์ (association analysis) • หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน • เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ • การจัดกลุ่มข้อมูล (clustering) • แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง • เช่น แบ่งกลุ่มลูกค้าตามพฤติกรรมการใช้งาน • การจำแนกประเภทข้อมูล (classification) • สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต • เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป Data Science/Data Mining methods 55 association rules clustering classification
  • 56. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 56 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 57. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 57 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 58. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 58 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 59. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 59 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 60. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 60 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 61. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 61 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 62. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 62 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 63. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การหาความสัมพันธ์ที่เกิดขึ้นในข้อมูล (Association Analysis) 63 ตะกร้าใบที่ 1 ตะกร้าใบที่ 2 ตะกร้าใบที่ 3
  • 64. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การจัดกลุ่ม (Segmentation) 64
  • 65. http://dataminingtrend.com http://facebook.com/datacube.th Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 65 Customer ID Recency Frequency Monetary C10001 C10002 C10003 หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015 OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 ตาราง order detail
  • 66. http://dataminingtrend.com http://facebook.com/datacube.th OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 66 Customer ID Recency Frequency Monetary C10001 151 3 60 ตาราง order detail หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
  • 67. http://dataminingtrend.com http://facebook.com/datacube.th OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 67 Customer ID Recency Frequency Monetary C10001 151 3 60 C10002 116 2 500 ตาราง order detail หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
  • 68. http://dataminingtrend.com http://facebook.com/datacube.th OrderID Customer ID Order Date Total Amount O14001 C10003 01-01-2014 10.00 O14002 C10001 02-13-2014 20.00 O14003 C10002 03-14-2014 200.00 O14004 C10001 04-15-2014 10.00 O14005 C10001 08-10-2014 30.00 O14006 C10002 09-14-2014 300.00 Segmentation by RFM • แบ่งกลุ่มลูกค้าตามพฤติกรรมการซื้อสินค้าของลูกค้า • ระยะเวลา (จำนวนวัน) จากการซื้อล่าสุดที่ผ่านมา (Recency) • ความถี่ของการซื้อสินค้า (Frequency) • การใช้จ่ายของลูกค้า (Monetary) 68 Customer ID Recency Frequency Monetary C10001 151 3 60 C10002 116 2 500 C10003 372 1 10 ตาราง order detail หมายเหตุ: คำนวณ ณ วันที่ 01/08/2015
  • 69. http://dataminingtrend.com http://facebook.com/datacube.th Segmentation by RFM • แบ่งกลุ่มลูกค้าด้วยวิธี RFM • เรียงลำดับข้อมูล • Recency จากน้อยไปมาก • Frequency และ Monetary จากมากไปน้อย • แบ่งข้อมูลออกเป็น 5 กลุ่ม กลุ่มละจำนวนเท่าๆ กัน (quintile) • คำนวณคะแนน RFM ของแต่ละกลุ่ม 69 source: http://www.b-eye-network.com/view/10256 น้อย มาก Recency score = 5 score = 4 score = 3 score = 2 score = 1 มาก น้อย Frequency score = 5 score = 4 score = 3 score = 2 score = 1 มาก น้อย Monetary 20% ของข้อมูล 20% ของข้อมูล 20% ของข้อมูล 20% ของข้อมูล 20% ของข้อมูล score = 5 score = 4 score = 3 score = 2 score = 1
  • 70. http://dataminingtrend.com http://facebook.com/datacube.th Segmentation by RFM • แบ่งกลุ่มลูกค้าด้วยวิธี RFM • ลูกค้าในแต่ละกลุ่มจะมีลักษณะต่างๆ กัน เช่น • ลูกค้ากลุ่ม RFM = 555 • เป็นกลุ่มลูกค้าที่มีค่ามากสุด • ลูกค้ากลุ่ม RFM = 551 • เป็นกลุ่มลูกค้าที่มีการซื้อบ่อยๆ 
 แต่ซื้อจำนวนน้อย • ออก campaign กระตุ้นให้ลูกค้าซื้อสินค้าที่มีราคา
 สูงขึ้น (up-selling) • ลูกค้ากลุ่ม RFM = 115 • เป็นกลุ่มลูกค้าที่นานๆ จะซื้อสักครั้ง แต่ซื้อสินค้าที่มีราคาสูง • ออก campaign กระตุ้นให้ลูกค้าซื้อสินค้าบ่อยขึ้น 70 Recency Frequency M onetary 1 2 3 4 5 5 4 3 2 1 5 4 3 2 1
  • 71. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering) 71 1 2 3 5 6 4
  • 72. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • การจัดกลุ่มข้อมูลตามความคล้ายคลึง (Clustering) 72 1 6 4 5 2 3 ลูกค้าที่ใช้โทรเยอะ ลูกค้าที่ส่ง SMS เยอะ ลูกค้าที่ใช้งานไม่เยอะ
  • 73. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • Classification (การคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต) 73
  • 74. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • สร้างโมเดล (classification model) จากข้อมูล training data ซึ่งมีลาเบล (label) 74 ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam 6 Y N N spam 7 N N N normal 8 N Y N spam 9 N N N normal 10 N N N normal attribute label Free Won Normal Spam Spam classification model = N = Y = N = Y training data
  • 75. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล 75 attribute Free Won Normal Spam Spam classification model = N = Y = N = Y training data ID Free Won Cash Type 11 Y Y N ? 12 N Y N ?
  • 76. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล 76 attribute Free Won Normal Spam Spam classification model = N = Y = N = Y training data ID Free Won Cash Type 11 Y Y N ? 12 N Y N ?
  • 77. http://dataminingtrend.com http://facebook.com/datacube.th Data Science/Data Mining methods • ตัวอย่าง spam e-mail classification • นำข้อมูลใหม่ (unseen data) ทำนายโดยใช้โมเดล 77 attribute Free Won Normal Spam Spam classification model = N = Y = N = Y training data ID Free Won Cash Type 11 Y Y N ? 12 N Y N ?
  • 78. http://dataminingtrend.com http://facebook.com/datacube.th • ตัวอย่าง spam e-mail classification ID Free Won Cash Type 1 Y Y Y spam 2 N Y Y spam 3 N N N normal 4 N N N normal 5 Y N N spam Classification example 78 attribute labelID training data สร้าง classification model ID Free Won Cash Type 11 Y Y N ? 12 N Y N ? unseen data classification model ID Type 11 spam 12 spam 1 2 3 4
  • 79. http://dataminingtrend.com http://facebook.com/datacube.th Challenges for mining Big Data • Heterogeneous and Complex Data • data types are varied such as Social Network data, Biological data, GIS • data mining technique should take into the consideration relationships in the data such as network (graph) connectivity, temporal and spatial • Scalability • data sets with sizes of gigabytes, terabytes are becoming common. • data mining technique can be improved by using sampling or developing parallel or distributed algorithms 79
  • 80. http://dataminingtrend.com http://facebook.com/datacube.th Variety • ข้อมูลมีความหลากหลาย • Sequence • เป็นข้อมูลลักษณะของตัวอักษรที่เรียงต่อกันเป็นลำดับ (sequence) • ตัวอย่างเช่น web click stream sequence, DNA/Protein sequence • Graph • เป็นข้อมูลในรูปแบบของโหนด (node) ที่มีเส้นเชื่อมโยงถึงกัน (link) • ตัวอย่างเช่น • ความสัมพันธ์ของผู้ใช้งานเครือข่ายสังคมออนไลน์ (Social Network) • ข้อมูลโครงสร้างทางเคมี (chemical structure) • เครือข่ายคอมพิวเตอร์ (computer network) 80
  • 81. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 81 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2
  • 82. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 82 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33%
  • 83. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 83 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Sports, Finance> 2/6 = 33%
  • 84. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 84 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Sports, Finance> 2/6 = 33% <Finance, News> 2/6 = 33%
  • 85. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 85 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Sports, Finance> 2/6 = 33% <Finance, News> 2/6 = 33% <Sports, News> 2/6 = 33%
  • 86. http://dataminingtrend.com http://facebook.com/datacube.th Sequential Pattern Mining • พัฒนาต่อจากการหา frequent itemset • พิจารณาลำดับการเกิดขึ้นของข้อมูลก่อนและหลัง • เช่น <News, Finance> ไม่เท่ากับ <Finance, News> • การค้นหา frequent subsequence ในการเข้าใช้งานเว็บไซต์ 86 ลำดับที่ 1 ลำดับที่ 2 Session ID Sequence 1 <News, Finance> 2 <News, Finance> 3 <Sports, Finance, News> 4 <Arts> 5 <Sports, Finance, News> 6 <News, Arts, Entertainment> ลำดับที่ 1 ลำดับที่ 2 Frequent sequence Frequency <News, Finance> 2/6 = 33% <Sports, Finance> 2/6 = 33% <Finance, News> 2/6 = 33% <Sports, News> 2/6 = 33% <Sports, Finance, News> 2/6 = 33%
  • 87. http://dataminingtrend.com http://facebook.com/datacube.th Graph Mining • Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น บ่อย 87 image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
  • 88. http://dataminingtrend.com http://facebook.com/datacube.th Graph Mining • Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น บ่อย 88 image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
  • 89. http://dataminingtrend.com http://facebook.com/datacube.th Graph Mining • Frequent Subgraph Mining ใช้ในการหารูปแบบโครงสร้างที่เกิดขึ้น บ่อย 89 image source: GRAMI: Frequent Subgraph and Pattern Mining in a Single Large Graph, Elseidy et al., VLDB 2014
  • 90. http://dataminingtrend.com http://facebook.com/datacube.th Text Mining • การประยุกต์ใช้ข้อมูลประเภทข้อความ • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ 90source:http://sentiment140.com และ http://www.techguide.com.au
  • 91. http://dataminingtrend.com http://facebook.com/datacube.th Text representation • ในการวิเคราะห์ข้อมูลข้อความต้องทำการแปลงข้อมูลให้อยู่
 ในรูปแบบที่มีโครงสร้าง 91 Laying on the sand sun hitting me, this feels good :) Smells so good I have two :) i watched 3 movies today, reminded me of my child hood! Finding Nemo 
 was always my favourite, but that was when i was MUCH younger! :) I think NYC would be amazing, I really wanna go there :) he never care,he never look at me..:( i am so tired!! and my feet hurt :( positive negative
  • 92. http://dataminingtrend.com http://facebook.com/datacube.th Text representation: Bag of Words • จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ 92 ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative Term Count Finding 1
  • 93. http://dataminingtrend.com http://facebook.com/datacube.th Text representation: Bag of Words • จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ 93 ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative Term Count Finding 1 I 3
  • 94. http://dataminingtrend.com http://facebook.com/datacube.th Text representation: Bag of Words • จำนวนความถี่ของคำที่เกิดขึ้นในข้อความ 94 ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative Term Count Finding 1 I 3 Laying 1 MUCH 1 NYC 1 Nemo 1 Smells 1 always 1 am 1 amazing 1 and 1 at 1 be 1 but 1 care 1 Term Count child 1 favourite 1 feels 1 feet 1 go 1 good 2 have 1 he 2 hitting 1 hood 1 hurt 1 i 3 look 1 me 1 … 1 bag of words
  • 95. http://dataminingtrend.com http://facebook.com/datacube.th Text representation: Stemming • แปลงคำให้เป็นรากศัพท์ (root) เช่น finding แปลงเป็น find 95 Term Count child 1 favourite 3 feels 1 feet 1 go 1 good 2 have 1 he 2 hitting 1 hood 1 hurt 1 i 3 look 1 me 1 … 1 Term Count child 1 favourit 1 feel 1 feet 1 go 1 good 2 have 1 he 2 hit 1 hood 1 hurt 1 i 3 look 1 me 1 … 1 Term Count Finding 1 I 3 Laying 1 MUCH 1 NYC 1 Nemo 1 Smells 1 always 1 am 1 amazing 1 and 1 at 1 be 1 but 1 care 1 Term Count find 1 i 6 lai 1 much 1 nyc 1 nemo 1 smell 1 alwai 1 am 1 amaz 1 and 1 at 1 be 1 but 1 care 1 bag of words bag of words
  • 96. http://dataminingtrend.com http://facebook.com/datacube.th Text representation: Remove stopwords • ตัดคำที่เป็น stop word ทิ้ง 96 Term Count find 1 i 6 lai 1 much 1 nyc 1 nemo 1 smell 1 alwai 1 am 1 amaz 1 and 1 at 1 be 1 but 1 care 1 Term Count child 1 favourit 1 feel 1 feet 1 go 1 good 2 have 1 he 2 hit 1 hood 1 hurt 1 look 1 me 1 … 1 Term Count find 1 i 6 lai 1 nyc 1 nemo 1 smell 1 alwai 1 amaz 1 child 1 favorit 1 feel 1 feet 1 go 1 good 2 hit 1 Term Count hood 1 hurt 1 look 1 care 1 movi 1 reali 1 remind 1 sand 1 sun 1 thi 1 think 1 tire 1 todai 1 wa 3 watch 1 remove stopwords
  • 97. http://dataminingtrend.com http://facebook.com/datacube.th Convert text to structured data • Binary occurrence ถ้ามีคำที่เกิดขึ้นในแต่ละเอกสารจะให้ค่าเป็น 1 
 ถ้าไม่เกิดขึ้นจะเป็น 0 97 ID find I lai nyc nemo smell alwai … Sentiment 1 0 0 1 0 0 0 0 … positive 2 0 1 0 0 0 1 0 … positive 3 1 1 0 0 1 0 1 … positive 4 0 1 0 1 0 0 0 … positive 5 0 0 0 0 0 0 0 … negative 6 0 1 0 0 0 0 0 … negative attribute label ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
  • 98. http://dataminingtrend.com http://facebook.com/datacube.th Convert text to structured data • Term Frequency คือจำนวนครั้งที่คำนั้นเกิดขึ้นในเอกสารทั้งหมด • TF = จำนวนคำในเอกสาร/จำนวนคำทั้งหมดในเอกสาร 98 ID find I lai nyc nemo … Sentiment 1 0 0 0.17 0 0 … positive 2 0 0.17 0 0 0 … positive 3 0.17 0.33 0 0 0.17 … positive 4 0 0.33 0 0.17 0 … positive 5 0 0 0 0 0 … negative 6 0 0.17 0 0 0 … negative attribute label ID Tweet Sentiment 1 Laying on the sand sun hitting me, this feels good. positive 2 Smells so good I have two. positive 3 i watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when i was MUCH younger! positive 4 I think NYC would be amazing, I really wanna go there. positive 5 he never care,he never look at me. negative 6 i am so tired!! and my feet hurt. negative training data แสดงคำที่เกิดขึ้นในเอกสารต่างๆ
  • 99. http://dataminingtrend.com http://facebook.com/datacube.th Handle large corpus of text data • การนับจำนวนคำปกติจะเป็นแบบเรียงลำดับ (sequential) ทีละเอกสาร ดังนั้นถ้า เอกสารมีจำนวนเยอะมากๆ จะทำงานได้้ช้า • ใช้หลักการทำงานแบบขนาน (parallel) โดยใช้วิธีการของ Map/Reduce (Dean and Ghemawat, OSDI 2004) • Map takes an input pair and produces a set of intermediate key/value pairs. • จะเก็บในรูปแบบ (key1, value1) เช่น (“find”,1), (“I”,1), (“lay”,1), (“I”,1), (“I”,1) • The Reduce function merges together values to form a possibly smaller set of values. • จะเก็บในรูปแบบ (key1, list(value1)) เช่น (“find“,{1}), (“I“,{1,1,1}), (“lay“,{1}) • สุดท้ายจะได้จำนวนคำ คือ (“find”,1), (“I”,3) และ (“lay”,1) 99
  • 100. http://dataminingtrend.com http://facebook.com/datacube.th Map/Reduce Framework 100 image source: http://www.infosun.fim.uni-passau.de/cl/MapReduceFoundation/
  • 101. http://dataminingtrend.com http://facebook.com/datacube.th Handle large corpus of text data 101 ID Tweet 1 Laying on the sand sun hitting me, this feels good. 2 Smells so good I have two. ID Tweet 3 I watched 3 movies today, reminded me of my child hood! Finding Nemo was always my favourite, but that was when I was MUCH younger! 4 I think NYC would be amazing, I really wanna go there. ID Tweet 5 he never care,he never look at me. 6 I am so tired!! and my feet hurt. เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3 map step • (“Laying”,1) • (“on“, 1) …. • (“I“, 1) • (“I“,1) • (“watched“, 1) …. • (“I“, 1) • (“he“,1) • (“never“, 1) …. • (“I“, 1)
  • 102. http://dataminingtrend.com http://facebook.com/datacube.th Handle large corpus of text data • (“he”,1) • (“I”,{1,1,1,1,1,1}) => (“I”,6) • (“Laying”,1) • (“never”,1) • (“on”, 1) • (“watched”,1) 102 reduce stepmap step • (“Laying”,1) • (“on“, 1) …. • (“I“, 1) • (“I“,1) • (“watched“, 1) …. • (“I“, 1) • (“he“,1) • (“never“, 1) …. • (“I“, 1) เครื่องที่ 1 เครื่องที่ 2 เครื่องที่ 3
  • 103. http://dataminingtrend.com http://facebook.com/datacube.th • แนะนำเทคโนโลยีการจัดการและวิเคราะห์ข้อมูลขนาดใหญ่ 
 (Big Data) • แนะนำเทคโนโลยี Internet of Things (IoT) • แนะนำเทคนิคการวิเคราะห์ข้อมูลด้วยดาต้า ไมน์นิง • ตัวอย่างการประยุกต์ใช้งาน • กระบวนการมาตรฐานในการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้า ไมน์นิง หัวข้อการบรรยาย 103
  • 104. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • ตัวอย่างการนำ Data Mining ไปใช้งาน 104 source: http://www.youtube.com/watch?v=f2Kji24833Y
  • 105. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • บัตรสมาชิก (loyalty card) • ติดตามพฤติกรรมการซื้อสินค้า ของลูกค้าจากบัตร loyalty • นำมาวิเคราะห์และนำเสนอเป็น โปรโมชันพิเศษให้แต่ละบุคคล • เพิ่มโอกาสในการขายสินค้าให้กับ ลูกค้า • กระตุ้นให้ลูกค้าได้ซื้อสินค้ามาก ขึ้น เช่น ซื้อสินค้าวันนี้ จะได้ ส่วนลดพิเศษ ทำให้ลูกค้าเกิดการ ตัดสินใจซื้อทันที 105 image source: http://www.positioningmag.com
  • 106. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • ทราบพฤติกรรมการซื้อสินค้าของลูกค้า เพื่อนำมาวิเคราะห์ และ
 นำเสนอเป็นโปรโมชันพิเศษให้แต่ละบุคคล 106
  • 107. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • เบียร์และผ้าอ้อม • ห้าง Walmart พบว่าทุกวันศุกร์ หลังบ่ายโมง จะมีลูกค้าเพศชาย อายุระหว่าง 25 – 35 ปี ซื้อสินค้า Beers และ Diapers มากที่สุด 107
  • 108. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • คาดการณ์การตั้งครรภ์ • ห้าง Target ทำการ วิเคราะห์พฤติกรรมการซื้อ สินค้าของลูกค้าเพศหญิง • พบรูปแบบ (pattern) ว่า ถ้ามีการซื้อวิตามิน ซื้อ อาหารบำรุง หรือ ซื้อตู้ เตียงเพิ่ม ลูกค้าจะเริ่มตั้ง ครรภ์ • Target จะส่ง promotion ให้ลูกค้าเหล่านั้น 108
  • 109. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • แนะนำสินค้าที่เกี่ยวข้อง • amazon.com แนะนำหนังสือที่เกี่ยวข้องกับ RapidMiner • Netflix แนะนำภาพยนต์ที่คล้ายกับที่เคยดู เช่น Life of Pi 109
  • 110. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • Google Self-Driving Car 110 source: https://www.youtube.com/watch?v=8fjNSUWX7nQ
  • 111. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • แนวโน้มราคาตั๋วเครื่องบิน 111
  • 112. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • คาดการณ์การลาออกของพนักงาน 112 Receive Promotion = NO = YES Years with firm < 5 Not Quit = YES = NO Partner changed job Quit Not Quit = YES = NO Quit ตัวอย่างโมเดลคาดการณ์การลาออกของพนักงาน
  • 113. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ 113
  • 114. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • วิเคราะห์ทัศนคติในแง่ต่างๆ จากสังคมออนไลน์ (ภาษาไทย) 114
  • 115. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • ทำนายอายุและเพศจากรูปภาพ 115 source: http://www.how-old.net
  • 116. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • Paypal uses RapidMiner to detect churn and identify issues 116 source: blob:https://rapidminer.com/63b65d64-0adb-4cc3-96bf-a5d5b88ee883
  • 117. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • How Etihad Airways Uses Big Data To Reach Its Destination 117 source:https://datafloq.com/read/etihad-airways-big-data-reach-destination/412
  • 118. http://dataminingtrend.com http://facebook.com/datacube.th Big Data & Analytics Applications • Business use cases • Sales and marketing analytics • Customer analytics • Social media analytics • Plant and facility management. • Supply chain and channel analytics • Fraud detection • Price optimization 118
  • 119. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Sales and marketing analytics • The first involves using analytical models to improve how customer-facing applications make direct recommendations to the customer • include better identifying opportunities for cross-selling and upselling • decreasing abandoned shopping carts and generally improving the accuracy of integrated recommendation engines • The second type is intended to show the performance of the marketing group's processes and campaigns and recommend adjustments to optimize that performance. • Analyzing which campaign addressed the needs of identified clusters or segments • the success ratios for motivating the campaigns' call to action. 119
  • 120. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Customer analytics • This includes analyzing customer demographics, behaviors and characteristics to develop models for • segmenting customers • predicting churn • making next-best-offer recommendations to help with customer retention • Social media analytics • The content that streams across social media channels provides ample opportunities for analyzing customer sentiment and identifying brand risks when negative information is promulgated about a company's products 120
  • 121. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Plant and facility management. • As more devices and machines are Internet-enabled, organizations are able to collect and analyze streaming sensor data indicating continuous measures of power usage, temperature, humidity and contaminant particles, among a myriad of potential variables. • Models can be developed for predicting equipment failures and scheduling pre-emptive maintenance to keep items in working order without interruption. 121
  • 122. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Supply chain and channel analytics • Analyzing warehouse inventory, point-of-sale transactions and shipments via a variety of channels (e.g., trucking, rail, shipping) results in predictive analytical models that can help with • pre-emptive replenishment • inventory management strategies • logistics management • route optimization • notifications when delays imperil timely deliveries 122
  • 123. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Fraud detection • An adjunct to the growing risk of identity theft is the growth of fraudulent activity and transactions • Financial institutions analyze billions of transactions to identify patterns of fraudulent behavior, and the analytical models can also trigger alerts to customers when a potential fraudulent transaction might be taking place. 123
  • 124. http://dataminingtrend.com http://facebook.com/datacube.th Business use cases • Price optimization • Retailers looking to maximize overall profitability for product sales may develop analytical models that combine a variety of data streams, including competitors' prices, sales transactions across many geographic regions (to review demand), and information on production, inventories and the supply chain (to monitor supply). • The resulting models can be used to dynamically adjust product prices up when supplies are low, demand is on the increase and competitors are unable to deliver, or down when inventory needs to be cleared as seasonal demand shifts. 124
  • 125. http://dataminingtrend.com http://facebook.com/datacube.th Outline • Introduction to Big Data • Introduction to Internet of Things (IoT) • Introduction to Data Mining • Big Data & Analytics applications • CRISP-DM Process 125
  • 126. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM • CRoss-Industry Standard Process for Data Mining (CRISP-DM) • พัฒนาขึ้นโดย 3 บริษัท • บริษัท SPSS • บริษัท DaimlerChrysler • บริษัท NCR • เป็น Workflow มาตรฐานสำหรับการทำ data mining • ประกอบด้วย 6 ขั้นตอน 126
  • 127. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM 127 3 ขั้นตอนแรกจะใช้เวลา 80% ของทั้งหมด 1 2 3 4 5 6 image source: Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013
  • 128. http://dataminingtrend.com http://facebook.com/datacube.th 1. Business Understanding • ขั้นตอนแรกของ CRISP-DM • ทำความเข้าใจกับปัญหา หรือ โอกาสเชิงธุรกิจ • ระบุ output หรือเป้าหมายที่ต้องการได้จากการวิเคราะห์ข้อมูลด้วย data mining • ตัวอย่างเช่น • ทำอย่างไรถึงเพิ่มยอดขายให้กับสินค้าชนิดต่างๆ ได้ • ต้องการแบ่งกลุ่มนักศึกษาออกตามความสนใจ • ทำอย่างไรให้ลูกค้ากลับมาซื้อสินค้าได้อีก • อยากทำนายปริมาณน้ำฝนที่ตกใน 2 วันถัดไป • อยากรู้ว่าลูกค้าคนใดบ้างมีโอกาสป่วยเป็นโรคมะเร็ง 128 Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment
  • 129. http://dataminingtrend.com http://facebook.com/datacube.th • ในขั้นตอนนี้เป็นการ • รวบรวมข้อมูลที่เกี่ยวข้อง • ข้อมูลถูกต้องน่าเชื่อถือ • ข้อมูลที่ได้มีปริมาณมากพอหรือยัง • ข้อมูลที่ได้มีความเหมาะสม มีรายละเอียดเพียงพอต่อการนำไปใช้ในการวิเคราะห์ • ตัวอย่าง • ข้อมูลการซื้อสินค้าคนแต่ละบุคคล • ข้อมูลการลงทะเบียนและผลการศึกษาของนักศึกษา Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 2. Data Understanding 129
  • 130. http://dataminingtrend.com http://facebook.com/datacube.th • ขั้นตอนการเตรียมข้อมูลเป็นขั้นตอนที่ใช้เวลานานที่สุด • เนื่องจากโมเดลที่ได้จากการทำดาต้าไมน์นิ่งจะให้ผลลัพทธ์ที่ถูกต้อง หรือไม่นั้น ขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ แบ่งออกได้เป็น 3 ขั้นตอน ย่อยคือ • 3.1 ทำการคัดเลือกข้อมูล (Data Selection)  • กำหนดเป้าหมายก่อนว่าเราจะทำการวิเคราะห์อะไร • เลือกใช้เฉพาะข้อมูลที่เกี่ยวข้องกับสิ่งที่เราจะทำการวิเคราะห์ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 130
  • 131. http://dataminingtrend.com http://facebook.com/datacube.th • 3.2 ทำการกลั่นกรองข้อมูล (Data Cleaning)  • ลบข้อมูลซ้ำซ้อน • แก้ไขข้อมูลที่ผิดพลาด • ข้อมูลผิดรูปแบบ • ข้อมูลที่หายไป • ข้อมูล outlier ที่แปลกแยกจากคนอื่น Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 131 รหัส เพศ อายุ ความสูง น้ำหนัก 57001 ชาย 18 180 70 5702A ญ 80 35 57123 หญิง 19 150 2500 58002 ช 17 175 90 ข้อมูลนักศึกษาชั้นปีที่ 1 ปีการศึกษา 2557 ผิดรูปแบบ ขาดหาย outlier
  • 132. http://dataminingtrend.com http://facebook.com/datacube.th • 3.3 แปลงรูปแบบของข้อมูล (data transformation) • เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์
 ตามอัลกอริทึมของ data mining ที่เลือกใช้ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 132 ID สินค้า จำนวนที่ซื้อ 1 ปากกา 1 1 ยางลบ 1 1 คลิป 10 2 สมุด 2 2 ปากกา 2 3 สมุด 1 3 ปากกา 3 3 ยางลบ 2 ID สมุด ปากกา ยางลบ คลิป 1 - TRUE TRUE TRUE 2 TRUE TRUE - - 3 TRUE TRUE TRUE - ข้อมูลในฐานข้อมูล POS ข้อมูลสำหรับการหากฏความสัมพันธ์ (Association Rules)
  • 133. http://dataminingtrend.com http://facebook.com/datacube.th • 3.3 แปลงรูปแบบของข้อมูล (data transformation) • เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์
 ตามอัลกอริทึมของ data mining ที่เลือกใช้ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 133 เมื่อวันที่ 4 มกราคม 2557 เฟซบุ๊กเปิดตัวหน้าเพจใหม่ชื่อว่า Facebook A Look Back เมื่อผู้ใช้งาน คลิกไปยังหน้านี้ก็จะแสดงคลิปวิดีโอที่บอกเล่าเรื่องราวของผู้ใช้งานคนนั้นๆ เช่น เริ่มเล่นเฟซบุ๊กครั้ง แรกปีไหน, โพสต์แรกบนเฟซบุ๊ก, รูปภาพที่ถูกกดไลค์มากที่สุด, รูปภาพที่ถูกแชร์มากที่สุด และ 20 อันดับเรื่องราวต่าง ๆ ที่เกิดขึ้นในเฟซบุ๊กก็จะถูกแสดงและรวบรวมไว้ในคลิปวิดีโอนี้ ID เฟซบุ๊ก รูปภาพ ไลค์ แชร์ คลิปวิดีโอ 1 4 2 1 1 2 2 … เอกสารข่าว ตารางแสดงจำนวนความถี่ของแต่ละคำ
  • 134. http://dataminingtrend.com http://facebook.com/datacube.th • 3.3 แปลงรูปแบบของข้อมูล (data transformation) • เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการวิเคราะห์
 ตามอัลกอริทึมของ data mining ที่เลือกใช้ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 3. Data Preparation 134 ID สีแดง สีเขียว สีน้ำเงิน 1 93 98 167 2 … รูปภาพ จำนวน pixel สีแดง สีเขียว สีนำ้เงินที่ปรากฏในรูปภาพ image source:http://www.travelhouse.ch/reisen/thailand/phuket/jw-marriott-phuket-resort-and-spa
  • 135. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM 135 3 ขั้นตอนหลังจะใช้เวลา 20% ของทั้งหมด 1 2 3 4 5 6 image source: Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013
  • 136. http://dataminingtrend.com http://facebook.com/datacube.th • เป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคดาต้าไมน์นิ่ง • classification • สร้างโมเดลจากข้อมูลที่มีอยู่เพื่อทำนายอนาคต • เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป • clustering • แบ่งข้อมูลหลายๆ กลุ่มตามความคล้ายคลึง • เช่น แบ่งกลุ่มนักศึกษาตามคะแนนที่ได้ • association rules • หาความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน • เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 4. Modeling 136 classification clustering association rules
  • 138. http://dataminingtrend.com http://facebook.com/datacube.th Business Understanding Data Understanding Data Preparation Modeling Evaluation Deployment 6. Deployment • นำโมเดลที่ได้ หรือ ผลการวิเคราะห์ที่ได้ไปใช้งานจริง 138 ใช้จากกฏความสัมพันธ์ที่หาได้ image source: http://www.mysupermarket.co.uk/brands/tesco_discounter_brand_in_tesco.html
  • 139. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 • ตัวอย่าง CRISP-DM • อ้างอิงจากงานวิจัยเรื่อง การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการ ศึกษานิสิตคณะวิศวกรรมศาสตร์ * 1. Business Understanding • นิสิตคณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์ จะเลือกภาควิชาเมื่อในชั้นปีที่ 2 • นิสิตเลือกภาควิชาไม่ตรงกับความสามารถของตนเอง • เลือกตามเพื่อน • เลือกตามที่ผู้ปกครองแนะนำ • นิสิตบางคนได้ผลการเรียนตกต่ำและทำให้ต้องออกจากมหาวิทยาลัยกลางคัน 139 * กฤษณะ ไวยมัย , ชิดชนก ส่งศิริ และ ธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะ
 วิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
  • 140. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 2. Data Understanding • ข้อมูลนิสิตคณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์ช่วงปี พ.ศ. 2535 - 2542 • นิสิตประมาณ 10,000 คน • ข้อมูลมีจำนวน 476,085 แถว • ข้อมูลแบ่งเป็น 2 ส่วน • ข้อมูลประวัติส่วนตัวของนิสิต • เพศ, ที่อยู่, GPA ระดับมัธยมปลาย, GPA ชั้นปีที่ 1 • ข้อมูลการลงทะเบียนของนิสิต • เกรดวิชาคณิตศาสตร์, เกรดวิชาฟิสิกส์, เกรดวิชาเคมี 140
  • 141. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 3. Data Preparation • คัดเลือกวิชาที่เกี่ยวข้องกับภาควิชาต่างๆ ในคณะวิศวกรรมศาสตร์ • แปลงข้อมูลให้เหมาะสมกับการวิเคราะห์ 141 รหัสนิสิต เพศ ที่อยู่ GPA มัธยมปลาย … GPA 37058063 ชาย กรุงเทพ 2.5 … 2.3 37058167 ชาย สงขลา 3.4 … 3.3 … … … … … … ข้อมูลประวัติส่วนตัวของนิสิต รหัสนิสิต วิชา ปีการศึกษา เกรด 37058063 คอมพิวเตอร์ 2537 C+ 37058063 คณิตศาสตร์ 2537 D … … … … ข้อมูลการลงทะเบียนของนิสิต รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … GPA 37058063 ชาย LOW LOW … 2.3 37058167 ชาย HIGH HIGH … 3.3 … … … … … … ข้อมูลสำหรับการใช้วิเคราะห์
  • 142. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 4. Modeling • แบ่งข้อมูลออกเป็น 2 ส่วน คือ • 70% ของข้อมูลทั้งหมดใช้ในการสร้างโมเดล • 30% ของข้อมูลทั้งหมดใช้ในการทดสอบประสิทธิภาพของโมเดล • สร้างโมเดลด้วยเทคนิค Decision Tree ซึ่งจะได้โมเดลที่สามารถเข้าใจได้ง่าย • โมเดลแบ่งแยกตามภาควิชาต่างๆ เช่น ภาควิชาวิศวกรรมคอมพิวเตอร์ วิศกรรมไฟฟ้า • คำตอบ (class) จะแบ่งเป็น 2 ประเภท คือ • GOOD หมายถึง นิสิตเรียนในภาควิชานี้แล้วจบมาได้ GPA อยู่ในช่วง 40% แรก (top 40%) • BAD หมายถึง นิสิตเรียนในภาควิชานี้แล้วจบมาได้ GPA อยู่ในช่วง 40% จากท้าย (bottom 40%) 142
  • 143. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 4. Modeling 143 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW • IF Computer is HIGH THEN Graduate is Good • IF Computer is LOW AND
 Mathematics is HIGH THEN
 Graduate is Good • IF Computer is LOW AND
 Mathematics is LOW AND
 Physics is HIGH THEN
 Graduate is Good • IF Computer is LOW AND
 Mathematics is LOW AND
 Physics is LOW THEN
 Graduate is Bad โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ เงื่อนไขที่สร้างได้จากโมเดล
  • 144. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 144 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … ?? ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  • 145. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 145 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … ?? ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  • 146. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 146 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … ?? ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  • 147. http://dataminingtrend.com http://facebook.com/datacube.th CRISP-DM Example 1 5. Evaluation • ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ • คำนวณค่าความถูกต้อง 6. Deployment • นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลัง
 จะเลือกภาควิชา • พิจารณาจากเกรดตามโมเดล
 ที่สร้างได้ 147 Computer = HIGH = LOW Physics Good Good = LOW = HIGH Mathematics Good Bad = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … Com Eng 5700123 ชาย LOW HIGH … Good ข้อมูลของนักศึกษาปีที่ 1 ที่ต้องการได้รับคำแนะนำ
  • 148. http://dataminingtrend.com http://facebook.com/datacube.th References • Andrew Chisholm, Exploring Data with RapidMiner, November 2013 • Markus Hofmann, Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and Business Analytics Applications, October 25, 2013 • Foster Provost, Data Science for Business: What you need to know about data mining and data-analytic thinking, August 19, 2013 • Eakasit Pacharawongsakda, An Introduction to Data Mining Techniques (Thai version), 2014 148
  • 149. http://dataminingtrend.com http://facebook.com/datacube.th For more information • หสม. ดาต้า คิวบ์ (data cube) • website: http://www.dataminingtrend.com • facebook: http:facebook.com/datacube.th หรือ http://facebook.com/sit.ake • email: eakasit@datacube.asia • lineID: eakasitp 149