Introduction to Data Analytics with RapidMiner Studio 6 (ภาษาไทย)
1. Introduction to Business Analytics
with RapidMiner Studio 6
Thai version
Eakasit Pacharawongsakda, Ph.D.
Certified RapidMiner Analyst
Data Cube
http://www.dataminingtrend.com
http://facebook.com/datacube.th
2. Introduction to Business Analytics
with RapidMiner Studio 6
(data)3
base|warehouse|mining
http://www.dataminingtrend.com
http://facebook.com/datacube.th
Eakasit Pacharawongsakda, Ph.D.
Certified RapidMiner Analyst
3. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
2
ชื่อผู้แต่ง ดร.เอกสิทธิ์ พัชรวงศ์ศักดา
ชื่อหนังสือ Introduction to Business Analytics With RapidMiner Studio 6
จำนวนหน้า 138 หน้า
พิมพ์ครั้งที่ 1
วันเดือนปีที่พิมพ์ สิงหาคม 2558
ชื่อสำนักพิมพ์ บริษัท เอเชีย ดิจิตอลการพิมพ์ จำกัด
ถ.งามวงศ์วาน แขวงลาดยาว
เขตจตุจักร กรุงเทพฯ 10900
ออกแบบปก กมนนัทธ์ บางแวก
จัดรูปเล่ม เอกสิทธิ์ พัชรวงศ์ศักดา
ราคา 299 บาท
สงวนลิขสิทธิ์ ตาม พ.ร.บ. ลิขสิทธิ์ พ.ศ. 2537
ห้ามลอกเลียนแบบไม่ว่าส่วนหนึ่งส่วนใดของหนังสือ/เอกสารเล่มนี้
นอกจากจะได้รับอนุญาติเป็นลายลักษณ์อักษร
คําเตือน !!!
การนําไปถ่ายเอกสารอาจจะทําให้ข้อความและรูปไม่ชัดทําให้อ่านได้ยากและ
จะทําให้ผู้แต่งเสียใจเป็นอันมาก T_T
4. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
“แด่คุณพ่อผู้เป็นฮีโร่เสมอมา คุณแม่ผู้คอยเฝ้าดูจากบนฝากฟ้า
และภรรยาที่คอยอยู่เคียงข้างกันตลอดเวลา”
3
11. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• วิทยากรรับเชิญอบรมทางด้าน Data Mining ให้กับหน่วยงานต่างๆ
• มหาวิทยาลัยต่างๆ
• หน่วยงานและบริษัทชั้นนำต่างๆ
About me (ต่อ)
10
14. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• download ได้จาก http://rapidminer.com
• กรอกข้อมูลเพื่อสร้าง Account สำหรับดาวน์โหลดซอฟต์แวร์
13
1
คลิกเมนูดาวน์โหลด
2
3
4
5
email ที่ใช้สมัคร
password ที่ใช้
ใส่ password ที่
กรอกไว้อีกครั้ง
กดปุ่มเพื่อสมัคร
15. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• หลังจากยืนยันการลงทะเบียนทาง email แล้ว ให้คลิกที่เมนู login
เพื่อดาวน์โหลดซอฟต์แวร์
• กรอก username และ password ที่ได้สมัครไว้ในตอนแรก
14
6
7
8
9
คลิกเมนู Login
email ที่ใช้สมัคร
password ที่กรอก
ไว้ตอนสมัคร
กดปุ่ม Login
16. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• หลังจาก login แล้วจะพบเมนูต่างๆ คลิกที่เมนู Downloads
• เลือกดาวน์โหลด version ที่เหมาะสมกับระบบปฏิบัติการของเรา
15
10 เลือกเมนู ดาวน์โหลด
เลือกระบบปฏิบัติการ
(OS) ที่ติดตั้งในเครื่อง
17. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• การติดตั้งซอฟต์แวร์ RapidMiner Studio 6 สำหรับระบบปฏิบัติการต่างๆ
สามารถดูขั้นตอนอย่างละเอียดได้จาก http://docs.rapidminer.com/studio/
installation/
• double click ที่ icon เพื่อเริ่มใช้งานซอฟต์แวร์
• หลังจากติดตั้งซอฟต์แวร์เรียบร้อยแล้ว ขั้นตอนถัดมาจะต้อง login
โดยใช้ email และ password ที่ได้ทำการสมัครไว้ครับ
16
1
2
3
email ที่ใช้สมัคร
password ที่กรอก
ไว้ตอนสมัคร
กดปุ่มเพื่อ login
18. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• หลังจากตรวจสอบกับ Server ถ้าสำเร็จจะแสดงดังในรูป
• กดปุ่ม Restart เพื่อเริ่มการทำงานใหม่อีกครั้ง
17
แสดงชื่อเจ้าของ
license แสดงวันหมดอายุ
การใช้งาน
4
Note:
RapidMiner Studio 6 มีหลาย
license ครับ ในการติดตั้งครั้งแรก
จะให้ใช้ Professional License
เป็นเวลา 14 วัน หลังจากนั้นจึง
กลายเป็น Starter License ที่ใช้ได้
ตลอดไปครับ
กดปุ่มเพื่อเริ่มใช้งาน
5กดปุ่มเพื่อ restart
19. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• หน้าต่างเริ่มใช้งานจะแสดงขึ้นมา ซึ่งจะแสดง 4 เมนู คือ
• Tutorials แสดงวิธีการใช้งาน
• Documentation Site เพื่อ link ไปยังหน้าเว็บไซต์ที่แสดง document การใช้งาน
• Accelerator แสดงโพรเซส (process) ตัวอย่างที่เตรียมไว้ให้
• New Process สร้างโพรเซสใหม่เพื่อเริ่มการใช้งาน RapidMiner
• ในการใช้งาน RapidMiner Studio 6 จะเป็นการสร้างโพรเซส ขึ้นมาเพื่อทำงาน
ต่างๆ โดยโพรเซสจะประกอบด้วย โอเปอเรเตอร์ (operator) ต่างๆ
• โพรเซสที่สร้างขึ้นสามารถนำกลับมาใช้งานใหม่ได้ หรือ ส่งไปให้คนอื่นได้
18
6
เลือกเมนู ‘New Process’
เพื่อเริ่มใช้งาน
A
B
C
D
A
B
C
D
20. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• องค์ประกอบของหน้าต่าง Design ใน RapidMiner Studio 6
• Operators
• ส่วนนี้จะเก็บโอเปอเรตอร์ในการใช้งานต่างๆ ไว้เป็นกลุ่มตามหน้าที่ที่คล้ายคลึงกัน
และในส่วนของโอเปอเรเตอร์นี้ยังมีที่สำหรับการค้นหาโอเปอเรเตอร์อีกด้วย
• โอเปอเรเตอร์แต่ละตัวจะประกอบด้วย
• ชื่อของโอเปอเรเตอร์
• อินพุต พอร์ต (Input port) เป็นส่วนรับข้อมูลเข้ามา
ประมวลผล
• เอาท์พุต พอร์ต (Output port) เป็นส่วนส่งผลลัพธ์ที่
ประมวลได้
• ชื่ออินพุต พอร์ตและเอาท์พุต พอร์ตแสดงด้วยตัวอักษร 3 ตัวแรก
ของชื่อพอร์ต เช่น exa ย่อมาจาก example set
• สัญลักษณ์วงกลมแสดงสถานะการทำงานของโอเปอเรเตอร์
RapidMiner Studio 6
19
Operators
Repositories
Process
Parameter
help
A
B
C
D
E
a
b
c
d
A
a
b
c
d
21. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• Repositories
• ส่วนนี้จะใช้ในการจัดการไฟล์ต่างๆ หลักการของ RapidMiner Studio 6 จะเก็บ
ไฟล์ข้อมูลหรือโพรเซสต่างๆ ไว้ใน โฟลเดอร์เพื่อความสะดวกในการเรียกใช้งาน
ครั้งถัดไป
• Process
• ส่วนนี้เป็นอีกส่วนที่สำคัญของ RapidMiner Studio เพราะหลักการทำงานของ
ซอฟต์แวร์นี้คือการนำโอเปอเรเตอร์ต่างๆ มา ประกอบกันให้เป็นโพรเซสขึ้นมา
• Parameters
• ส่วนนี้จะเป็นส่วนที่แสดงพารามิเตอร์ (parameter) ที่ เกี่ยวข้องกับแต่ละ
โอเปอเรเตอร์ เช่น โอเปอเรเตอร์ Read CSV สำหรับอ่านไฟล์ CSV จะมี
พารามิเตอร์ที่เกี่ยวข้อง เช่น ชื่อและที่อยู่ของไฟล์ CSV เป็นต้น
• Help
• ส่วนนี้จะเป็นส่วนที่แสดงข้อความช่วยเหลือหรือรายละเอียดของโอเปอเรเตอร์ที่
เลือกใช้งานอยู่ ซึ่งประกอบด้วยรายละเอียดเบื้องต้น ความหมายของแต่ละ
พารามิเตอร์ และตัวอย่างการใช้งานในส่วนท้ายสุด
20
B
C
แสดงโพรเซสที่กำลังทำงาน
เพิ่ม Note ในโพรเซส
เชื่อมโอเปอเรเตอร์ต่างๆใน
โพรเซสแบบอัตโนมัติ
D
E
22. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
RapidMiner Studio 6
• เมนูด้านบนในหน้าต่าง Design มีดังนี้
• เมนูทางด้านขวาบนของหน้าต่าง Design จะใช้สำหรับสลับหน้าจอ
การทำงานไปยังหน้าต่างๆ ดังนี้
• หน้า Home แสดงหน้าเริ่มต้นของ RapidMiner Studio 6
• หน้า Design แสดงหน้าสำหรับการสร้างโพรเซส
• หน้า Results แสดงหน้าผลลัพธ์การทำงาน
• หน้า Accelerator แสดงหน้าตัวอย่างระบบที่เตรียมไว้ให้
21
เมนูสำหรับการสร้างโพรเซสใหม่
เมนูสำหรับการโหลดไฟล์ต่างๆ จาก repository
เมนูสำหรับการบันทึกโพรเซส
เมนูสำหรับบันทึกโพรเซสเป็นชื่อใหม่
เมนูสำหรับพิมพ์โพรเซสออกทางเครื่องพิมพ์
หรือบันทึกเป็นไฟล์ PDF หรือรูปภาพ
เมนูสำหรับการทำ undo หรือ redo
เมนูสำหรับสั่งให้โพรเซสทำงาน (run)
เมนูสำหรับสั่งให้โพรเซสหยุดทำงานชั่วคราว (pause)
เมนูสำหรับสั่งให้โพรเซสยกเลิกทำงานชั่วคราว (stop)
เมนูสำหรับเรียกดู tutorial
Note:
• เมนูที่เหลืออีก 2 เมนูเป็นการสั่งให้โพรเซสทำงานบนคลาวด์ (cloud) ซึ่งมีค่าใช้จ่ายรายเดือน
เดือนละ 39$ และการทำงานจะคิดเป็นเครดิตโดยต้องซื้อครั้งละ 100 เครดิตเป็นจำนวนเงิน 39$ ครับ
A B C D
A
B
C
D
23. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• หน้าต่าง Home
• รายละเอียดของเมนูต่างๆ ในหน้า Home มีดังนี้
• Tutorials แสดงวิธีการใช้งานเบื้องต้น
• Accelerators แสดง process ตัวอย่างที่เตรียมไว้
• New Process สำหรับสร้าง process ใหม่ขึ้นมา เพื่อทำงาน
• Open สำหรับเปิด process เดิมที่บันทึกไว้เพื่อมาทำงาน
RapidMiner Studio 6
22
A
B
C
D
A
B
C
D
24. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• หน้าต่าง Results
• หน้าต่าง Accelerator
RapidMiner Studio 6
23
ส่วนของการแสดงผลลัพธ์ Repositories
A B
25. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Business Analytics Example
• ในหนังสือเล่มนี้จะแสดงวิธีการใช้งาน RapidMiner Studio 6 เพื่อ
ช่วยในการวิเคราะห์ข้อมูลของซุเปอร์มาร์เก็ต (supermarket)
แห่งหนึ่งซึ่งได้ทำการเก็บข้อมูลสมาชิก (ลูกค้า) และการซื้อสินค้าต่างๆ ไว้
• วัตถุประสงค์เพื่อค้นหาว่าลูกค้ากลุ่มใดที่น่าสนใจและสินค้าที่ลูกค้ามักจะมาซื้อ
ร่วมกันบ่อยๆ เพื่อจะได้นำเสนอโปรโมชันได้อย่างเหมาะสม
• โพรเซสทั้งหมดแสดงดังในรูปด้านล่าง
24
Recency (R)
Frequency (F)
Monetary (M)
ลำดับ ความสัมพันธ์ในการซื้อ
สินค้า
ความถี่ (%)
1 Sports, Health 36
2 Toys, Clothing 33
3 Toys, Electronics 30
4 Books, Movies 24sales data
segmentation
product association
26. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Business Analytics Example
• ขั้นตอนการทำงานในบทต่อๆ ไปมีดังนี้
• บทที่ 2 แนะนำการนำข้อมูลเข้ามาใช้งานและการเตรียมข้อมูลต่างๆ
• บทที่ 3 แนะนำการแบ่งกลุ่มลูกค้า (segmentation) ออกตามพฤติกรรมการซื้อ
สินค้า
• บทที่ 4 แนะนำการหาความสัมพันธ์ของการซื้อสินค้าต่างๆ (product
association)
25
28. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Sales database
• ซุเปอร์มาร์เก็ตแห่งหนึ่งมีร้านอยู่หลายสาขา (Store) แต่การเก็บข้อมูลจะ
เก็บไว้ในฐานข้อมูลกลาง ซึ่งมีรายละเอียดดังในตารางด้านล่าง
• trans_id แสดงหมายเลขการซื้อสินค้า (transaction)
• store_id แสดงหมายเลขของสาขา
• customer_id แสดงหมายเลขของลูกค้า
• product_id แสดงหมายเลขของสินค้า
• product_cat แสดงประเภทของสินค้า (category)
• date แสดงวันและเวลาที่ซื้อสินค้า
• amount แสดงจำนวนสินค้าชนิดนั้นที่ซื้อ
• single_price แสดงราคาสินค้า/หน่วย
27
trans_id store_id customer_id product_id product_cat date amount single_price
1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27
2005
2.0 60.58
3 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56
2007
5.0 96.61
4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
A B C D E F G H
A
B
C
D
E
F
G
H
Note:
• ข้อมูลที่ใช้ในหนังสือเล่มนี้เป็นข้อมูลตัวอย่างที่สร้างขึ้นมาจาก RapidMiner Studio 6 ดูวิธีการสร้าง
ชุดข้อมูลตัวอย่างนี้ได้จาก Appendix A ครับ
29. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Data
• RapidMiner จะมีชื่อเรียกข้อมูลที่แสดงในรูปแบบของตาราง ดังนี้
• แถว เรียกว่า ตัวอย่าง (example)
• คอลัมน์ เรียกว่า แอตทริบิวต์ (attribute) ซึ่งมี 2 หน้าที่ที่ใช้งานบ่อย
• ไอดี (ID) เป็นแอตทริบิวต์ที่แสดงหมายเลขของข้อมูล หรือ primary key ในฐานข้อมูล
• แอตทริบิวต์ที่มีหน้าที่เป็นแอตทริบิวต์ไอดีจะแสดงด้วยสีฟ้า
• แอตทริบิวต์ทั่วไป (attribute) เป็นแอตทริบิวต์ปกติที่ใช้ในการประมวลผลหรือ
คำนวณต่างๆ
• แอตทริบิวต์ที่มีหน้าที่เป็นแอตทริบิวต์ทั่วไปจะแสดงด้วยสีเทา
• ประเภทของข้อมูลที่เก็บในแต่ละแอตทริบิวต์
• Polynominal คือ ข้อมูลประเภท category (ข้อมูลที่ไม่ใช่ตัวเลข) มีค่ามากกว่า 2 ค่า
ขึ้นไป
• Integer/Real คือ ข้อมูลประเภทตัวเลขจำนวนเต็ม หรือ จำนวนที่มีทศนิยม
• Date time คือ ข้อมูลประเภทวันที่และเวลา
28
attributeID
trans_id store_id customer_id product_id product_cat date amount single_price
1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27
2005
2.0 60.58
3 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56
2007
5.0 96.61
4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
polynominal data time realinteger
30. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• Repository
• เป็นที่เก็บข้อมูลและโพรเซสเพื่อใช้งานใน RapidMiner Studio 6 ทำให้ไม่ต้อง
โหลดข้อมูลจากไฟล์ใหม่ทุกครั้ง
• ส่วน Repository ประกอบด้วย 2 ส่วน คือ
• เมนูสำหรับการจัดการ Repository
• สำหรับสร้าง Repository ใหม่
• โหลดไฟล์ประเภทต่างๆ เข้าไปไว้ใน Repository
• สร้างโฟลเดอร์ใหม่
• Repository ที่มีอยู่ใน RapidMiner Studio 6
• Samples เป็นข้อมูลและโพรเซส ตัวอย่างที่ RapidMiner Studio 6 เตรียมไว้ให้
• Local Repository เป็น Repository ที่เก็บข้อมูลและโพรเซสในเครื่องคอมพิวเตอร์
ของเราเอง (local)
• Cloud Repository เป็น Repository ที่เก็บข้อมูลและโพรเซสบน Cloud
Data management
29
A
B
A
B
31. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• ในหนังสือเล่มนี้เราจะสร้าง Repository ใหม่เพื่อเก็บข้อมูลและโพรเซส
• คลิกที่ไอคอน
• เลือก New local repository
• กดปุ่ม Next
• เปลี่ยนชื่อ Alias เป็น GettingStartedWithRapidMiner
• คลิกที่ Use standard location เพื่อไม่เลือก option นี้
• คลิกที่ไอคอน เพื่อเลือก Root directory (ซึ่งเป็นโฟลเดอร์สำหรับเก็บข้อมูล)
ใหม่
Create Repository
30
2
1
3
1
2
3
4
5
6
6
4
5
32. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• สร้าง Repository ใหม่ (ต่อ)
• คลิกที่ไอคอน เพื่อสร้างโฟลเดอร์สำหรับ Repository ใหม่ ในตัวอย่างนี้เลือกที่
Desktop (แต่ท่านผู้อ่านสามารถเลือกที่ไดรฟ์ C: หรือ D: ก็ได้ครับ)
• สร้างโฟลเดอร์ชื่อ GettingStartedWithRapidMiner
• กดปุ่ม OK
• เลือกโฟลเดอร์ที่สร้างขึ้น
• กดปุ่ม Open
Create Repository
31
7
7
8
9
10
11
8 10
11
9
33. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Create Repository
• สร้าง Repository ใหม่ (ต่อ)
• กดปุ่ม Finish
• จะได้ Repository ใหม่แสดงขึ้นมา
32
12
13
12
13
ขยายส่วน Repositories ให้
เต็มหน้าจอ
34. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Import Sale data
• import ไฟล์ Excel เข้าไปไว้้ใน Repository
• ในส่วน Repositories คลิกที่ไอคอน เลือก Import Excel Sheet…
• เลือกไฟล์ sale_data.xlsx ที่สร้างขึ้น (ดูวิธีการสร้างไฟล์ประเภท Excel ได้จาก
Appendix A ครับ)
• ขั้นตอนที่ 2 ของการ Import ไฟล์ คือ การเลือก Worksheet ที่ต้องการ import
• ในไฟล์ตัวอย่างมีแค่ Worksheet เดียวจึงมีเพียงแท็บเดียวให้เลือก
33
3
4
เลือกไฟล์ sales_data.xlsx
5
เลือก Worksheet นี้
1
2
35. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Import Sale data
• import ไฟล์ Excel เข้าไปไว้้ใน Repository (ต่อ)
• ขั้นตอนที่ 3 กำหนดให้แถวแรกของไฟล์เป็นชื่อแอตทริบิวต์ และคลิก Next
• ขั้นตอนที่ 4 เปลี่ยน Date format ให้เป็นแบบ yyyy-MM-dd HH:mm:ss
• เปลี่ยนแอตทริบิวต์ transaction_id ให้มีหน้าที่ (role) เป็น ID และ product_id
ให้เป็นประเภท Polynominal
34
7
6
กำหนดให้แถวแรกเป็น
ชื่อแอตทริบิวต์
10
8
9
11
เปลี่ยนรูปแบบของวันที่
และเวลา
เปลี่ยนหน้าที่ของ
แอตทริบิวต์ให้เป็น ID
เปลี่ยนประเภทให้เป็น Polynominal แทน Integer
36. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• import ไฟล์ Excel เข้าไปไว้้ใน Repository (ต่อ)
• ขั้นตอนที่ 5 ซึ่งเป็นขั้นตอนสุดท้ายคือกำหนดว่าจะเก็บข้อมูลไว้ที่ Repository ที่
สร้างขึ้นมาใหม่ (GettingStartedWithRapidMiner) และตั้งชื่อไฟล์เป็น sales_data
• ข้อมูลที่ import เข้ามาใน RapidMiner Studio 6 จะแสดงเป็นรูปแบบ
ของตาราง แต่ก็สามารถเปลี่ยนไปดูในรูปแบบอื่นๆ ได้ เช่น กราฟ
Import Sale data
35
13
12
14
เลือกไฟล์ Repository ที่สร้างขึ้นใหม่
ตั้งชื่อข้อมูลเป็น sales_data
แสดงรายละเอียดของข้อมูล
คลิกที่ชื่อแอตทริบิวต์เพื่อ sort
37. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• แสดงข้อมูลที่โหลดเข้ามาได้หลายรูปแบบ เช่น
• แสดงข้อมูลในรูปแบบตาราง (Data) และถูกกำหนดเป็นค่าเริ่มต้น (default)
• แสดงค่าสรุปทางสถิติ (Statistics) เช่น ค่า Min, Max, Average, Deviation
• แสดงกราฟรูปแบบต่างๆ (Charts) เช่น กราฟแท่ง กราฟวงกลม
• แสดงข้อมูลในรูปแบบตาราง
• ExampleSet แสดงจำนวนข้อมูลทั้งหมดในไฟล์
• Filter แสดงจำนวนข้อมูลจากการกรอง (filter) ทำได้ 5 แบบ
• all แสดงข้อมูลทั้งหมด (ทั้งที่มีค่าว่างและไม่ว่าง)
• no_missing_attributes แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์
• missing_attributes แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์
• no_missing_labels แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล
• missing_labels แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล
• ตารางแสดงข้อมูลในแต่ละแอตทริิบิวต์ คลิกที่ชื่อแอตทริบิวต์เพื่อทำการเรียงลำดับ
• กดปุ่ม Ctrl ค้างไว้ และคลิกที่ชื่อแอตทริบิวต์จะเป็นการเรียงลำดับมากกว่า 1
แอตทริบิวต์ (สำหรับระบบปฏิบัติการ OS X ให้กดปุ่ม command แทน)
Data exploration
36
A
B
C
A
B
C
38. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Data exploration
• คลิกที่เมนู Statistics จะแสดงค่าสรุปทางสถิติ มีคอลัมน์ต่างๆ ดังนี้
• Name แสดงชื่อแอตทริบิวต์
• Type แสดงประเภทของข้อมูลในแต่ละแอตทริบิวต์ เช่น Integer, Polynominal
• Miss. จำนวนข้อมูลที่มีค่าว่าง
• Statistics ค่าทางสถิติต่างๆ เช่น Min, Max, Average, Deviation, Least, Most,
Values
37
A
B
C
D
A B C D
• ข้อมูล sales_data ที่ import เข้ามาจะแสดงไว้
ใน Repository
• สัญลักษณ์ แสดงข้อมูล (data)
• ถ้าต้องการเรียกดูข้อมูลให้ double click ที่ชื่อ
ของข้อมูล
• ถ้าต้องการนำไปใช้ในโพรเซส ให้คลิกที่ชื่อ
ข้อมูลและลากไปวางไว้ใน main process
ข้อมูลที่ import เข้ามา