2. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Sales database
• ซุเปอร์มาร์เก็ตแห่งหนึ่งมีร้านอยู่หลายสาขา (Store) แต่การเก็บข้อมูลจะ
เก็บไว้ในฐานข้อมูลกลาง ซึ่งมีรายละเอียดดังในตารางด้านล่าง
• trans_id แสดงหมายเลขการซื้อสินค้า (transaction)
• store_id แสดงหมายเลขของสาขา
• customer_id แสดงหมายเลขของลูกค้า
• product_id แสดงหมายเลขของสินค้า
• product_cat แสดงประเภทของสินค้า (category)
• date แสดงวันและเวลาที่ซื้อสินค้า
• amount แสดงจำนวนสินค้าชนิดนั้นที่ซื้อ
• single_price แสดงราคาสินค้า/หน่วย
27
trans_id store_id customer_id product_id product_cat date amount single_price
1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27
2005
2.0 60.58
3 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56
2007
5.0 96.61
4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
A B C D E F G H
A
B
C
D
E
F
G
H
Note:
• ข้อมูลที่ใช้ในหนังสือเล่มนี้เป็นข้อมูลตัวอย่างที่สร้างขึ้นมาจาก RapidMiner Studio 6 ดูวิธีการสร้าง
ชุดข้อมูลตัวอย่างนี้ได้จาก Appendix A ครับ
3. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Data
• RapidMiner จะมีชื่อเรียกข้อมูลที่แสดงในรูปแบบของตาราง ดังนี้
• แถว เรียกว่า ตัวอย่าง (example)
• คอลัมน์ เรียกว่า แอตทริบิวต์ (attribute) ซึ่งมี 2 หน้าที่ที่ใช้งานบ่อย
• ไอดี (ID) เป็นแอตทริบิวต์ที่แสดงหมายเลขของข้อมูล หรือ primary key ในฐานข้อมูล
• แอตทริบิวต์ที่มีหน้าที่เป็นแอตทริบิวต์ไอดีจะแสดงด้วยสีฟ้า
• แอตทริบิวต์ทั่วไป (attribute) เป็นแอตทริบิวต์ปกติที่ใช้ในการประมวลผลหรือ
คำนวณต่างๆ
• แอตทริบิวต์ที่มีหน้าที่เป็นแอตทริบิวต์ทั่วไปจะแสดงด้วยสีเทา
• ประเภทของข้อมูลที่เก็บในแต่ละแอตทริบิวต์
• Polynominal คือ ข้อมูลประเภท category (ข้อมูลที่ไม่ใช่ตัวเลข) มีค่ามากกว่า 2 ค่า
ขึ้นไป
• Integer/Real คือ ข้อมูลประเภทตัวเลขจำนวนเต็ม หรือ จำนวนที่มีทศนิยม
• Date time คือ ข้อมูลประเภทวันที่และเวลา
28
attributeID
trans_id store_id customer_id product_id product_cat date amount single_price
1 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
2 Store 15 Customer 169 90945 Movies Tue Feb 15 10:47:27
2005
2.0 60.58
3 Store 12 Customer 124 18548 Movies Thu Sep 27 05:38:56
2007
5.0 96.61
4 Store 01 Customer 1508 53642 Toys Sun Apr 01 08:09:06
2007
3.0 90.24
polynominal data time realinteger
4. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• Repository
• เป็นที่เก็บข้อมูลและโพรเซสเพื่อใช้งานใน RapidMiner Studio 6 ทำให้ไม่ต้อง
โหลดข้อมูลจากไฟล์ใหม่ทุกครั้ง
• ส่วน Repository ประกอบด้วย 2 ส่วน คือ
• เมนูสำหรับการจัดการ Repository
• สำหรับสร้าง Repository ใหม่
• โหลดไฟล์ประเภทต่างๆ เข้าไปไว้ใน Repository
• สร้างโฟลเดอร์ใหม่
• Repository ที่มีอยู่ใน RapidMiner Studio 6
• Samples เป็นข้อมูลและโพรเซส ตัวอย่างที่ RapidMiner Studio 6 เตรียมไว้ให้
• Local Repository เป็น Repository ที่เก็บข้อมูลและโพรเซสในเครื่องคอมพิวเตอร์
ของเราเอง (local)
• Cloud Repository เป็น Repository ที่เก็บข้อมูลและโพรเซสบน Cloud
Data management
29
A
B
A
B
5. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• ในหนังสือเล่มนี้เราจะสร้าง Repository ใหม่เพื่อเก็บข้อมูลและโพรเซส
• คลิกที่ไอคอน
• เลือก New local repository
• กดปุ่ม Next
• เปลี่ยนชื่อ Alias เป็น GettingStartedWithRapidMiner
• คลิกที่ Use standard location เพื่อไม่เลือก option นี้
• คลิกที่ไอคอน เพื่อเลือก Root directory (ซึ่งเป็นโฟลเดอร์สำหรับเก็บข้อมูล)
ใหม่
Create Repository
30
2
1
3
1
2
3
4
5
6
6
4
5
6. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• สร้าง Repository ใหม่ (ต่อ)
• คลิกที่ไอคอน เพื่อสร้างโฟลเดอร์สำหรับ Repository ใหม่ ในตัวอย่างนี้เลือกที่
Desktop (แต่ท่านผู้อ่านสามารถเลือกที่ไดรฟ์ C: หรือ D: ก็ได้ครับ)
• สร้างโฟลเดอร์ชื่อ GettingStartedWithRapidMiner
• กดปุ่ม OK
• เลือกโฟลเดอร์ที่สร้างขึ้น
• กดปุ่ม Open
Create Repository
31
7
7
8
9
10
11
8 10
11
9
7. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Create Repository
• สร้าง Repository ใหม่ (ต่อ)
• กดปุ่ม Finish
• จะได้ Repository ใหม่แสดงขึ้นมา
32
12
13
12
13
ขยายส่วน Repositories ให้
เต็มหน้าจอ
8. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Import Sale data
• import ไฟล์ Excel เข้าไปไว้้ใน Repository
• ในส่วน Repositories คลิกที่ไอคอน เลือก Import Excel Sheet…
• เลือกไฟล์ sale_data.xlsx ที่สร้างขึ้น (ดูวิธีการสร้างไฟล์ประเภท Excel ได้จาก
Appendix A ครับ)
• ขั้นตอนที่ 2 ของการ Import ไฟล์ คือ การเลือก Worksheet ที่ต้องการ import
• ในไฟล์ตัวอย่างมีแค่ Worksheet เดียวจึงมีเพียงแท็บเดียวให้เลือก
33
3
4
เลือกไฟล์ sales_data.xlsx
5
เลือก Worksheet นี้
1
2
9. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Import Sale data
• import ไฟล์ Excel เข้าไปไว้้ใน Repository (ต่อ)
• ขั้นตอนที่ 3 กำหนดให้แถวแรกของไฟล์เป็นชื่อแอตทริบิวต์ และคลิก Next
• ขั้นตอนที่ 4 เปลี่ยน Date format ให้เป็นแบบ yyyy-MM-dd HH:mm:ss
• เปลี่ยนแอตทริบิวต์ transaction_id ให้มีหน้าที่ (role) เป็น ID และ product_id
ให้เป็นประเภท Polynominal
34
7
6
กำหนดให้แถวแรกเป็น
ชื่อแอตทริบิวต์
10
8
9
11
เปลี่ยนรูปแบบของวันที่
และเวลา
เปลี่ยนหน้าที่ของ
แอตทริบิวต์ให้เป็น ID
เปลี่ยนประเภทให้เป็น Polynominal แทน Integer
10. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• import ไฟล์ Excel เข้าไปไว้้ใน Repository (ต่อ)
• ขั้นตอนที่ 5 ซึ่งเป็นขั้นตอนสุดท้ายคือกำหนดว่าจะเก็บข้อมูลไว้ที่ Repository ที่
สร้างขึ้นมาใหม่ (GettingStartedWithRapidMiner) และตั้งชื่อไฟล์เป็น sales_data
• ข้อมูลที่ import เข้ามาใน RapidMiner Studio 6 จะแสดงเป็นรูปแบบ
ของตาราง แต่ก็สามารถเปลี่ยนไปดูในรูปแบบอื่นๆ ได้ เช่น กราฟ
Import Sale data
35
13
12
14
เลือกไฟล์ Repository ที่สร้างขึ้นใหม่
ตั้งชื่อข้อมูลเป็น sales_data
แสดงรายละเอียดของข้อมูล
คลิกที่ชื่อแอตทริบิวต์เพื่อ sort
11. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
• แสดงข้อมูลที่โหลดเข้ามาได้หลายรูปแบบ เช่น
• แสดงข้อมูลในรูปแบบตาราง (Data) และถูกกำหนดเป็นค่าเริ่มต้น (default)
• แสดงค่าสรุปทางสถิติ (Statistics) เช่น ค่า Min, Max, Average, Deviation
• แสดงกราฟรูปแบบต่างๆ (Charts) เช่น กราฟแท่ง กราฟวงกลม
• แสดงข้อมูลในรูปแบบตาราง
• ExampleSet แสดงจำนวนข้อมูลทั้งหมดในไฟล์
• Filter แสดงจำนวนข้อมูลจากการกรอง (filter) ทำได้ 5 แบบ
• all แสดงข้อมูลทั้งหมด (ทั้งที่มีค่าว่างและไม่ว่าง)
• no_missing_attributes แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์
• missing_attributes แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์
• no_missing_labels แสดงเฉพาะข้อมูลที่ไม่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล
• missing_labels แสดงเฉพาะข้อมูลที่มีค่าว่างในแอตทริบิวต์ประเภทลาเบล
• ตารางแสดงข้อมูลในแต่ละแอตทริิบิวต์ คลิกที่ชื่อแอตทริบิวต์เพื่อทำการเรียงลำดับ
• กดปุ่ม Ctrl ค้างไว้ และคลิกที่ชื่อแอตทริบิวต์จะเป็นการเรียงลำดับมากกว่า 1
แอตทริบิวต์ (สำหรับระบบปฏิบัติการ OS X ให้กดปุ่ม command แทน)
Data exploration
36
A
B
C
A
B
C
12. (data)3
base|warehouse|mining
Eakasit Pacharawongsakda, Ph.D. http://facebook.com/datacube.th
Introduction to Business Analytics with RapidMiner Studio 6
Data exploration
• คลิกที่เมนู Statistics จะแสดงค่าสรุปทางสถิติ มีคอลัมน์ต่างๆ ดังนี้
• Name แสดงชื่อแอตทริบิวต์
• Type แสดงประเภทของข้อมูลในแต่ละแอตทริบิวต์ เช่น Integer, Polynominal
• Miss. จำนวนข้อมูลที่มีค่าว่าง
• Statistics ค่าทางสถิติต่างๆ เช่น Min, Max, Average, Deviation, Least, Most,
Values
37
A
B
C
D
A B C D
• ข้อมูล sales_data ที่ import เข้ามาจะแสดงไว้
ใน Repository
• สัญลักษณ์ แสดงข้อมูล (data)
• ถ้าต้องการเรียกดูข้อมูลให้ double click ที่ชื่อ
ของข้อมูล
• ถ้าต้องการนำไปใช้ในโพรเซส ให้คลิกที่ชื่อ
ข้อมูลและลากไปวางไว้ใน main process
ข้อมูลที่ import เข้ามา