SlideShare une entreprise Scribd logo
1  sur  16
資料倉儲、資料探勘與巨
量資料分析系統
資料倉儲、資料探勘與巨量資料分析系統
Big Data
Analytic
資料市集 DATA MART
資料倉儲 Data Warehouse, DW
• 定義:藉由建立一個集中的資訊倉庫,並配合有效的資料分析工具
與快速的決策支援軟體之開發,使得這些資料可以被該企業的決策
者適時適量存取和使用,以支援其決策的制定。
• 目的:改善傳統資料庫缺點
即時支援使用者的企業管理決策
• 主要架構:多維度的資料結構
提供多角度資訊,快速分析資料,供決策使用
資料倉儲 DW - 主題導向的資料組織
資料倉儲 DW – 資料的整合性
• 結合了整個企業內外的資料來源
包括:
• 不同資料庫
• 各種應用程式
• 不同時間的資料
資料倉儲 DW – 資料的時間差異性
• DW 通常存放
5 – 10 年不同時期的資
料
作為趨勢分析、預測
、
比較之用。
資料倉儲 DW – 資料的不變動性
• 為了做趨勢分析
資料一旦存入資料倉儲中,即被保存不再更動。
資料分析 - 線上即時資料分析 OLAP
• 採用多維度之資料結構 (Cube) 將資料載入,以進行多
項不同維度整合的分析,快速得到報表。
資料分析 – 資料探勘 Data Mining, DM
• 定義:
利用統計、人工智慧 (AI)
或其他的分析技術,在企業
之大型資料庫內尋找與發掘
事前未知、有效且可付諸行
動的資料彼此之間所隱藏的
關係與規則。
• 主要分析類型:如右圖。
資料探勘 DM - 主要分析類型
鏈結分析
Association Rule
Analysis
指出變數與變數之間的連結關係。
例:顧客會一起買那些商品 ? 據某特性的顧客會買怎樣的產品 ?
分類分析
Classification
藉由學習過去已知的分類,推論出一套最有效的分類規則來識別未來
新輸入群體的類型。
例:輸入過去 10000 個忠誠度高與忠誠度低的客戶樣本,找出特別屬
性來預測未來顧客的忠誠度。
群集分析
Clustering Analysis
對樣本的分類特性不清楚時,為了要了解有那些不同特性的消費族群
,而利用一些不同的特性來對樣本作群體分類。
例:網路使用者族群區隔分析。 ( 課本 P.211)
次序相關分析
Sequential Pattern
Analysis
由一群有次去的交易中,找出經常次序出現的交易項目組合,進而了
解顧客的長期購買行為。
預測分析
Forecasting Analysis
以歷史資料來預測未來走向
巨量資料 Big Data – 基本定義
• 巨量資料:
由各種量大、流動快地異質資料來源所匯集而來,數量極為巨
大,目前的資料處理技術所無法蒐集、紀錄、儲存、分析的大
量資料謂之。
• 例子:
•全球 10 億上網人口的網路搜尋紀錄。
•2013 年 facebook 上的 400 億張照片分享紀錄。
•信用卡防盜偵測系統:處理 21 億的客戶帳號。
巨量資料 Big Data – 產生背景
具量資料產生的三大動能
資料量 Volume
資料流動速度 Velocity
資料的不同來源 Varirty
巨量資料分析 Big Data Analysis
• 利用強大新型的資訊科技
有效的蒐集、傳送、儲存
、處理、分析判讀巨量資
料所呈現的各種訊息,包
括資料間的關聯性、因果
關係、類型辨識、趨勢觀
測等。
巨量資料分析 – 科技技術
巨量資料分析 – 困難與問題

Contenu connexe

Tendances

Google BigQuery クエリの処理の流れ - #bq_sushi
Google BigQuery クエリの処理の流れ - #bq_sushi Google BigQuery クエリの処理の流れ - #bq_sushi
Google BigQuery クエリの処理の流れ - #bq_sushi Google Cloud Platform - Japan
 
社群經營與行銷:打造網路品牌價值
社群經營與行銷:打造網路品牌價值社群經營與行銷:打造網路品牌價值
社群經營與行銷:打造網路品牌價值Norika
 
概念化與操作化
概念化與操作化概念化與操作化
概念化與操作化clinic
 
SQL Server のインデックス設計
SQL Server のインデックス設計SQL Server のインデックス設計
SQL Server のインデックス設計Koji Yamada
 
Time series Analytics - a deep dive into ADX Azure Data Explorer @Data Saturd...
Time series Analytics - a deep dive into ADX Azure Data Explorer @Data Saturd...Time series Analytics - a deep dive into ADX Azure Data Explorer @Data Saturd...
Time series Analytics - a deep dive into ADX Azure Data Explorer @Data Saturd...Riccardo Zamana
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門Satoru Ishikawa
 
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことCookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことMinero Aoki
 
La motivazione nelle metodologie agili
La motivazione nelle metodologie agiliLa motivazione nelle metodologie agili
La motivazione nelle metodologie agiliStefano Muro
 
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRecruit Technologies
 
Googleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOpsGoogleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOpsEtsuji Nakai
 
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメントDMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメントKent Ishizawa
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...Google Cloud Platform - Japan
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームInsight Technology, Inc.
 
商業模式九宮格個案分析:中華電信、LINE前後台差異
商業模式九宮格個案分析:中華電信、LINE前後台差異商業模式九宮格個案分析:中華電信、LINE前後台差異
商業模式九宮格個案分析:中華電信、LINE前後台差異HSIN I CHEN
 
BigQuery Query Optimization クエリ高速化編
BigQuery Query Optimization クエリ高速化編BigQuery Query Optimization クエリ高速化編
BigQuery Query Optimization クエリ高速化編sutepoi
 
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう  2019年10月31日 放送[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう  2019年10月31日 放送
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送Google Cloud Platform - Japan
 

Tendances (20)

Google BigQuery クエリの処理の流れ - #bq_sushi
Google BigQuery クエリの処理の流れ - #bq_sushi Google BigQuery クエリの処理の流れ - #bq_sushi
Google BigQuery クエリの処理の流れ - #bq_sushi
 
社群經營與行銷:打造網路品牌價值
社群經營與行銷:打造網路品牌價值社群經營與行銷:打造網路品牌價值
社群經營與行銷:打造網路品牌價值
 
概念化與操作化
概念化與操作化概念化與操作化
概念化與操作化
 
SQL Server のインデックス設計
SQL Server のインデックス設計SQL Server のインデックス設計
SQL Server のインデックス設計
 
Time series Analytics - a deep dive into ADX Azure Data Explorer @Data Saturd...
Time series Analytics - a deep dive into ADX Azure Data Explorer @Data Saturd...Time series Analytics - a deep dive into ADX Azure Data Explorer @Data Saturd...
Time series Analytics - a deep dive into ADX Azure Data Explorer @Data Saturd...
 
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
 
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なことCookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
 
La motivazione nelle metodologie agili
La motivazione nelle metodologie agiliLa motivazione nelle metodologie agili
La motivazione nelle metodologie agili
 
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
 
Googleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOpsGoogleのインフラ技術から考える理想のDevOps
Googleのインフラ技術から考える理想のDevOps
 
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメントDMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
 
Hadoop 1 vs hadoop2
Hadoop 1 vs hadoop2Hadoop 1 vs hadoop2
Hadoop 1 vs hadoop2
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
 
從大數據走向人工智慧
從大數據走向人工智慧從大數據走向人工智慧
從大數據走向人工智慧
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォーム
 
商業模式九宮格個案分析:中華電信、LINE前後台差異
商業模式九宮格個案分析:中華電信、LINE前後台差異商業模式九宮格個案分析:中華電信、LINE前後台差異
商業模式九宮格個案分析:中華電信、LINE前後台差異
 
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
 
大數據的基本概念(上)
大數據的基本概念(上)大數據的基本概念(上)
大數據的基本概念(上)
 
BigQuery Query Optimization クエリ高速化編
BigQuery Query Optimization クエリ高速化編BigQuery Query Optimization クエリ高速化編
BigQuery Query Optimization クエリ高速化編
 
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう  2019年10月31日 放送[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう  2019年10月31日 放送
[Cloud OnAir] Cloud Data Fusion で GCP にデータを集約して素早く分析を開始しよう 2019年10月31日 放送
 

En vedette

終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現Etu Solution
 
MLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series TalkMLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series TalkJerry Wu
 
活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦Etu Solution
 
20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師
20150117 輕鬆研究的秘密時下最夯Big Data / 李永山 老師20150117 輕鬆研究的秘密時下最夯Big Data / 李永山 老師
20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師Iim Mcu
 
淺談大數據概念與應用
淺談大數據概念與應用淺談大數據概念與應用
淺談大數據概念與應用Jerry Tseng
 
Big data應用人力資源
Big data應用人力資源Big data應用人力資源
Big data應用人力資源brian401777
 
投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰Etu Solution
 
Java SE 7 技術手冊投影片第 12 章 - 通用API
Java SE 7 技術手冊投影片第 12 章  - 通用APIJava SE 7 技術手冊投影片第 12 章  - 通用API
Java SE 7 技術手冊投影片第 12 章 - 通用APIJustin Lin
 
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會張大明 Ta-Ming Chang
 
連淡水阿嬤都聽得懂的 機器學習入門 scikit-learn
連淡水阿嬤都聽得懂的機器學習入門 scikit-learn 連淡水阿嬤都聽得懂的機器學習入門 scikit-learn
連淡水阿嬤都聽得懂的 機器學習入門 scikit-learn Cicilia Lee
 
機器學習簡報 / 机器学习简报 Machine Learning
機器學習簡報 / 机器学习简报 Machine Learning 機器學習簡報 / 机器学习简报 Machine Learning
機器學習簡報 / 机器学习简报 Machine Learning Will Kuan 官大鈞
 

En vedette (17)

終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現終歸:分群消費者x多元商機的實現
終歸:分群消費者x多元商機的實現
 
資料倉儲
資料倉儲資料倉儲
資料倉儲
 
MLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series TalkMLDM Monday -- Optimization Series Talk
MLDM Monday -- Optimization Series Talk
 
1030502
10305021030502
1030502
 
活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦活用您的 Big Data,實現線上服務行銷的精準推薦
活用您的 Big Data,實現線上服務行銷的精準推薦
 
20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師
20150117 輕鬆研究的秘密時下最夯Big Data / 李永山 老師20150117 輕鬆研究的秘密時下最夯Big Data / 李永山 老師
20150117 輕鬆研究的秘密 時下最夯Big Data / 李永山 老師
 
淺談大數據概念與應用
淺談大數據概念與應用淺談大數據概念與應用
淺談大數據概念與應用
 
Big data應用人力資源
Big data應用人力資源Big data應用人力資源
Big data應用人力資源
 
投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰投客所好:互聯內外,啟動投信藍海數據戰
投客所好:互聯內外,啟動投信藍海數據戰
 
i 聯網系列之5:大數據
i 聯網系列之5:大數據i 聯網系列之5:大數據
i 聯網系列之5:大數據
 
Jerry直播筆記20170111
Jerry直播筆記20170111Jerry直播筆記20170111
Jerry直播筆記20170111
 
Java SE 7 技術手冊投影片第 12 章 - 通用API
Java SE 7 技術手冊投影片第 12 章  - 通用APIJava SE 7 技術手冊投影片第 12 章  - 通用API
Java SE 7 技術手冊投影片第 12 章 - 通用API
 
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會
從專家到專家講師─財團法人中小企業聯輔中心財務管理顧問師北區聯誼會
 
連淡水阿嬤都聽得懂的 機器學習入門 scikit-learn
連淡水阿嬤都聽得懂的機器學習入門 scikit-learn 連淡水阿嬤都聽得懂的機器學習入門 scikit-learn
連淡水阿嬤都聽得懂的 機器學習入門 scikit-learn
 
機器學習簡報 / 机器学习简报 Machine Learning
機器學習簡報 / 机器学习简报 Machine Learning 機器學習簡報 / 机器学习简报 Machine Learning
機器學習簡報 / 机器学习简报 Machine Learning
 
直播筆記20170104
直播筆記20170104直播筆記20170104
直播筆記20170104
 
i 聯網系列之6:從中國角度看互聯網金融fintech簡報
i 聯網系列之6:從中國角度看互聯網金融fintech簡報i 聯網系列之6:從中國角度看互聯網金融fintech簡報
i 聯網系列之6:從中國角度看互聯網金融fintech簡報
 

Similaire à 資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic system)

IT445_Week_11.pdf
IT445_Week_11.pdfIT445_Week_11.pdf
IT445_Week_11.pdfAiondBdkpt
 
Business intelligent 概論 棅易
Business intelligent 概論 棅易Business intelligent 概論 棅易
Business intelligent 概論 棅易Lawrence Huang
 
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享Liang-Chuan Huang
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Denodo
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)Yu Zhang
 
決策支援系統及商業智慧
決策支援系統及商業智慧決策支援系統及商業智慧
決策支援系統及商業智慧耀昇 詹
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构Denodo
 
Realtime analytics with Flink and Druid
Realtime analytics with Flink and DruidRealtime analytics with Flink and Druid
Realtime analytics with Flink and DruidErhwen Kuo
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehousejasonfuoo
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计PMCamp
 
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Ching-Lin Tao
 
database
databasedatabase
databases06283
 
管理資訊系統
管理資訊系統管理資訊系統
管理資訊系統brian401777
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
Introduction of libraries' big data in China
Introduction of libraries' big data in ChinaIntroduction of libraries' big data in China
Introduction of libraries' big data in Chinayuanxinz
 
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)ActWeis Technology Inc.
 

Similaire à 資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic system) (20)

IT445_Week_11.pdf
IT445_Week_11.pdfIT445_Week_11.pdf
IT445_Week_11.pdf
 
Business intelligent 概論 棅易
Business intelligent 概論 棅易Business intelligent 概論 棅易
Business intelligent 概論 棅易
 
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
當資料科學家不須花大量時間蒐集/清洗數據-2015 R Taiwan研討會分享
 
Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)Can data virtualization uphold performance with complex queries? (Chinese)
Can data virtualization uphold performance with complex queries? (Chinese)
 
博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)博晓通企业介绍和典型客户201504 (完整版)
博晓通企业介绍和典型客户201504 (完整版)
 
決策支援系統及商業智慧
決策支援系統及商業智慧決策支援系統及商業智慧
決策支援系統及商業智慧
 
如何快速实现数据编织架构
如何快速实现数据编织架构如何快速实现数据编织架构
如何快速实现数据编织架构
 
Realtime analytics with Flink and Druid
Realtime analytics with Flink and DruidRealtime analytics with Flink and Druid
Realtime analytics with Flink and Druid
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
How to build data warehouse
How to build data warehouseHow to build data warehouse
How to build data warehouse
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
 
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
Big data, big challenge- splunk 幫你解決 big data 議題帶來的挑戰
 
database
databasedatabase
database
 
商業智慧
商業智慧商業智慧
商業智慧
 
管理資訊系統
管理資訊系統管理資訊系統
管理資訊系統
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
Introduction of libraries' big data in China
Introduction of libraries' big data in ChinaIntroduction of libraries' big data in China
Introduction of libraries' big data in China
 
数据仓库
数据仓库数据仓库
数据仓库
 
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
ActWeis Technology Inc. 艾格亞士科技 簡介產品及服務 (20121026)
 
传媒梦工场分享
传媒梦工场分享传媒梦工场分享
传媒梦工场分享
 

資訊管理 CH6 資料倉儲、資料探勘與巨量資料分析系統 (Data Warehouse、Data Mining、Big Data Analytic system)

  • 4. 資料倉儲 Data Warehouse, DW • 定義:藉由建立一個集中的資訊倉庫,並配合有效的資料分析工具 與快速的決策支援軟體之開發,使得這些資料可以被該企業的決策 者適時適量存取和使用,以支援其決策的制定。 • 目的:改善傳統資料庫缺點 即時支援使用者的企業管理決策 • 主要架構:多維度的資料結構 提供多角度資訊,快速分析資料,供決策使用
  • 5. 資料倉儲 DW - 主題導向的資料組織
  • 6. 資料倉儲 DW – 資料的整合性 • 結合了整個企業內外的資料來源 包括: • 不同資料庫 • 各種應用程式 • 不同時間的資料
  • 7. 資料倉儲 DW – 資料的時間差異性 • DW 通常存放 5 – 10 年不同時期的資 料 作為趨勢分析、預測 、 比較之用。
  • 8. 資料倉儲 DW – 資料的不變動性 • 為了做趨勢分析 資料一旦存入資料倉儲中,即被保存不再更動。
  • 9. 資料分析 - 線上即時資料分析 OLAP • 採用多維度之資料結構 (Cube) 將資料載入,以進行多 項不同維度整合的分析,快速得到報表。
  • 10. 資料分析 – 資料探勘 Data Mining, DM • 定義: 利用統計、人工智慧 (AI) 或其他的分析技術,在企業 之大型資料庫內尋找與發掘 事前未知、有效且可付諸行 動的資料彼此之間所隱藏的 關係與規則。 • 主要分析類型:如右圖。
  • 11. 資料探勘 DM - 主要分析類型 鏈結分析 Association Rule Analysis 指出變數與變數之間的連結關係。 例:顧客會一起買那些商品 ? 據某特性的顧客會買怎樣的產品 ? 分類分析 Classification 藉由學習過去已知的分類,推論出一套最有效的分類規則來識別未來 新輸入群體的類型。 例:輸入過去 10000 個忠誠度高與忠誠度低的客戶樣本,找出特別屬 性來預測未來顧客的忠誠度。 群集分析 Clustering Analysis 對樣本的分類特性不清楚時,為了要了解有那些不同特性的消費族群 ,而利用一些不同的特性來對樣本作群體分類。 例:網路使用者族群區隔分析。 ( 課本 P.211) 次序相關分析 Sequential Pattern Analysis 由一群有次去的交易中,找出經常次序出現的交易項目組合,進而了 解顧客的長期購買行為。 預測分析 Forecasting Analysis 以歷史資料來預測未來走向
  • 12. 巨量資料 Big Data – 基本定義 • 巨量資料: 由各種量大、流動快地異質資料來源所匯集而來,數量極為巨 大,目前的資料處理技術所無法蒐集、紀錄、儲存、分析的大 量資料謂之。 • 例子: •全球 10 億上網人口的網路搜尋紀錄。 •2013 年 facebook 上的 400 億張照片分享紀錄。 •信用卡防盜偵測系統:處理 21 億的客戶帳號。
  • 13. 巨量資料 Big Data – 產生背景 具量資料產生的三大動能 資料量 Volume 資料流動速度 Velocity 資料的不同來源 Varirty
  • 14. 巨量資料分析 Big Data Analysis • 利用強大新型的資訊科技 有效的蒐集、傳送、儲存 、處理、分析判讀巨量資 料所呈現的各種訊息,包 括資料間的關聯性、因果 關係、類型辨識、趨勢觀 測等。

Notes de l'éditeur

  1. 資料倉儲B=DW、資料探勘DM是企業智慧BI的核心基礎。 巨量資料分析Big data analytic是這些基礎未來的發展趨勢 因此接下來將介紹這3大系統。
  2. DATA MART(資料市集) 儲存資料,是資料庫(Database)最基本的功能,但隨網際網路興起與企業資訊管理軟體的普及化,加速了「資料庫」技術的應用。企業透過資料庫技術可提升企業的資訊應用能力及反應速度,對網路世紀的企業競爭力有深遠的影響。 資料庫根據處理技術與資料來源的複雜程度,可分為資料市集( Data Mart)、資料採擷(Data Mining)與資料倉儲(Data Warehous ing)三個層次。 所謂的DATA MART(資料市集),是資料庫運 用技術的第一層,通常是單一領域的資料運用,例如人事、行政、進貨 、銷售、存貨等單領域資料的運用與分析。 第二層便是資料採擷,根據特定需要,彙整與 擷取來自各個不同來源的資料,以供進一步分析之用。  資料庫技術運用的最上層便是資料倉儲,運用複雜的邏輯與推理,不 但彙整來自各方的資料,並且有人工智慧等功能,可作複雜的統計與分 析,針對決策者企業經營需求,提供所需的數據分析。
  3. 定義:具有以下特性的管理性資料庫。 主題導向(Subject-Oriented):決策主題導向 整合性(Integrated) 一致性(Consistency) 時間差異性(Time-Variant) 不變動性(Nonvolatile) 目的:快速支援使用者的管理決策 目的:傳統DB以紀錄交易為目的,因此決策相關的資訊散佈在不同資料庫裡,常常產生資料不一致、不相容、無法整合等問題,因此為了即時支援重要的企業決策,DW應運而生。
  4. DW: 那些特性的顧客喜歡買甚麼產品組合 (男性30-50歲-尿布+啤酒) 那些特性的客戶容易有壞帳? 那些地區的顧客購買能力較強? 這時DW會蒐集相關資料,並整合於以顧客銷售為主題的DW中。
  5. OLTP 線上交易系統 批次作業系統 辦公室自動化資料 多個部門的資料庫
  6. Online Analytical Processing P.208 209
  7. 鏈結分析 Association Rule Analysis
  8. 鏈結分析 經典案例1990年代,美國Walmart超市於資料庫中分析出啤酒與嬰兒尿布於週末傍晚的強烈關聯性,進而找出原因是年輕父親常被妻子交待週末下班買尿布回家而順便帶啤酒,因此調整商品陳列方式—將較高價尿布陳列於啤酒旁邊, 結果提昇了銷售量。
  9. 資料的不同來源