第288章 粽子!

第288章 粽子!

數據倉庫是一個面向主題的集成的相

對穩定的反映歷史變化的數據集合Y用於支持管理決策

面向主題

2集成

3相對穩定

4反映歷史變化

數據庫是面向事務的設計Y數據倉庫是面向主題設計的數據庫

一般存儲在線交易數據Y數據倉庫存儲的一般是歷史數據數據

庫是為捕獲數據而設計Y數據倉庫是為分析數據而設計的。

一個典型的數據倉庫系統通常包含數據源數據存儲和管理

OLAP伺服器前端工具和應用等四個部分。

數據源X是數據倉庫的基礎系統的數據來源Y包含企業的各種內部數

據和外部數據內部數據包括存在於OLTP系統中的各種業務數據和辦

公自動化系統中的各類文檔數據外部數據包括各類法律法規市場信

息競爭對手信息及各類外部統計數據和其他相關文檔等。

數據存儲和管理X是數據倉庫系統的核心是指在各業務系統基礎上周

期性地對數據進行抽取按照主題進行重新組織Y最終確定數據倉庫的物理存儲結構Y同

時存儲數據倉庫的各種元數據?數據字典記錄系統定義數據轉換規

則數據加載頻率及業務規則等?對數據倉庫系統的管理Y就是對相

應數據庫系統的管理Y通常包括數據的安全歸檔備份維護和恢復

等工作。

OLAP伺服器X聯機分析處理伺服器將需要分析的數據按照多維數據模

型進行重組Y以支持用戶隨時多角度多層次進行數據分析Y發現數據

規律與趨勢

前端工具和應用X數據查詢工具自由報表工具數據分析工具數據

挖掘工具和各類應用系統。

實時主動數據倉庫是一個集成的信息存儲倉庫Y既具備批量和周期性的數據

加載能力?採用ETL技術?Y也具備數據變化的實時探測傳播和加載能力

?採用CDC技術?Y並能結合歷史數據和新穎數據實現查詢分析和自動規則

觸發Y從而提供對戰略決策和戰術決策的雙重支持。

數據整合。

不同數據源的數據被物理地集成到數據目標

利用ETL工具把數據源中的數據批量地加載到數據倉庫就屬於數據整

合。

數據聯邦。

在多個數據源的基礎上建立統一的邏輯視圖Y對外界應用屏蔽數據

在各個數據源的分佈細節

對應用而言Y只有一個數據訪問入口Y但事實是被請求的數據只是

邏輯上的集中Y物理上仍然分佈在各個數據源中

只有收到請求時Y數據倉庫才臨時從不同數據源獲取相關數據Y進

行集成后提交給數據請求者。

數據傳播。

數據在多個應用之間傳播

在企業應用集成解決

方案中Y不同應用之間可以通過傳播消息進行交互

4混合方式

對那些不同應用都使用的數據採用數據整合的方式進行集成Y而對

那些只有特定應用才使用的數據則採用數據聯邦方式進行集成。

有多種技術可以為實時主動數據倉庫提供數據集成服務Y比如腳本ETL

EAI和CDC但是Y只有部分技術能提供實時(連續)的數據集成X

?

1?腳本腳本是數據集成的一種快速解決方案Y其優點是Y使用靈活且比

較經濟Y很容易着手開發和進行修改Y幾乎任何作業系統和絕大部分DBMS都

可以使用腳本但是Y使用腳本也有很多問題Y比如Y耗費開發者的時間和

精力Y不好管理和操作Y以及不能滿足服務水平協議?

等等。

有多種技術可以為實時主動數據倉庫提供數據集成服務Y比如腳本ETL

EAI和CDC但是Y只有部分技術能提供實時(連續)的數據集成X

?

2?ETLETL是實現大規模數據初步加載的理想解決方案Y它提供了高級

的轉換能力ETL任務通常都是在維護時間窗口進行Y在ETL任務執行期間Y

數據源默認不會發生變化Y這就使得用戶不必擔憂ETL任務開銷對數據源的影

響Y但同時也意味着Y對於商務用戶而言Y數據和應用並非任何時候都是可

用的。

有多種技術可以為實時主動數據倉庫提供數據集成服務Y比如腳本ETL

EAI和CDC但是Y只有部分技術能提供實時(連續)的數據集成X

?

3?EAIEAI解決方案通常和ETL解決方案並存Y從而增強ETL的功能EAI

解決方案在源系統和目標系統之間進行連續的數據分發Y並且保證數據的成

功分發Y同時提供高級的工作流支持和基本的數據轉換但是YEAI受到數據

量的限制Y因為EAI的初衷是為了實現應用的集成而不是數據的集成Y即它是

用來調用應用或者分發命令和消息的然而Y由於EAI具有在數據集成過程中

實時分發數據和維護數據一致性的特性Y所以也就能夠提供實時數據獲取的

能力Y而這種能力正是實時主動數據倉庫所需要的。

有多種技術可以為實時主動數據倉庫提供數據集成服務Y比如腳本ETL

EAI和CDC但是Y只有部分技術能提供實時(連續)的提供了連續變化數據的捕捉和分

發能力Y並且只需要很低的開銷和時間延遲CDC在提交的數據事務上進行

操作Y從OLTP系統中捕獲變化的數據Y再進行基本的轉換Y最後把數據發送

到數據倉庫中雖然在體系結構上YCDC屬於異步的Y但它表現出類似同步

的行為Y數據延遲只有不到1秒的時間Y同時能夠維護數據事務的一致性。

ETL是將業務系統的數據經過抽取?

Extract?清洗轉換?

Transform?

之後加載?

Load?到數據倉庫的過程Y目的是將企業中的分散零亂

標準不統一的數據整合到一起Y為企業的決策提供分析依據

ETL是指從原系統中抽取數據Y並根據實際商務需求對數據進行轉換Y然

后把轉換結果加載到目標數據存儲結構中源和目標通常都是數據庫和文

件Y也可以是消息隊列等。

數據抽取

可以採用周期性的pull機制或者事件驅動的push機制

pull機制支持數據整合Y通常以批處理的方式工作

push機制通常採用在線方式工作Y可以把數據變化傳播到目標數據存儲

結構。

數據轉換

包括數據重構和整合數據內容清洗或集成

數據加載

對整個目標數據存儲結構進行刷新Y或者只是對目標數據存儲進行增量更

新。

早期的ETL解決方案通常以固定的周期運行批處理工作Y從平面文件和

關係數據庫中捕捉數據Y並把這些數據整合到數據倉庫中最近這幾年Y

商業ETL工具供應商已經對產品做了很大的改進Y對產品功能進行了擴

展Y具體如下X

1額外的數據源

2額外的目標

3改進的數據轉換功能

4更好的管理

5更好的性能

6改進的可用性

7增強的安全性

8支持基於數據聯邦的數據集成方法

數據抽取模塊的功能X

1確定數據源Y即從哪些源系統進行數據抽取。

2定義數據接口Y對每個源文件及系統的每個字段進行詳細說明。

3確定數據抽取的方式X是主動抽取還是由源系統推送Y是增量抽取。

還是全量抽取Y是每日抽取還是每月抽取。

數據清洗與切換

數據清洗與轉換X

數據清洗主要是對不完整數據錯誤數據重複數據進行處理

數據轉換包括如下操作

上一章書籍頁下一章

離語

···
加入書架
上一章
首頁 台言古言 離語
上一章下一章

第288章 粽子!

%