數據倉庫處理方案向導
發表時間:2024-02-09 來源:明輝站整理相關軟件相關文章人氣:
[摘要]數據倉庫的概念 任何一個公司和企業,在訂貨、存貨清單、票據清單、帳目清算、客戶服務以及 財務報告等方面都存在大量的業務應用和技術環節。數據倉庫的作用在于:從這 些應用系統中獲取信息并轉換到一個新的數據庫,通過對新庫中的歷史信息和面 向主題的信息進行分析,為決策提供支持。以往的產品系統,如訂貨或購置...
數據倉庫的概念
任何一個公司和企業,在訂貨、存貨清單、票據清單、帳目清算、客戶服務以及
財務報告等方面都存在大量的業務應用和技術環節。數據倉庫的作用在于:從這
些應用系統中獲取信息并轉換到一個新的數據庫,通過對新庫中的歷史信息和面
向主題的信息進行分析,為決策提供支持。以往的產品系統,如訂貨或購置系統,
則很難從中獲得有關商業發展狀況的信息。
數據倉庫是企業決策支持的一部分。在做出下一個決定前,每個商業機構中的行
政人員和分析人員都需要將許多關鍵商業問題搞清楚,例如:哪些產品最有利可
圖?哪些客戶會為我們帶來最大利益?哪些環節需要花費很高的費用?哪些市場活動
運行得最好,為什么?我們有可能會失去哪些客戶,為什么?
這些都是數據倉庫要
回答的“百萬利潤”問題,也同時是一個最大的市場。據 Gartner估計,60%
的關
系數據庫管理系統被用作決策支持系統的應用開發。
數據倉庫與數據集市的比較
在二十世紀八十年代中期,Bill Inmon首次提出“數據倉庫”這一名詞。它最初被
設計為一個商業數據庫, 具有穩定性(主要成分不變)、歷史性(包含歷史信息)和面
向主題(信息由客戶、產品和市場等組成)等特點。這些最初的“數據倉庫”根據
對客戶、產品、銷售情況和財務狀況等信息的分析,得到對企業活動的整體認識。
要建立一個數據倉庫,一般分為四個步驟:
第一步:數據庫設計,即設計出一個包含商業數據和信息的數據庫,為商業實體
所用;
第二步:開發數據抽取和轉換程序,從產品系統中將數據取出后放入數據倉庫中;
第三步:開發數據加載和更新技術,使得在產品數據發生變化時,數據倉庫得到
動態實時的更新;
第四步:購置查詢和報表生成工具,令使用者通過企業內部網和個人計算機很方
便地獲取信息。
多年以來客戶發現:盡管企業級數據倉庫很有吸引力,但是具體操作起來有些難
度。1996年“IDC研究”調查結果表明:盡管為建立數據倉庫平均投入了三年多
時間和近320萬美元,50%沒有達到應有的效果。從項目開始算起,三年后,大多
數商人發現所面臨的商業問題已經不再是開始建立時的樣子,發生了很大變化。
另外,盡管開發進度被延長了一年又一年,仍然做不到讓所有感興趣的客戶對想
看到什么信息給出明確的需求定義。因而“企業數據模型”的確立如同練習一樣
進行了一年又一年。
在最近的18-24個月的時間里,出現了一種新的解決辦法,那就是數據集市。數據
集市也是一種數據倉庫,只是它更精練,更面向主題。Sybase公司自創立以來,
便確立了在數據集市技術上的領導地位。目前,使用Sybase產品的2萬多家客戶中
的大多數已經建立了運行在SQL Server上的數據集市,盡管通常也稱為數據倉庫,
卻幾乎沒有一個是企業級的。
數據集市的優勢在于建設周期的縮短和費用上的大大降低。其中周期以月代替了年,
費用從幾百萬下降到一百萬。由于整個企業的數據很龐大,真正將它們集中到一個
數據庫中幾乎是不可能的。有人便對很多大數據倉庫實質上是不是數據集市產生了
懷疑。使用數據集市后。設計、抽取、轉換、加載和查詢等環節變得更加簡單,因
為客戶中的一部分人能夠更精確地知道他們自己所需要的信息是什么。
然而,如果有很多的數據集市卻不能使它們保持同步,數據集市解決方案就會遇到
困難。一旦一個單位創建了兩個或兩個以上的數據集市,最大的問題就是如何使它
們之間協調一致,如何使它們實時操作,以及如何維護所有的數據抽取和轉換。另
外,當一個單位要創建兩個或兩個以上的數據集市時,會發現每一個都要經過一個
重新的設計、抽取、加載和查詢步驟。于是,在面對多個數據集市的開發時,如何
共享設計和結構成為一個有現實意義和挑戰性的問題。
運作型數據存儲與合并式數據倉庫
針對上述問題,一種解決方案是采用一種全新的數據倉庫概念 ---“運作型數據存
儲 (Operational Data Store,ODS)”。在ODS方式下,數據被從業務數據庫中復制到
一個中心位置,再從這里被抽取到多個數據集市中。ODS是從客戶、產品和其他商
業角度來組織的,被稱為商業狀況的“實時快照”。它不包含歷史信息,但可以很
容易地滿足一個歷史數據庫或一組面向主題的數據集市的需要。
我們一般稱之為“合并式數據倉庫”,因為它在進入決策支持數據庫以前是一個信
息的結合點。ODS雖小,卻能被經常地修改,因而非常適合于建立在Adaptive
Server
Enterprise 和 Replication Server上。
多維或OLAP(聯機分析處理)市場
作為數據倉庫應用環節中的一部分,在市場份額上得到快速增長,變得越來越大。
簡單來說,OLAP是從商業角度進行信息組織,而不象通常的由行、列和表構成。
例如,在一個類似 Arbor 或 Oracle Express 的 OLAP數據中,信息是通過客戶、產
品、日期、銷售部門和地域等屬性來存取的,這對于數據理解和信息獲取來說都
顯得非常直觀。
OLAP產品取得關系數據后,將它放入一個非常簡單的表格中,使之很容易分析。
數據庫和一個OLAP產品可被看做一個多維表格。這個市場相當熱門,Arbor、
Oracle的 Express 和 Microstrategy 在此領域中各占一席之地,而 Sybase的
Power
Dimentions (原名whitelight),Cognos的 Impromptu 和 Powerplay,Brio Technology 的
BrioQuery處于優勢地位。
競爭對手與合作伙伴一覽
RDBMS公司:Sybase,Oracle,IBM,Teradata/NCR,Informix,Microsoft
硬件公司:IBM,Teradata,Sun,Digital/Compaq,HP
轉換工具:VMARK,Infomatica,Carleton/Apertus,ETZ,Prism Solutions
OLAP:Sybase/PowerDimentions,Arbor,Oracle/Express,Microstrategy,
Information Advantage。
Sybase 的解決方案及其組成
Sybase擁有一個獨特而強有力的點對點方案,用來設計、建立和管理數據倉庫和數
據集市。各個部門之間通過集中的元數據進行交互,這便具有了完整性、集中性和
靈活性等特點。我們的工具也具有很多優越性能。
下表列出了各個組成部分:
(1)PowerDesigner Warehouse Architect
PowerDesigner不但是業界知名的數據庫設計工具,也是數據倉庫模型設計工具。其
中的 Warehouse Architect模塊支持多種數據倉庫模型,包括星型模式、雪花模式、以
及雪暴模式。這是同行業中最優秀、最靈活的開發工具,可用來設計一個關系的或
OLAP的軟件倉庫。PowerDesigner在數據倉庫設計工具市場中占有最大份額。它能從
已有的數據庫進行反向工程,從運行系統中將現存的數據結構抽取出來形成數據模
型,使設計變得簡單。
(2) PowerStage
強大的數據抽取和數據轉換產品。它是領導市場的客戶/服務器轉換方法,使數據倉
庫模型用PowerDesigner實現起來更加容易,更加直觀。PowerStage真正是安全并基于
引擎的。它有一個簡單的面向處理的圖形用戶接口,使得用戶可以快速啟動,重復
利用以往的工作,從任何源中獲得數據。
(3)適用于數據倉庫的Adaptive Server for the Warehouse
Adaptive Server for the Warehouse (ASW),是一個包含Adaptive Server Enterprise (ASE)
和Adaptive Server IQ (ASIQ)的新關系數據庫管理系統。它具有一項新的數據庫查詢
技術——直接英文查詢。該產品使得高性能的OLAP和高性能的DSS在同一服務器
上得到集成。
Adaptive Server IQ,是服務于數據倉庫的最優秀關系數據庫管理系統,可以對數據庫
進行壓縮,也可以以傳統關系數據庫管理系統的10至100倍的速度執行快速查詢,使
得數據規�?梢赃_到并超過十億行數據。
(4)PowerDimensions
快速、可擴展的聯機分析工具。 這是業界中最新的OLAP解決方案,對建立于ASIQ
和ASW數據庫的數據可以提供快速靈活的多維模型建立和分析。區別于多維數據庫,
Powerdimensions能支持幾百千兆以至萬億字節的原始數據和多個角度。
(5)Intellidex Control Center
對元數據和分布式數據集市提供點對點集中管理的產品。它是業界中管理分布式數據集
市的唯一的完全點對點的解決方案。作為一個新產品,它提供了建立分布式數據集市的
點對點方案,并且從一個中心位置上管理它們,它同時解決了業界中在元數據管理方面
的問題。
(6)SAFE/DW
建立數據倉庫的一套完整的測試方法,在世界上得到廣泛應用。
(7)Sybase專業服務
是一個全球范圍的數據倉庫協作組織,可快速、可靠地設計和提供數據倉庫解決方案。
Sybase方案的主要好處
1、快速實現
由于Sybase的解決方案是集成的,客戶只需要挑選一套最適合的產品集,即可使它們無
縫地工作。這樣,一方面可以快速實現,另一方面只需要面對一個廠商就可以獲得全部
的支持和服務。
2、數據集市與中心倉庫的無縫集成
在市場上,Sybase方案唯一地能夠將多個數據集市和中心倉庫管理集成在一起。我們的
方案是為企業提供的“唯一的可行方案”,對進入數據集市的數據移動、安全和元數據
管理進行調度。
3、極高的查詢速度
ASIQ是世界上用于決策支持(DSS)的最快速數據庫。由于具有先進的Bit-wise索引技術,
它能夠以10至100倍于其競爭對手的速度查詢,這些對手包括Oracle,RedBrack,Informix
和Teradata。這更有利于最終用戶的特殊的、重復的分析,也支持了在以前根本做不到的
應用開發。
4、高效的數據壓縮
ASIQ和ASE的數據壓縮結果是傳統RDBMS方法的三分之一至七分之一。在一個典型的
ASIQ實現上,如果以五年左右時間來計算,一個Sybase方案可以做到每增加100GB數據
節省大約41.5萬美元(包括磁盤購置、維護和操作)。
5、無限的可擴展性
區別于傳統的RDBMS解決方案,ASIQ和ASE將共同支持客戶存放更多的歷史和詳細數據。
客戶經常會關心對VLDB的支持。采用Sybase解決方案后,數據庫規模比用非Sybase解決方
案要小得多。今天,我們的用戶已經可以利用ASIQ數據庫來存取萬億字節(TB級)的數據。
6、面向不同數據庫環境
Sybase解決方案也可以適用在混合的非Sybase環境中。在數據庫網關方面,Sybase是世界
上的先驅者,可以直接訪問25種不同的主機,以及其它的客戶機/服務器數據庫系統,通
過其DirectConnect系列產品。我們同時為基于軟件的數據倉庫和數據集市提供了具有數據
變化捕捉能力的復制服務器Replication Server,它可以反映Sybase、Oracle、DB2、VSAM、
IMS以及其它關系型數據庫中的數據變化。
7、安全性和易管理性
利用intellidex,我們的方案使IT用戶僅通過一個簡單的承諾模式,就可以管理分布的數據集
市,具有高度的安全性、用戶可控制性。除此之外,我們還有一個管理整個企業元數據的
解決方案,這樣既可以使用戶創建自己的數據集市,也可以得到一個“唯一可行的方案”。
intellidex能自動告訴用戶哪些數據是在他們的數據集市中,這些數據從哪里來,以及到哪里
去取等附加信息。
8、提供強大的、可擴展的OLAP集成
業務分析人員希望通過利用數據倉庫中的數據做一些復雜分析。利用PowerDimensions,用戶
可以快速建立簡單或復雜的多角度模型,直接訪問數據倉庫中的數據。而這些模型可以被成
百上千的用戶共享,允許分析人員建立一些能為最終用戶的決策者所使用的業務模型。
9、Web上的基于軟件的數據倉庫解決方案
Sybase的PowerDimensions包含一個用來分析和查詢的基于Java的瀏覽器。它支持圖形、主元
選擇和表格模型。Sybase的PowerDynamo自動將數據倉庫并入Web,產生簡單的基于HTML
的查詢。
10、豐富的經驗
Sybase在數據倉庫和數據集市的實現方面經驗豐富,涉及金融服務、電訊、醫療保健、公用
事業、交通運輸、媒體和娛樂業。正由于在業務和技術上的特長,我們可以快速地為客戶建
立實用可行的高效的解決方案。
誰該對Sybase解決方案感興趣?
一份Sybase數據倉庫的完整解決方案的金額通常會達到一百萬美元甚至更多。因此,區別于
一個單獨數據庫產品的銷售,它一般不直接賣給企業的IT部門。
所有的主要數據倉庫的購置,都是由最終業務用戶的高級執行官來論證和支持的。這些執行
官是市場、銷售或金融領域的VP。他們需要對關鍵業務問題作出回答,同時他們也理解花費
二百萬美元來建立一個決策系統對這些問題作出回答的行動是值得的。
企業的IT部門在設計和實現方面扮演重要角色。他們最關心的是能否滿足這些眾多的最終業
務用戶的需求。通常由IT部門選擇產品,而由高級執行官來選擇產品供應商。在整個進程中,
絕對需要最終用戶的高級業務執行官的理解與支持。
業務決策者首先應該認識到Sybase方案的獨特性。該方案能夠針對業務用戶所面臨的問題,
提供快速、安全的解決方案。同時有理由使IT部門相信,我們的產品和服務能力可以保證高
水平的性能、可擴展性、易理解性,會使IT部門獲得成功。
潛在用戶應該關心并考慮的問題
(1) 明確困擾他們的業務問題是什么
(2) 了解數據倉庫或數據集市所能帶來的新機會
(3) 了解數據倉庫/數據集市的適用行業與應用領域
電訊行業:
A、客戶開發 --
防止丟失很有利的客戶,查明哪些客戶會離開?為什么?
B、活動成本管理 -- 需花多少錢來實現一個新線或建立一項新服務
C、價格制定 -- 提高從下午9點至午夜的電話收費價格將會帶來什么好處?
D、調用詳細記錄分析 --
掌握每次通話的詳細分析,通話時長,通話位置。用來進
行定價和容量規劃。
E、電信市場 -- 向客戶提供混合銷售、呼叫、等待、留言等新服務。
金融服務
A、有價證券風險管理 --
在某個用戶的現金付帳和所有有價證券、基金的安全上,
有什么全局性風險?
B、客戶利潤 --
哪些客戶會給企業帶來最大利益,他們正在買什么?例如在銀行
中,20%的客戶會帶來80%的利潤。
C、RAROC -- 不同的風險調節利率的返還方案
D、財政預算和計劃
信用卡運作
A、一對一市場 --
哪些客戶最有可能使用我們的信用卡,他們通常買些什么?
B、欺詐管理 -- 哪些客戶傾向于結束付帳,什么時候?
C、利益 --
我們的客戶中哪些是最有利可圖的?如何知道怎樣才能讓他們買更
多的東西
醫療保健
A、成本分析 -- 在我們醫院里做X光共花費多少錢?從何處下手,我們能最有效
地減少費用支出?
B、客戶分類 -- 哪些客戶使用了我們80%的內部資源?
C、HEDIS 報告 -- 官方的成本報告,通過服務類型分類
保險理賠 -- 我們的保險金認領中哪些被長時間擱置,為什么?
外界對Sybase數據倉庫方案與產品的評價
“在MCI,由于較好地預測到了發展前景,Sybase IQ的方法使我們的電信市場部門的銷售
效力增加了4倍�!�
“在GE Capital,通過更好地提供所需的保證產品定價的關鍵信息,Sybase
IQ方案每月節約
二百萬美元。”
“在美國航空公司,針對乘客年收入而設計的Sybase IQ方案,取代了主機上的Teradata系統,
每月為他們獲得10萬美元,并且使更多的用戶能對其乘客旅行利益進行分析�!�
對Sybase公司的概括描述
(1)Sybase是一個擁有十億元資產的全球性公司,在開發工具方面居于世界領先地位,是
關系數據庫的第二大供應商,數據倉庫是公司的三大法寶之一。
(2)Sybase ASIQ 數據庫是市場上增長最快的數據倉庫數據庫,它有400多客戶,遍布于全
球各大公司。
(3)Sybase 不僅擁有產品,還擁有一個可靠的全球服務體系,稱作SAFE/DW,已經成功地
在成百上千個場點實現了數據倉庫和數據集市。
(4)Sybase 是一個100% 的ISO 9000
認證公司,在同行業中擁有最好的產品,獲得最高客戶
滿意度。
(5)Sybase 有許多滿意的客戶分布在各個行業中,實現了各類應用。
IT部門應該了解
Sybase數據倉庫是唯一集成的點對點方法。
Sybase的ASIQ和ASW在速度、可擴展性和低成本的投資回報率等方面,在技術上領先
。
在5年以上的時間里,Sybase數據倉庫可以使每100GB字節節省41.5萬美元的開支。
Sybase的 PowerDimensions對于可擴展的多級的大數據庫分析來講是一個完整的OLAP解決
方案。
PowerStage具有C/S結構,內容豐富,易于使用,便于快速實現。它具有一個強大的基于
過程接口,可以處理從簡單到復雜的各種轉換問題。(出處:熱點網絡)