|
商業(yè)智能在ERP系統(tǒng)中的應(yīng)用研究 |
商業(yè)智能在ERP系統(tǒng)中的應(yīng)用研究 | 發(fā)布時(shí)間:2012/6/5 11:24:47 |
1 緒論
商業(yè)智能的發(fā)展
商業(yè)智能是一種綜合運(yùn)用了數(shù)據(jù)倉庫、聯(lián)機(jī)分析和數(shù)據(jù)挖掘技術(shù)來處理和分析數(shù)據(jù)的嶄新技術(shù)。商業(yè)智能這一術(shù)語1989年由Gartner Group的Howard Dresner首次提出,它描述了一系列的概念和方法,通過應(yīng)用基于事實(shí)的支持系統(tǒng)來輔助商業(yè)決策的制定。商業(yè)智能提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處。商業(yè)智能系統(tǒng)從企業(yè)運(yùn)作的日常數(shù)據(jù)中開發(fā)出結(jié)論性的、基于事實(shí)的和具有可實(shí)旌性的信息,使企業(yè)能夠更快更容易的做出更好的商業(yè)決策。使企業(yè)管理者和決簧者以一種更清晰的角度看待業(yè)務(wù)數(shù)據(jù),提高企業(yè)運(yùn)轉(zhuǎn)效率、增加利潤并建立良好的客戶關(guān)系,使企業(yè)以最短的時(shí)間發(fā)現(xiàn)商業(yè)機(jī)會(huì)捕捉商業(yè)機(jī)遇。如何時(shí)何地進(jìn)入何市場,如何選擇和管理大客戶聯(lián)系,以及如何選擇和有效她推出商品優(yōu)惠策略等。同時(shí)通過提供決策分析能力。使企業(yè)更有效地實(shí)現(xiàn)了財(cái)務(wù)分析、風(fēng)險(xiǎn)管理、詐騙檢測、分銷和后勤管理,以及銷售狀況分析等。
商業(yè)智能系統(tǒng)可以說是一個(gè)智能決策支持系統(tǒng),它不是一種產(chǎn)品或服務(wù),從某種意義上商業(yè)智能是一種概念或者說是一種商業(yè)理念,它是在企業(yè)數(shù)據(jù)倉庫的基礎(chǔ)上,利用數(shù)據(jù)挖掘和信息挖掘工具獲取商業(yè)信息,以輔助和支持商業(yè)決策的全過程。通過商業(yè)智能技術(shù),用戶更充分地了解他們的產(chǎn)品、服務(wù)、客戶以及銷售趨勢。商業(yè)智能在我國尚處于起步階段,商業(yè)智能系統(tǒng)適合應(yīng)用的行業(yè)依次是:零售、保險(xiǎn)、銀行、通信、離散制造、政府、醫(yī)療、分銷、流程制造、教育。
國內(nèi)外研究現(xiàn)狀
隨著2003年12月12日Business Objects公司(簡稱Bo)收購Crystal Decisions所有交易的全部結(jié)束,一個(gè)年?duì)I業(yè)額達(dá)7.36億美元的全球最大的m廠商誕生了。從聽到關(guān)于沃爾瑪超市的“啤酒”與“尿布”的故事,我們知道了BI應(yīng)用可以如此神奇地分析出兩種看似毫不相干的東西之間原來還有著千絲萬縷的聯(lián)系,如今以數(shù)據(jù)倉庫為核心的BI應(yīng)用正在成為國內(nèi)很多用戶們實(shí)施的熱點(diǎn)。據(jù)IDC(Intemational Data Corp.1最新的研究報(bào)告稱,2007年商業(yè)智能系統(tǒng)的市場規(guī)模將翻倍,且在世界范圍超過140億美元,而亞太地區(qū):BI解決方案市場將達(dá)33億美元,這是目前市場價(jià)值12億美元的近3信。世界許多以提供軟件平臺(tái)和工具平臺(tái)的大公司通過多年與企業(yè)的交流,己經(jīng)認(rèn)識(shí)到企業(yè)對商業(yè)智能的迫切需求,紛紛加入到從事商業(yè)智能的研究與開發(fā)上來。IBM建立了專門從事m方案設(shè)計(jì)的研究中心,ORACI丑、微軟等公司紛紛推出了支持Ⅸ開發(fā)和應(yīng)用的軟件系統(tǒng),有的自接進(jìn)入了BI的開發(fā)領(lǐng)域。據(jù)市場分析員介紹,BI己經(jīng)成了企業(yè)信息技術(shù)最為重要并且極具潛力的領(lǐng)域。
在國外己有很多實(shí)施商業(yè)智能的成功案例:AT&T Universal公司通過部署商業(yè)智能解決方案,每年減少信用卡欺詐額高達(dá)8001萬美元:Cadbury巧克力公司借助商業(yè)智能使市場份額很快從28%提升到了30%:美國第二大銀行一花旗銀行(Citibank)在BI系統(tǒng)的幫助下,能夠有效分析其分布于57個(gè)國家的客戶和信息在國內(nèi),商業(yè)智能的應(yīng)用方面還處于剛剛起步階段,但它的需求潛力巨大。在過去兩年里,已經(jīng)有不少國際商業(yè)智能公司進(jìn)入中國,其中有MicroStrategy,BusinessObjects, Cognos等國際知名的傳統(tǒng)的商業(yè)智能軟件廠商,也有一些著名的企業(yè)管理應(yīng)用軟件廠商,比如SAP,qj骨文和冠群等公司投資于分析軟件。國內(nèi)用友、金蝶、創(chuàng)智等廠商近期也推出了這類產(chǎn)品。這些國內(nèi)廠商一方面同國際商業(yè)智能軟件廠商建立良好的合作關(guān)系以維持發(fā)展,另一方面也在積極提升產(chǎn)品和解決方案的內(nèi)在品質(zhì),向客戶提供更完美的決策支持服務(wù),爭取與國外廠商一比高低。BI的發(fā)展得益于相關(guān)技術(shù)的發(fā)展,并行處理系統(tǒng)、廉價(jià)數(shù)據(jù)存儲(chǔ)、新數(shù)據(jù)挖掘算法、神經(jīng)網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)、決策支持技術(shù)、從大量數(shù)據(jù)中發(fā)現(xiàn)其背后潛藏的商業(yè)機(jī)會(huì)等等技術(shù)的發(fā)展。隨著這些技術(shù)的不斷進(jìn)步,必將推動(dòng)商業(yè)智能的發(fā)展和完善。
目前國內(nèi)的m應(yīng)用仍然存在許多問題,主要表現(xiàn)在數(shù)據(jù)分析、知識(shí)發(fā)現(xiàn)能力、效率低,或者缺乏知識(shí)發(fā)現(xiàn),而更像一個(gè)操作型應(yīng)用系統(tǒng)。很難在決策支持方面發(fā)揮BI應(yīng)有的作用。首先應(yīng)該認(rèn)識(shí)到劭發(fā)展、應(yīng)用的總體趨勢,其次多借鑒國外BI成熟的技術(shù)和方法,開發(fā)或不斷完善真正意義上的BI系統(tǒng)。相信本文對國內(nèi)企業(yè)BI系統(tǒng)的研究開發(fā)會(huì)有啟發(fā)。
商韭智能解決方案的核心功能
(1)客戶智能(客戶關(guān)系管理):
提供全方位的客戶信息查詢、分析和監(jiān)控功能。利用客戶智能可幫助企業(yè)制定獲取客戶、保留情況和提升客戶和潤貢獻(xiàn)度的客戶管理策略。客戶智能還可以對客戶滿意度、忠誠度以及客戶生命周期進(jìn)行分析,并通過先進(jìn)的績效管理框架對客戶利潤貢獻(xiàn)度進(jìn)行評估進(jìn)而制定客戶細(xì)分策略。
(2)營銷智能:
通過分析、報(bào)告、管理和監(jiān)控營銷信息來幫助企業(yè)的決策者、營銷專家和分析人員制定戰(zhàn)略性的營銷策略,幫助企業(yè)提高營銷能力。并可以根據(jù)企業(yè)制定的營銷策略進(jìn)行計(jì)算機(jī)仿真,觀察銷售策略是否能達(dá)到預(yù)期的效果。
(3)銷售智能:
提供全面的銷售團(tuán)隊(duì)分析、銷售業(yè)績分析、根源分析和業(yè)績管理來幫助決策者制定銷售策略及對銷售業(yè)務(wù)快速做出市場反應(yīng)。銷售智能還提供很多隨時(shí)可以運(yùn)行的智能報(bào)告和分析手冊,評估銷售趨勢、市場開拓活動(dòng)、產(chǎn)品利潤、產(chǎn)品生存周期以及促銷效果。
(4)服務(wù)智能:
分析與服務(wù)相關(guān)活動(dòng)的全面信息,監(jiān)控服務(wù)質(zhì)量,幫助企業(yè)制定更合理高效的服務(wù)策略。該智能進(jìn)行閉環(huán)式的跟蹤反饋,并與業(yè)務(wù)人員的工作績效直接掛鉤,起到指導(dǎo)和監(jiān)督的作用。
(5)財(cái)務(wù)智能:
提供易于使用的財(cái)務(wù)盈利狀況分析報(bào)表、現(xiàn)金流分析報(bào)表、現(xiàn)金狀況分析報(bào)表、資產(chǎn)管理分析報(bào)表、項(xiàng)目分析報(bào)表等,方便決策者迅速地分析財(cái)務(wù)信息。
商業(yè)智能能為企業(yè)帶來效益
商業(yè)智能幫助企業(yè)的管理層進(jìn)行快速,準(zhǔn)確的決策,迅速的發(fā)現(xiàn)企業(yè)中的問題,提示管理人員加以解決.但商業(yè)智能軟件系統(tǒng)能代替管理人員進(jìn)行決策,不能自動(dòng)處理企業(yè)運(yùn)行過程中遇到的問題.因此商業(yè)智能系統(tǒng)并不能為企業(yè)帶來直接的經(jīng)濟(jì)效益,但必須看到,商業(yè)智能為企業(yè)帶來的是一種經(jīng)過科學(xué)武裝的管理思維,給整個(gè)企業(yè)帶來的是決策的快速性和準(zhǔn)確性,發(fā)現(xiàn)問題的及時(shí)性,以及發(fā)現(xiàn)那些對手未發(fā)現(xiàn)的潛在的知識(shí)和規(guī)律,而這些信息是企業(yè)產(chǎn)生經(jīng)濟(jì)效益的基礎(chǔ),不能快速,準(zhǔn)確的指定決策方針等于將市場送給對手,不能及時(shí)發(fā)現(xiàn)業(yè)務(wù)種的潛在信息等于浪費(fèi)自己的資源.比如:通過對銷售數(shù)據(jù)的分析可發(fā)現(xiàn)各類客戶的特征和喜歡購買商品之間的聯(lián)系,這樣就可進(jìn)行更有針對性的精確的促銷活動(dòng)或向客戶提供更具有個(gè)性的服務(wù)等,這都會(huì)為企業(yè)帶來直接的經(jīng)濟(jì)效益.如果把“商業(yè)智能“技術(shù)應(yīng)用剄ERP系統(tǒng)中,并對ERP系統(tǒng)積累的數(shù)據(jù)進(jìn)行分析處理,使數(shù)據(jù)倉庫建立在這些數(shù)據(jù)之上,結(jié)合0LAP技術(shù)及數(shù)據(jù)挖掘技術(shù),將非直觀的、隱含的信息和知識(shí)以直觀的形式描述,輔助領(lǐng)導(dǎo)層進(jìn)行決策分析,幫助用戶發(fā)現(xiàn)ERP系統(tǒng)積累的數(shù)據(jù)的潛在價(jià)值?梢赃@么說,普通的ERP系統(tǒng)能夠幫助用戶規(guī)范企業(yè)的管理,而擁有強(qiáng)大數(shù)據(jù)分析功能的ERP系統(tǒng)則能夠使用戶從這種規(guī)范的管理中獲得更大的效益。它也是當(dāng)前ERP系統(tǒng)研究的熱點(diǎn)。
中小企業(yè)對商業(yè)智能需求的迫切性
隨著信息技術(shù)的高速發(fā)展,企業(yè)信息處理量不斷加大,企業(yè)資源管理的復(fù)雜化也不斷加大,這要求信息的處理有更高的效率,信息的集成度要求擴(kuò)大到企業(yè)的整個(gè)資源的利用和管理,ERP(Enterprise Resource Planning-企業(yè)資源計(jì)劃正是為了適應(yīng)企業(yè)的需求而產(chǎn)生。激烈的市場競爭使越來越多的國內(nèi)企業(yè)開始關(guān)注ERP系統(tǒng),而且在企業(yè)中建立起自己的ERP系統(tǒng),并在多年的系統(tǒng)運(yùn)行中積累了豐富的數(shù)據(jù)。隨著計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展和企業(yè)走向電子商務(wù)的趨勢賦于了ERP許多新的發(fā)展趨勢,要求把數(shù)據(jù)挖掘和聯(lián)機(jī)分析技術(shù)應(yīng)用到ERP系統(tǒng)中,使其具有商業(yè)智能。然而,目前多數(shù)國內(nèi)企業(yè)的礤瞪系統(tǒng)仍停留在功能全面的MIS系統(tǒng)層面,尤其沒能夠達(dá)到真正的ERP所期望的輔助決策分析的功能。企業(yè)面對日益積累的龐大數(shù)據(jù),渴望尋求新的途徑來迎接信息時(shí)代的挑戰(zhàn)。
商業(yè)智能的出現(xiàn),則可以很好的解決這個(gè)鬩題,并且順應(yīng)時(shí)代的的需求,利用現(xiàn)有的業(yè)務(wù)信息提取和組織有用的信息,能夠幫助用戶在加強(qiáng)管理、促進(jìn)營銷和企業(yè)發(fā)展方面做出及時(shí)、正確的決策。然而,根據(jù)調(diào)查數(shù)據(jù)顯示,中國的BI市場主要集中在電信、金融、稅務(wù)、保險(xiǎn)等商端市場,對于企業(yè)來說,也僅僅少數(shù)規(guī)模較大的企業(yè)用到了BI,究其原因是:
首先是ERP開發(fā)商沒有在BI這個(gè)產(chǎn)品上投入研發(fā)。我們看國內(nèi)最大的兩家ERP廠商:用友和金蝶,,雖然他們的產(chǎn)品中都加入了自己研發(fā)的管理數(shù)據(jù)倉庫,但都屬于一個(gè)概念性的模塊,沒有實(shí)際的銷售。那為什么他們不在這個(gè)上面投入研發(fā)力量呢?原因又有二,其一,BI研發(fā)要求相對ERP更為精深的技術(shù),而且,需要更為專業(yè)的需求人員。其二,在用友或金蝶看來,中國的ERP也才剛剛進(jìn)入到普及化的初級階段,國內(nèi)9096的企業(yè)屬于中小型的,BI的需求還不明顯,且它們多數(shù)不具備建立數(shù)據(jù)倉庫的能力。
其次是中小企業(yè)在BI上一次性資金投入少,但對短期回報(bào)要求高。中小企業(yè)由于規(guī)模有限,不可能對企業(yè)的信息化做大的資金投入,尤其是軟件方面,一次性投入幾十萬元人民幣,對多數(shù)中小企業(yè)來說就是一個(gè)非常龐大的數(shù)字了,它們也不可能向大型企業(yè)那樣幾個(gè)月,甚至幾年后再計(jì)算收益,因此更希望在投入的短時(shí)間內(nèi)取得效果,而且效果越明顯越好。然而,商業(yè)智能的發(fā)展是建立在數(shù)據(jù)倉庫基礎(chǔ)上的,從目前國內(nèi)外數(shù)據(jù)倉庫的建設(shè)表明,數(shù)據(jù)倉庫建設(shè)不是一朝一夕的工作,它需要企業(yè)擁有強(qiáng)大的數(shù)據(jù)源,強(qiáng)大的資金作后盾,同時(shí)要配備一批數(shù)據(jù)倉庫管理,維護(hù)人員進(jìn)行日常工作。對于廣大中小企業(yè)而言,面對剛剛興起的商業(yè)智能,企業(yè)決策者只能在理論上認(rèn)可。那么,是不是中小企業(yè)就根本不需要BI呢?答案是否定的。國內(nèi)中小企業(yè)需要商業(yè)智能,隨著我國經(jīng)濟(jì)的不斷發(fā)展,企業(yè)也在不斷壯大,商業(yè)智能的興起,使企業(yè)看到信息時(shí)代的優(yōu)越性,現(xiàn)有的ERP系統(tǒng)不能滿足決策者的要求,中小企業(yè)迫切希望能應(yīng)用商業(yè)智能給企業(yè)提供幫助。
其原因在于:
1.有關(guān)決策支持的功能分布于ERP的各個(gè)部分中,不利于系統(tǒng)的更新及維護(hù)。企業(yè)的決策需求隨著業(yè)務(wù)需求及市場的變化而不斷發(fā)生變化,在分散的系統(tǒng)中更新、維護(hù)系統(tǒng)遠(yuǎn)遠(yuǎn)不如在集中的系統(tǒng)中方便。
2.較難應(yīng)用OLAF的分析技術(shù)。OLAF技術(shù)為數(shù)據(jù)的快速查詢,分析提供了一種非常好的方法,但分散的系統(tǒng)不利于OLAP技術(shù)的實(shí)現(xiàn)。
3.不利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用。數(shù)據(jù)挖掘技術(shù)是現(xiàn)代人工智能和專家系統(tǒng)必用的技術(shù),是數(shù)據(jù)倉庫和數(shù)據(jù)集市常用的技術(shù),目前多數(shù)企業(yè)的ERP系統(tǒng)在數(shù)據(jù)分析方面是以數(shù)據(jù)庫為基礎(chǔ),數(shù)據(jù)來源不同,不能形成統(tǒng)一的格式,很少建立起自己的數(shù)據(jù)倉庫或數(shù)據(jù)集市,使數(shù)據(jù)挖掘技術(shù)不能很好利用。
4.有關(guān)決策支持的功能分布于ERP的各個(gè)系統(tǒng)中,不能充分發(fā)揮第三方數(shù)據(jù)展示工具的應(yīng)用。在數(shù)據(jù)倉庫的解決方案中,有很多的專用工具可以選擇,而分散的系統(tǒng)造成了工具使用上的難度。
研究意義
基于目前情況,本課題研究意義是把數(shù)據(jù)集市引入商業(yè)智能系統(tǒng)中代替數(shù)據(jù)倉庫,使國內(nèi)的中小企業(yè)也能擁有自己的商業(yè)智能,利用ERP系統(tǒng)提供的大量及時(shí)的數(shù)據(jù)果斷決策,使用少量的投資,獲取更大的回報(bào),抓住機(jī)遇,贏得優(yōu)勢,使企業(yè)生存發(fā)展處于不敗之地。通過引入數(shù)據(jù)集市建立的ERP軟件的商業(yè)智能,它的優(yōu)勢在于:
1.?dāng)?shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉庫,是為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價(jià)途徑。它是具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個(gè)具有戰(zhàn)略意義的應(yīng)用或具體部門級的應(yīng)用,把企業(yè)長期積累的數(shù)據(jù)充分利用。
2.?dāng)?shù)據(jù)集市一般包含有關(guān)某一特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù),可以分布在不同的物理平臺(tái)上,隨著企業(yè)的壯大,當(dāng)更多的數(shù)據(jù)集市加人時(shí),應(yīng)將這些數(shù)據(jù)集市加以集成,最終建立起一種結(jié)構(gòu),即構(gòu)成企業(yè)級數(shù)據(jù)倉庫的數(shù)據(jù)。
相關(guān)理論與技術(shù)
數(shù)據(jù)倉庫
業(yè)界公認(rèn)的數(shù)據(jù)倉庫概念創(chuàng)始人w.H.Iumon在‘建立數(shù)據(jù)倉庫》一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫就是面向主題的、集成的、穩(wěn)定的、不同時(shí)問的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。
數(shù)據(jù)倉庫中的數(shù)據(jù)面向主題與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用相對應(yīng)。主題是一個(gè)在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題對應(yīng)一個(gè)宏觀的分析領(lǐng)域:數(shù)據(jù)倉庫的集成特性是指在數(shù)據(jù)進(jìn)人數(shù)據(jù)倉庫之前,必須經(jīng)過數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉庫的關(guān)鍵步驟,首先要統(tǒng)一原始數(shù)據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用向面向主題的轉(zhuǎn)變:數(shù)據(jù)倉庫的穩(wěn)定性是指數(shù)據(jù)倉庫反映的是歷史數(shù)據(jù)的內(nèi)容,而不是日常事務(wù)處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)加工和集成進(jìn)入數(shù)據(jù)倉庫后是極少或根本不修改的;數(shù)據(jù)倉庫是不同時(shí)間的數(shù)據(jù)集合,它要求數(shù)據(jù)倉庫中的數(shù)據(jù)保存時(shí)限能滿足進(jìn)行決策分析的需要,而且數(shù)據(jù)倉庫中的數(shù)據(jù)都要標(biāo)明該數(shù)據(jù)的歷史時(shí)期。
數(shù)據(jù)倉庫最根本的特點(diǎn)是物理地存放數(shù)據(jù),而且這些數(shù)據(jù)并不是最新的、專有的,而是來源于其它數(shù)據(jù)庫的。數(shù)據(jù)倉庫的建立并不是要取代數(shù)據(jù)庫,它要建立在一個(gè)較全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析,而事務(wù)處理數(shù)據(jù)庫在企業(yè)的信息環(huán)境中承擔(dān)的是日常操作性的任務(wù)。數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一種新的應(yīng)用,而且到目前為止,數(shù)據(jù)倉庫還是用數(shù)據(jù)庫管理系統(tǒng)來管理其中的數(shù)據(jù),
數(shù)據(jù)倉庫的結(jié)構(gòu)
數(shù)據(jù)倉庫是存儲(chǔ)數(shù)據(jù)的一種組織形式,它從傳統(tǒng)數(shù)據(jù)庫中獲得原始數(shù)據(jù),先按輔助決策的主題要求形成當(dāng)前基本數(shù)據(jù)層,再按綜合決策的要求形成綜合數(shù)據(jù)層(又可分為輕度綜合層和高度綜合層)。隨著時(shí)間的推移,由時(shí)間控制機(jī)制將當(dāng)前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層?梢姅(shù)據(jù)倉庫中邏輯結(jié)構(gòu)數(shù)據(jù)由3層到4層數(shù)據(jù)組成,它們均由元數(shù)據(jù)
聯(lián)機(jī)分析處理
聯(lián)機(jī)分析處理(On-Line Analytical Process,OLAP)瑚,是使分析人員,管理人員或執(zhí)行人員能夠從各種角度,對原始數(shù)據(jù)轉(zhuǎn)化出來的,能夠真正為用戶所證明的,并真實(shí)反映企業(yè)維持性的信息進(jìn)行快速,一致,交互的存取,從而獲得對數(shù)據(jù)的更深入得了解的一般軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和數(shù)據(jù)分析工具的集合。
聯(lián)機(jī)分析處理是數(shù)據(jù)倉庫進(jìn)行決策分析的一個(gè)重要概念,是一種共享多維信息的快速分析工具,也稱多維分析。它是一種數(shù)據(jù)分析技術(shù),能夠完成基于某種數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)分析功能。OLAP技術(shù)是對由語意動(dòng)態(tài)對象建立的,以動(dòng)態(tài)微立方結(jié)構(gòu)形式存儲(chǔ)的表進(jìn)行向下鉆取(Drill Down)。向上鉆取(Drill Up),跨越鉆取,切片和切換等操作實(shí)現(xiàn)數(shù)據(jù)的多維分析。完成這些功能和任務(wù)涉及的技術(shù)包括數(shù)據(jù)庫,數(shù)據(jù)倉庫,可視化網(wǎng)絡(luò),數(shù)據(jù)挖掘和領(lǐng)域知識(shí)處理等,系統(tǒng)集成還要處理多種環(huán)境。
在適應(yīng)性方面,有以下幾方面不同:
在維數(shù)交化方面
MOLAP具有較高的預(yù)綜合度,隨維數(shù)的增加,數(shù)據(jù)超立方體的體積增長十分迅速,管理較難,相比之下,ROLAP的預(yù)綜合度較低,管理靈活,維的增加對數(shù)據(jù)集市的影響較小,適應(yīng)性較強(qiáng)。
在數(shù)據(jù)變化方面
由于MOLAP的高效率是建立在預(yù)綜合基礎(chǔ)上的,當(dāng)數(shù)據(jù)變化頻繁時(shí),如陰進(jìn)行預(yù)綜合所需的開銷將十分客觀,它對數(shù)據(jù)變化的適應(yīng)性不如ROi.^P。
在數(shù)據(jù)量方面
作為ROLAP基礎(chǔ)的RDBMS,其發(fā)展歷程要遠(yuǎn)遠(yuǎn)超過MDDB,目前以擁有較強(qiáng)的并行處理能力,能較好的適應(yīng)大數(shù)據(jù)量的運(yùn)算,同時(shí)在對軟硬件環(huán)境的適應(yīng)能力上,也具有明顯的優(yōu)勢。
聯(lián)機(jī)分析處理與數(shù)據(jù)倉庫的關(guān)系
在數(shù)據(jù)倉庫中,OLAP和數(shù)據(jù)倉庫是密不可分的,但是兩者具有不同的概念。數(shù)據(jù)倉庫是一個(gè)包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫,這些歷史數(shù)據(jù)主要用于對企業(yè)的經(jīng)營決策提供分析和支持。數(shù)據(jù)倉庫中的數(shù)據(jù)是不能用于連機(jī)事務(wù)處理系統(tǒng)(OLTP)的,而OLAP技術(shù)則利用數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行聯(lián)機(jī)分析,將復(fù)雜的分析查詢結(jié)果快速地返回用戶。OLAP利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術(shù)對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行組織和匯總,用聯(lián)機(jī)分析和可視化工具對這些數(shù)據(jù)迅速進(jìn)行評價(jià)。從圖2-1中可以發(fā)現(xiàn)OLAP用多維結(jié)構(gòu)表示數(shù)據(jù)倉庫中的數(shù)據(jù),創(chuàng)建組織和匯總數(shù)據(jù)的立方體,這樣才能有效地提高用戶復(fù)雜查詢的要求。因此數(shù)據(jù)倉庫的結(jié)構(gòu)將直接影響立方體的設(shè)計(jì)和構(gòu)造,也就影響OLAP的:工作效率。從OLAP使用的效率角度考慮,在設(shè)計(jì)數(shù)據(jù)倉庫時(shí)應(yīng)該考慮這樣一些因素。
數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)建立在數(shù)據(jù)倉庫之上,一方面能夠提高數(shù)據(jù)倉庫系統(tǒng)的決策支持能力,另一方面,由于數(shù)據(jù)倉庫完成了數(shù)據(jù)的清洗、ETL(抽取,轉(zhuǎn)換,裝載),數(shù)據(jù)挖掘面對的是經(jīng)過初步處理的數(shù)據(jù),更加有利于數(shù)據(jù)挖掘功能的發(fā)揮。與展示企業(yè)歷史和現(xiàn)有信息的靜態(tài)、動(dòng)態(tài)報(bào)表及查詢等分析方法不同,數(shù)據(jù)挖掘是從數(shù)據(jù)庫中智能地尋找模型,從海量數(shù)據(jù)中歸納出有用信息?梢哉f通過商業(yè)智能系統(tǒng),企業(yè)獲得洞察力的主要手段就是數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。
數(shù)據(jù)挖掘技術(shù)的分類
數(shù)據(jù)挖掘技術(shù)充分利用機(jī)器學(xué)習(xí)、人上智能、模糊邏輯、人上神經(jīng)網(wǎng)絡(luò)等方法。按照研究方法的不同,可分為:
①歸納學(xué)習(xí)方法:如信息論方法(決策樹方法),集合論方法(粗集方法,概念樹方法等);
②仿生物技術(shù)方法:如神經(jīng)網(wǎng)絡(luò)方法,遺傳算法;
③公式發(fā)現(xiàn)法:如物理定律發(fā)現(xiàn)系統(tǒng)BACON、經(jīng)驗(yàn)公式發(fā)現(xiàn)系統(tǒng)FI)D;
④統(tǒng)計(jì)分析方法:如相關(guān)分析,回歸分析,因子分析等;
⑤模糊數(shù)學(xué)方法:如模糊評判,模糊聚類等。數(shù)據(jù)挖掘按照功能又可分為描述型數(shù)據(jù)挖掘和預(yù)測型數(shù)據(jù)挖掘兩種。描述型數(shù)據(jù)挖掘包括數(shù)據(jù)總結(jié)、聚類及關(guān)聯(lián)分析等。預(yù)測型數(shù)據(jù)挖掘包括分類、回歸及時(shí)問序列分析等。
下面介紹集中比較典型的數(shù)據(jù)挖掘方法:
(1)數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計(jì)分析。數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計(jì)方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
(2)聚類:聚類分析是根據(jù)物以類聚的原理,將本身沒有類別的樣本聚集成不同的群組,并且對每一個(gè)這樣的組進(jìn)行描述的過程。它的目的是使群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。
聚類分析常用于客戶關(guān)系管理。利用聚類技術(shù),根據(jù)客戶的個(gè)人特征以及消費(fèi)數(shù)據(jù),可以將客戶群體進(jìn)行細(xì)分。例如,可以得到這樣的一個(gè)消費(fèi)群體:女性占91%,全部無子女、年齡在3l到40歲占70%,高消費(fèi)級別的占64%,買過針織品的占91%,買過廚房用品的占89%,買過園藝用品的占79%。針對不同的客戶群,可以實(shí)施不同的營銷和服務(wù)方式,從而提高客戶的滿意度。
對于空間數(shù)據(jù),根據(jù)地理位置以及障礙物的存在情況.可以自動(dòng)進(jìn)行區(qū)域劃分。例如,根據(jù)分布在不同地理位置的ATM機(jī)的情況將居民進(jìn)行區(qū)域劃分,根據(jù)這一信息,可以有效地進(jìn)行ATM機(jī)的設(shè)置規(guī)劃,避免浪費(fèi),同時(shí)也避免失掉每一個(gè)商機(jī)。對于文本數(shù)據(jù),利用聚類技術(shù)可以根據(jù)文檔的內(nèi)容自動(dòng)劃分類別,從而便于文本的檢索。
(3)關(guān)聯(lián)分析:關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個(gè)事件發(fā)生的同時(shí),另一個(gè)事件也經(jīng)常發(fā)生。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性:序列模式與此類似,尋找的是事件之間時(shí)間上的相關(guān)性,如對股票漲跌的分析等。關(guān)聯(lián)分析的重點(diǎn)在于快速發(fā)現(xiàn)那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計(jì)意義。
對于結(jié)構(gòu)化的數(shù)據(jù),以客戶的購買習(xí)慣數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)客戶的關(guān)聯(lián)購買需要。例如,一個(gè)開設(shè)儲(chǔ)蓄賬戶的客戶很可能同時(shí)進(jìn)行債券交易和股票交易,購買紙尿褲的男顧客經(jīng)常同時(shí)購買啤酒等。利用這種知識(shí)可以采取積極的營銷策略,擴(kuò)展客戶購買的產(chǎn)品范圍,吸引更多的客戶。通過調(diào)整商品的布局便于顧客買到經(jīng)常同時(shí)購買的商品,或者通過降低一種商品的價(jià)格來促進(jìn)另一種商品的銷售等。
對于非結(jié)構(gòu)化的數(shù)據(jù),以空間數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性。例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場相鄰的對象等。
(4)分類:目的是構(gòu)造一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。
元數(shù)據(jù)分類
對元數(shù)據(jù)的合理分類,是對其有效管理的前提,目前對于元數(shù)據(jù)分類有很多種,從不同的角度可以將元數(shù)據(jù)分成不同的類蹦。按數(shù)據(jù)類型分為:基礎(chǔ)數(shù)據(jù)元數(shù)據(jù),數(shù)據(jù)處理元數(shù)據(jù):按抽象層次分為:概念元數(shù)據(jù),邏輯元數(shù)據(jù)和物理元數(shù)據(jù):按用戶使用角度來分:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù):按元數(shù)據(jù)來源分為:工具元數(shù)據(jù),資源元數(shù)據(jù),外來元數(shù)據(jù):按應(yīng)用日的分為:管理維護(hù)元數(shù)據(jù),更新元數(shù)據(jù)和分析元數(shù)據(jù),等等。
本文將元數(shù)據(jù)集市中的元數(shù)據(jù)劃分為:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)(technical metadata)是為企業(yè)技術(shù)用戶和IT員工提供支持的元數(shù)據(jù),而業(yè)務(wù)元數(shù)據(jù)(business metadata)是為企業(yè)業(yè)務(wù)用戶提供支持的元數(shù)據(jù)。當(dāng)開發(fā)人員和技術(shù)用戶對企業(yè)應(yīng)用系統(tǒng)進(jìn)行維護(hù)和擴(kuò)展時(shí),技術(shù)元數(shù)據(jù)為他們提供所需的信息。例如,如果企業(yè)需要重新劃分其他地理銷售區(qū)域,信息主管就可以用技術(shù)元數(shù)據(jù)列出所有含有地理銷售數(shù)據(jù)的程序、表和系統(tǒng)。這些信息使主管能夠方便而迅速地估計(jì)出開發(fā)團(tuán)隊(duì)進(jìn)行修改所需要的開發(fā)資源和時(shí)問,還可以幫助確定可能受到影響的所有其它系統(tǒng)。然后開發(fā)人員在實(shí)現(xiàn)新的地理銷售區(qū)域時(shí),可以使用其他技術(shù)元數(shù)據(jù)來幫助定位到具體的代碼。因此,技術(shù)元數(shù)據(jù)對于維護(hù)和改進(jìn)信息系統(tǒng)來說時(shí)至關(guān)重要的。技術(shù)元數(shù)據(jù)還可以幫助IT員工為信息系統(tǒng)的后續(xù)版本制定計(jì)劃,還可以協(xié)助開發(fā)人員實(shí)際地實(shí)現(xiàn)這些變化。如果沒有技術(shù)元數(shù)據(jù),分析和實(shí)現(xiàn)這些變換就會(huì)變成一項(xiàng)困難而費(fèi)時(shí)的任務(wù)。
盡管創(chuàng)建元數(shù)據(jù)源的副本《抽取文件)會(huì)有一些額外的存儲(chǔ)r丌銷,但這些開銷會(huì)相當(dāng)小,因?yàn)樵獢?shù)據(jù)源文件中的數(shù)據(jù)量通常不會(huì)很大。另一方面,單獨(dú)建立抽取層有三個(gè)優(yōu)點(diǎn):
1)時(shí)效性
抽取層對于保持系統(tǒng)中的元數(shù)據(jù)同步非常重要。為了說明這一點(diǎn),可以假定有三張?jiān)獢?shù)據(jù)倉庫表需要從相同的元數(shù)據(jù)源得至0數(shù)據(jù)。如何構(gòu)造一個(gè)進(jìn)程直接從同一數(shù)據(jù)源構(gòu)建這三張?jiān)獢?shù)據(jù)表,當(dāng)執(zhí)行該迸程來構(gòu)建其中一元數(shù)據(jù)表時(shí),此時(shí)的元數(shù)據(jù)源可能已經(jīng)變化了。當(dāng)元數(shù)據(jù)源高度動(dòng)態(tài)變化時(shí),這種情況的可能性會(huì)更大。在不同時(shí)刻讀取元數(shù)據(jù)時(shí),元數(shù)據(jù)倉庫中的數(shù)據(jù)就會(huì)不同步。通過在集成處理過程中一次性創(chuàng)建抽取文件,所有的元數(shù)據(jù)表可由該抽取文件構(gòu)建,這就消除了可能的時(shí)效性問題。
2)擴(kuò)展性
因?yàn)橐獎(jiǎng)?chuàng)建類似于元數(shù)據(jù)源文件或表的抽取文件,所以只需要從元數(shù)據(jù)源一次性地讀取數(shù)據(jù)。如果沒有抽取文件或表,元數(shù)據(jù)倉庫中的每張表都必須分別從元數(shù)據(jù)源中讀取,這并不是開發(fā)人員所期望的。
3)備份
創(chuàng)建抽取文件提供了該元數(shù)據(jù)源的自然備份。因此,如果出現(xiàn)了不得不停止元數(shù)據(jù)集成處理的狀況,那么可以在不影響元數(shù)據(jù)源的情況下輕易地撤消改動(dòng)。 |
1 緒論
商業(yè)智能的發(fā)展
商業(yè)智能是一種綜合運(yùn)用了數(shù)據(jù)倉庫、聯(lián)機(jī)分析和數(shù)據(jù)挖掘技術(shù)來處理和分析數(shù)據(jù)的嶄新技術(shù)。商業(yè)智能這一術(shù)語1989年由Gartner Group的Howard Dresner首次提出,它描述了一系列的概念和方法,通過應(yīng)用基于事實(shí)的支持系統(tǒng)來輔助商業(yè)決策的制定。商業(yè)智能提供使企業(yè)迅速分析數(shù)據(jù)的技術(shù)和方法,包括收集、管理和分析數(shù)據(jù),將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息,然后分發(fā)到企業(yè)各處。商業(yè)智能系統(tǒng)從企業(yè)運(yùn)作的日常數(shù)據(jù)中開發(fā)出結(jié)論性的、基于事實(shí)的和具有可實(shí)旌性的信息,使企業(yè)能夠更快更容易的做出更好的商業(yè)決策。使企業(yè)管理者和決簧者以一種更清晰的角度看待業(yè)務(wù)數(shù)據(jù),提高企業(yè)運(yùn)轉(zhuǎn)效率、增加利潤并建立良好的客戶關(guān)系,使企業(yè)以最短的時(shí)間發(fā)現(xiàn)商業(yè)機(jī)會(huì)捕捉商業(yè)機(jī)遇。如何時(shí)何地進(jìn)入何市場,如何選擇和管理大客戶聯(lián)系,以及如何選擇和有效她推出商品優(yōu)惠策略等。同時(shí)通過提供決策分析能力。使企業(yè)更有效地實(shí)現(xiàn)了財(cái)務(wù)分析、風(fēng)險(xiǎn)管理、詐騙檢測、分銷和后勤管理,以及銷售狀況分析等。
商業(yè)智能系統(tǒng)可以說是一個(gè)智能決策支持系統(tǒng),它不是一種產(chǎn)品或服務(wù),從某種意義上商業(yè)智能是一種概念或者說是一種商業(yè)理念,它是在企業(yè)數(shù)據(jù)倉庫的基礎(chǔ)上,利用數(shù)據(jù)挖掘和信息挖掘工具獲取商業(yè)信息,以輔助和支持商業(yè)決策的全過程。通過商業(yè)智能技術(shù),用戶更充分地了解他們的產(chǎn)品、服務(wù)、客戶以及銷售趨勢。商業(yè)智能在我國尚處于起步階段,商業(yè)智能系統(tǒng)適合應(yīng)用的行業(yè)依次是:零售、保險(xiǎn)、銀行、通信、離散制造、政府、醫(yī)療、分銷、流程制造、教育。
國內(nèi)外研究現(xiàn)狀
隨著2003年12月12日Business Objects公司(簡稱Bo)收購Crystal Decisions所有交易的全部結(jié)束,一個(gè)年?duì)I業(yè)額達(dá)7.36億美元的全球最大的m廠商誕生了。從聽到關(guān)于沃爾瑪超市的“啤酒”與“尿布”的故事,我們知道了BI應(yīng)用可以如此神奇地分析出兩種看似毫不相干的東西之間原來還有著千絲萬縷的聯(lián)系,如今以數(shù)據(jù)倉庫為核心的BI應(yīng)用正在成為國內(nèi)很多用戶們實(shí)施的熱點(diǎn)。據(jù)IDC(Intemational Data Corp.1最新的研究報(bào)告稱,2007年商業(yè)智能系統(tǒng)的市場規(guī)模將翻倍,且在世界范圍超過140億美元,而亞太地區(qū):BI解決方案市場將達(dá)33億美元,這是目前市場價(jià)值12億美元的近3信。世界許多以提供軟件平臺(tái)和工具平臺(tái)的大公司通過多年與企業(yè)的交流,己經(jīng)認(rèn)識(shí)到企業(yè)對商業(yè)智能的迫切需求,紛紛加入到從事商業(yè)智能的研究與開發(fā)上來。IBM建立了專門從事m方案設(shè)計(jì)的研究中心,ORACI丑、微軟等公司紛紛推出了支持Ⅸ開發(fā)和應(yīng)用的軟件系統(tǒng),有的自接進(jìn)入了BI的開發(fā)領(lǐng)域。據(jù)市場分析員介紹,BI己經(jīng)成了企業(yè)信息技術(shù)最為重要并且極具潛力的領(lǐng)域。
在國外己有很多實(shí)施商業(yè)智能的成功案例:AT&T Universal公司通過部署商業(yè)智能解決方案,每年減少信用卡欺詐額高達(dá)8001萬美元:Cadbury巧克力公司借助商業(yè)智能使市場份額很快從28%提升到了30%:美國第二大銀行一花旗銀行(Citibank)在BI系統(tǒng)的幫助下,能夠有效分析其分布于57個(gè)國家的客戶和信息在國內(nèi),商業(yè)智能的應(yīng)用方面還處于剛剛起步階段,但它的需求潛力巨大。在過去兩年里,已經(jīng)有不少國際商業(yè)智能公司進(jìn)入中國,其中有MicroStrategy,BusinessObjects, Cognos等國際知名的傳統(tǒng)的商業(yè)智能軟件廠商,也有一些著名的企業(yè)管理應(yīng)用軟件廠商,比如SAP,qj骨文和冠群等公司投資于分析軟件。國內(nèi)用友、金蝶、創(chuàng)智等廠商近期也推出了這類產(chǎn)品。這些國內(nèi)廠商一方面同國際商業(yè)智能軟件廠商建立良好的合作關(guān)系以維持發(fā)展,另一方面也在積極提升產(chǎn)品和解決方案的內(nèi)在品質(zhì),向客戶提供更完美的決策支持服務(wù),爭取與國外廠商一比高低。BI的發(fā)展得益于相關(guān)技術(shù)的發(fā)展,并行處理系統(tǒng)、廉價(jià)數(shù)據(jù)存儲(chǔ)、新數(shù)據(jù)挖掘算法、神經(jīng)網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)、決策支持技術(shù)、從大量數(shù)據(jù)中發(fā)現(xiàn)其背后潛藏的商業(yè)機(jī)會(huì)等等技術(shù)的發(fā)展。隨著這些技術(shù)的不斷進(jìn)步,必將推動(dòng)商業(yè)智能的發(fā)展和完善。
目前國內(nèi)的m應(yīng)用仍然存在許多問題,主要表現(xiàn)在數(shù)據(jù)分析、知識(shí)發(fā)現(xiàn)能力、效率低,或者缺乏知識(shí)發(fā)現(xiàn),而更像一個(gè)操作型應(yīng)用系統(tǒng)。很難在決策支持方面發(fā)揮BI應(yīng)有的作用。首先應(yīng)該認(rèn)識(shí)到劭發(fā)展、應(yīng)用的總體趨勢,其次多借鑒國外BI成熟的技術(shù)和方法,開發(fā)或不斷完善真正意義上的BI系統(tǒng)。相信本文對國內(nèi)企業(yè)BI系統(tǒng)的研究開發(fā)會(huì)有啟發(fā)。
商韭智能解決方案的核心功能
(1)客戶智能(客戶關(guān)系管理):
提供全方位的客戶信息查詢、分析和監(jiān)控功能。利用客戶智能可幫助企業(yè)制定獲取客戶、保留情況和提升客戶和潤貢獻(xiàn)度的客戶管理策略。客戶智能還可以對客戶滿意度、忠誠度以及客戶生命周期進(jìn)行分析,并通過先進(jìn)的績效管理框架對客戶利潤貢獻(xiàn)度進(jìn)行評估進(jìn)而制定客戶細(xì)分策略。
(2)營銷智能:
通過分析、報(bào)告、管理和監(jiān)控營銷信息來幫助企業(yè)的決策者、營銷專家和分析人員制定戰(zhàn)略性的營銷策略,幫助企業(yè)提高營銷能力。并可以根據(jù)企業(yè)制定的營銷策略進(jìn)行計(jì)算機(jī)仿真,觀察銷售策略是否能達(dá)到預(yù)期的效果。
(3)銷售智能:
提供全面的銷售團(tuán)隊(duì)分析、銷售業(yè)績分析、根源分析和業(yè)績管理來幫助決策者制定銷售策略及對銷售業(yè)務(wù)快速做出市場反應(yīng)。銷售智能還提供很多隨時(shí)可以運(yùn)行的智能報(bào)告和分析手冊,評估銷售趨勢、市場開拓活動(dòng)、產(chǎn)品利潤、產(chǎn)品生存周期以及促銷效果。
(4)服務(wù)智能:
分析與服務(wù)相關(guān)活動(dòng)的全面信息,監(jiān)控服務(wù)質(zhì)量,幫助企業(yè)制定更合理高效的服務(wù)策略。該智能進(jìn)行閉環(huán)式的跟蹤反饋,并與業(yè)務(wù)人員的工作績效直接掛鉤,起到指導(dǎo)和監(jiān)督的作用。
(5)財(cái)務(wù)智能:
提供易于使用的財(cái)務(wù)盈利狀況分析報(bào)表、現(xiàn)金流分析報(bào)表、現(xiàn)金狀況分析報(bào)表、資產(chǎn)管理分析報(bào)表、項(xiàng)目分析報(bào)表等,方便決策者迅速地分析財(cái)務(wù)信息。
商業(yè)智能能為企業(yè)帶來效益
商業(yè)智能幫助企業(yè)的管理層進(jìn)行快速,準(zhǔn)確的決策,迅速的發(fā)現(xiàn)企業(yè)中的問題,提示管理人員加以解決.但商業(yè)智能軟件系統(tǒng)能代替管理人員進(jìn)行決策,不能自動(dòng)處理企業(yè)運(yùn)行過程中遇到的問題.因此商業(yè)智能系統(tǒng)并不能為企業(yè)帶來直接的經(jīng)濟(jì)效益,但必須看到,商業(yè)智能為企業(yè)帶來的是一種經(jīng)過科學(xué)武裝的管理思維,給整個(gè)企業(yè)帶來的是決策的快速性和準(zhǔn)確性,發(fā)現(xiàn)問題的及時(shí)性,以及發(fā)現(xiàn)那些對手未發(fā)現(xiàn)的潛在的知識(shí)和規(guī)律,而這些信息是企業(yè)產(chǎn)生經(jīng)濟(jì)效益的基礎(chǔ),不能快速,準(zhǔn)確的指定決策方針等于將市場送給對手,不能及時(shí)發(fā)現(xiàn)業(yè)務(wù)種的潛在信息等于浪費(fèi)自己的資源.比如:通過對銷售數(shù)據(jù)的分析可發(fā)現(xiàn)各類客戶的特征和喜歡購買商品之間的聯(lián)系,這樣就可進(jìn)行更有針對性的精確的促銷活動(dòng)或向客戶提供更具有個(gè)性的服務(wù)等,這都會(huì)為企業(yè)帶來直接的經(jīng)濟(jì)效益.如果把“商業(yè)智能“技術(shù)應(yīng)用剄ERP系統(tǒng)中,并對ERP系統(tǒng)積累的數(shù)據(jù)進(jìn)行分析處理,使數(shù)據(jù)倉庫建立在這些數(shù)據(jù)之上,結(jié)合0LAP技術(shù)及數(shù)據(jù)挖掘技術(shù),將非直觀的、隱含的信息和知識(shí)以直觀的形式描述,輔助領(lǐng)導(dǎo)層進(jìn)行決策分析,幫助用戶發(fā)現(xiàn)ERP系統(tǒng)積累的數(shù)據(jù)的潛在價(jià)值。可以這么說,普通的ERP系統(tǒng)能夠幫助用戶規(guī)范企業(yè)的管理,而擁有強(qiáng)大數(shù)據(jù)分析功能的ERP系統(tǒng)則能夠使用戶從這種規(guī)范的管理中獲得更大的效益。它也是當(dāng)前ERP系統(tǒng)研究的熱點(diǎn)。
中小企業(yè)對商業(yè)智能需求的迫切性
隨著信息技術(shù)的高速發(fā)展,企業(yè)信息處理量不斷加大,企業(yè)資源管理的復(fù)雜化也不斷加大,這要求信息的處理有更高的效率,信息的集成度要求擴(kuò)大到企業(yè)的整個(gè)資源的利用和管理,ERP(Enterprise Resource Planning-企業(yè)資源計(jì)劃正是為了適應(yīng)企業(yè)的需求而產(chǎn)生。激烈的市場競爭使越來越多的國內(nèi)企業(yè)開始關(guān)注ERP系統(tǒng),而且在企業(yè)中建立起自己的ERP系統(tǒng),并在多年的系統(tǒng)運(yùn)行中積累了豐富的數(shù)據(jù)。隨著計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展和企業(yè)走向電子商務(wù)的趨勢賦于了ERP許多新的發(fā)展趨勢,要求把數(shù)據(jù)挖掘和聯(lián)機(jī)分析技術(shù)應(yīng)用到ERP系統(tǒng)中,使其具有商業(yè)智能。然而,目前多數(shù)國內(nèi)企業(yè)的礤瞪系統(tǒng)仍停留在功能全面的MIS系統(tǒng)層面,尤其沒能夠達(dá)到真正的ERP所期望的輔助決策分析的功能。企業(yè)面對日益積累的龐大數(shù)據(jù),渴望尋求新的途徑來迎接信息時(shí)代的挑戰(zhàn)。
商業(yè)智能的出現(xiàn),則可以很好的解決這個(gè)鬩題,并且順應(yīng)時(shí)代的的需求,利用現(xiàn)有的業(yè)務(wù)信息提取和組織有用的信息,能夠幫助用戶在加強(qiáng)管理、促進(jìn)營銷和企業(yè)發(fā)展方面做出及時(shí)、正確的決策。然而,根據(jù)調(diào)查數(shù)據(jù)顯示,中國的BI市場主要集中在電信、金融、稅務(wù)、保險(xiǎn)等商端市場,對于企業(yè)來說,也僅僅少數(shù)規(guī)模較大的企業(yè)用到了BI,究其原因是:
首先是ERP開發(fā)商沒有在BI這個(gè)產(chǎn)品上投入研發(fā)。我們看國內(nèi)最大的兩家ERP廠商:用友和金蝶,,雖然他們的產(chǎn)品中都加入了自己研發(fā)的管理數(shù)據(jù)倉庫,但都屬于一個(gè)概念性的模塊,沒有實(shí)際的銷售。那為什么他們不在這個(gè)上面投入研發(fā)力量呢?原因又有二,其一,BI研發(fā)要求相對ERP更為精深的技術(shù),而且,需要更為專業(yè)的需求人員。其二,在用友或金蝶看來,中國的ERP也才剛剛進(jìn)入到普及化的初級階段,國內(nèi)9096的企業(yè)屬于中小型的,BI的需求還不明顯,且它們多數(shù)不具備建立數(shù)據(jù)倉庫的能力。
其次是中小企業(yè)在BI上一次性資金投入少,但對短期回報(bào)要求高。中小企業(yè)由于規(guī)模有限,不可能對企業(yè)的信息化做大的資金投入,尤其是軟件方面,一次性投入幾十萬元人民幣,對多數(shù)中小企業(yè)來說就是一個(gè)非常龐大的數(shù)字了,它們也不可能向大型企業(yè)那樣幾個(gè)月,甚至幾年后再計(jì)算收益,因此更希望在投入的短時(shí)間內(nèi)取得效果,而且效果越明顯越好。然而,商業(yè)智能的發(fā)展是建立在數(shù)據(jù)倉庫基礎(chǔ)上的,從目前國內(nèi)外數(shù)據(jù)倉庫的建設(shè)表明,數(shù)據(jù)倉庫建設(shè)不是一朝一夕的工作,它需要企業(yè)擁有強(qiáng)大的數(shù)據(jù)源,強(qiáng)大的資金作后盾,同時(shí)要配備一批數(shù)據(jù)倉庫管理,維護(hù)人員進(jìn)行日常工作。對于廣大中小企業(yè)而言,面對剛剛興起的商業(yè)智能,企業(yè)決策者只能在理論上認(rèn)可。那么,是不是中小企業(yè)就根本不需要BI呢?答案是否定的。國內(nèi)中小企業(yè)需要商業(yè)智能,隨著我國經(jīng)濟(jì)的不斷發(fā)展,企業(yè)也在不斷壯大,商業(yè)智能的興起,使企業(yè)看到信息時(shí)代的優(yōu)越性,現(xiàn)有的ERP系統(tǒng)不能滿足決策者的要求,中小企業(yè)迫切希望能應(yīng)用商業(yè)智能給企業(yè)提供幫助。
其原因在于:
1.有關(guān)決策支持的功能分布于ERP的各個(gè)部分中,不利于系統(tǒng)的更新及維護(hù)。企業(yè)的決策需求隨著業(yè)務(wù)需求及市場的變化而不斷發(fā)生變化,在分散的系統(tǒng)中更新、維護(hù)系統(tǒng)遠(yuǎn)遠(yuǎn)不如在集中的系統(tǒng)中方便。
2.較難應(yīng)用OLAF的分析技術(shù)。OLAF技術(shù)為數(shù)據(jù)的快速查詢,分析提供了一種非常好的方法,但分散的系統(tǒng)不利于OLAP技術(shù)的實(shí)現(xiàn)。
3.不利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用。數(shù)據(jù)挖掘技術(shù)是現(xiàn)代人工智能和專家系統(tǒng)必用的技術(shù),是數(shù)據(jù)倉庫和數(shù)據(jù)集市常用的技術(shù),目前多數(shù)企業(yè)的ERP系統(tǒng)在數(shù)據(jù)分析方面是以數(shù)據(jù)庫為基礎(chǔ),數(shù)據(jù)來源不同,不能形成統(tǒng)一的格式,很少建立起自己的數(shù)據(jù)倉庫或數(shù)據(jù)集市,使數(shù)據(jù)挖掘技術(shù)不能很好利用。
4.有關(guān)決策支持的功能分布于ERP的各個(gè)系統(tǒng)中,不能充分發(fā)揮第三方數(shù)據(jù)展示工具的應(yīng)用。在數(shù)據(jù)倉庫的解決方案中,有很多的專用工具可以選擇,而分散的系統(tǒng)造成了工具使用上的難度。
研究意義
基于目前情況,本課題研究意義是把數(shù)據(jù)集市引入商業(yè)智能系統(tǒng)中代替數(shù)據(jù)倉庫,使國內(nèi)的中小企業(yè)也能擁有自己的商業(yè)智能,利用ERP系統(tǒng)提供的大量及時(shí)的數(shù)據(jù)果斷決策,使用少量的投資,獲取更大的回報(bào),抓住機(jī)遇,贏得優(yōu)勢,使企業(yè)生存發(fā)展處于不敗之地。通過引入數(shù)據(jù)集市建立的ERP軟件的商業(yè)智能,它的優(yōu)勢在于:
1.?dāng)?shù)據(jù)集市是一種更小、更集中的數(shù)據(jù)倉庫,是為企業(yè)提供分析商業(yè)數(shù)據(jù)的一條廉價(jià)途徑。它是具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個(gè)具有戰(zhàn)略意義的應(yīng)用或具體部門級的應(yīng)用,把企業(yè)長期積累的數(shù)據(jù)充分利用。
2.?dāng)?shù)據(jù)集市一般包含有關(guān)某一特定業(yè)務(wù)領(lǐng)域的數(shù)據(jù),可以分布在不同的物理平臺(tái)上,隨著企業(yè)的壯大,當(dāng)更多的數(shù)據(jù)集市加人時(shí),應(yīng)將這些數(shù)據(jù)集市加以集成,最終建立起一種結(jié)構(gòu),即構(gòu)成企業(yè)級數(shù)據(jù)倉庫的數(shù)據(jù)。
相關(guān)理論與技術(shù)
數(shù)據(jù)倉庫
業(yè)界公認(rèn)的數(shù)據(jù)倉庫概念創(chuàng)始人w.H.Iumon在‘建立數(shù)據(jù)倉庫》一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫就是面向主題的、集成的、穩(wěn)定的、不同時(shí)問的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。
數(shù)據(jù)倉庫中的數(shù)據(jù)面向主題與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用相對應(yīng)。主題是一個(gè)在較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題對應(yīng)一個(gè)宏觀的分析領(lǐng)域:數(shù)據(jù)倉庫的集成特性是指在數(shù)據(jù)進(jìn)人數(shù)據(jù)倉庫之前,必須經(jīng)過數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉庫的關(guān)鍵步驟,首先要統(tǒng)一原始數(shù)據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用向面向主題的轉(zhuǎn)變:數(shù)據(jù)倉庫的穩(wěn)定性是指數(shù)據(jù)倉庫反映的是歷史數(shù)據(jù)的內(nèi)容,而不是日常事務(wù)處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)加工和集成進(jìn)入數(shù)據(jù)倉庫后是極少或根本不修改的;數(shù)據(jù)倉庫是不同時(shí)間的數(shù)據(jù)集合,它要求數(shù)據(jù)倉庫中的數(shù)據(jù)保存時(shí)限能滿足進(jìn)行決策分析的需要,而且數(shù)據(jù)倉庫中的數(shù)據(jù)都要標(biāo)明該數(shù)據(jù)的歷史時(shí)期。
數(shù)據(jù)倉庫最根本的特點(diǎn)是物理地存放數(shù)據(jù),而且這些數(shù)據(jù)并不是最新的、專有的,而是來源于其它數(shù)據(jù)庫的。數(shù)據(jù)倉庫的建立并不是要取代數(shù)據(jù)庫,它要建立在一個(gè)較全面和完善的信息應(yīng)用的基礎(chǔ)上,用于支持高層決策分析,而事務(wù)處理數(shù)據(jù)庫在企業(yè)的信息環(huán)境中承擔(dān)的是日常操作性的任務(wù)。數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一種新的應(yīng)用,而且到目前為止,數(shù)據(jù)倉庫還是用數(shù)據(jù)庫管理系統(tǒng)來管理其中的數(shù)據(jù),
數(shù)據(jù)倉庫的結(jié)構(gòu)
數(shù)據(jù)倉庫是存儲(chǔ)數(shù)據(jù)的一種組織形式,它從傳統(tǒng)數(shù)據(jù)庫中獲得原始數(shù)據(jù),先按輔助決策的主題要求形成當(dāng)前基本數(shù)據(jù)層,再按綜合決策的要求形成綜合數(shù)據(jù)層(又可分為輕度綜合層和高度綜合層)。隨著時(shí)間的推移,由時(shí)間控制機(jī)制將當(dāng)前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層?梢姅(shù)據(jù)倉庫中邏輯結(jié)構(gòu)數(shù)據(jù)由3層到4層數(shù)據(jù)組成,它們均由元數(shù)據(jù)
聯(lián)機(jī)分析處理
聯(lián)機(jī)分析處理(On-Line Analytical Process,OLAP)瑚,是使分析人員,管理人員或執(zhí)行人員能夠從各種角度,對原始數(shù)據(jù)轉(zhuǎn)化出來的,能夠真正為用戶所證明的,并真實(shí)反映企業(yè)維持性的信息進(jìn)行快速,一致,交互的存取,從而獲得對數(shù)據(jù)的更深入得了解的一般軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和數(shù)據(jù)分析工具的集合。
聯(lián)機(jī)分析處理是數(shù)據(jù)倉庫進(jìn)行決策分析的一個(gè)重要概念,是一種共享多維信息的快速分析工具,也稱多維分析。它是一種數(shù)據(jù)分析技術(shù),能夠完成基于某種數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)分析功能。OLAP技術(shù)是對由語意動(dòng)態(tài)對象建立的,以動(dòng)態(tài)微立方結(jié)構(gòu)形式存儲(chǔ)的表進(jìn)行向下鉆取(Drill Down)。向上鉆取(Drill Up),跨越鉆取,切片和切換等操作實(shí)現(xiàn)數(shù)據(jù)的多維分析。完成這些功能和任務(wù)涉及的技術(shù)包括數(shù)據(jù)庫,數(shù)據(jù)倉庫,可視化網(wǎng)絡(luò),數(shù)據(jù)挖掘和領(lǐng)域知識(shí)處理等,系統(tǒng)集成還要處理多種環(huán)境。
在適應(yīng)性方面,有以下幾方面不同:
在維數(shù)交化方面
MOLAP具有較高的預(yù)綜合度,隨維數(shù)的增加,數(shù)據(jù)超立方體的體積增長十分迅速,管理較難,相比之下,ROLAP的預(yù)綜合度較低,管理靈活,維的增加對數(shù)據(jù)集市的影響較小,適應(yīng)性較強(qiáng)。
在數(shù)據(jù)變化方面
由于MOLAP的高效率是建立在預(yù)綜合基礎(chǔ)上的,當(dāng)數(shù)據(jù)變化頻繁時(shí),如陰進(jìn)行預(yù)綜合所需的開銷將十分客觀,它對數(shù)據(jù)變化的適應(yīng)性不如ROi.^P。
在數(shù)據(jù)量方面
作為ROLAP基礎(chǔ)的RDBMS,其發(fā)展歷程要遠(yuǎn)遠(yuǎn)超過MDDB,目前以擁有較強(qiáng)的并行處理能力,能較好的適應(yīng)大數(shù)據(jù)量的運(yùn)算,同時(shí)在對軟硬件環(huán)境的適應(yīng)能力上,也具有明顯的優(yōu)勢。
聯(lián)機(jī)分析處理與數(shù)據(jù)倉庫的關(guān)系
在數(shù)據(jù)倉庫中,OLAP和數(shù)據(jù)倉庫是密不可分的,但是兩者具有不同的概念。數(shù)據(jù)倉庫是一個(gè)包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫,這些歷史數(shù)據(jù)主要用于對企業(yè)的經(jīng)營決策提供分析和支持。數(shù)據(jù)倉庫中的數(shù)據(jù)是不能用于連機(jī)事務(wù)處理系統(tǒng)(OLTP)的,而OLAP技術(shù)則利用數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行聯(lián)機(jī)分析,將復(fù)雜的分析查詢結(jié)果快速地返回用戶。OLAP利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術(shù)對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行組織和匯總,用聯(lián)機(jī)分析和可視化工具對這些數(shù)據(jù)迅速進(jìn)行評價(jià)。從圖2-1中可以發(fā)現(xiàn)OLAP用多維結(jié)構(gòu)表示數(shù)據(jù)倉庫中的數(shù)據(jù),創(chuàng)建組織和匯總數(shù)據(jù)的立方體,這樣才能有效地提高用戶復(fù)雜查詢的要求。因此數(shù)據(jù)倉庫的結(jié)構(gòu)將直接影響立方體的設(shè)計(jì)和構(gòu)造,也就影響OLAP的:工作效率。從OLAP使用的效率角度考慮,在設(shè)計(jì)數(shù)據(jù)倉庫時(shí)應(yīng)該考慮這樣一些因素。
數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)建立在數(shù)據(jù)倉庫之上,一方面能夠提高數(shù)據(jù)倉庫系統(tǒng)的決策支持能力,另一方面,由于數(shù)據(jù)倉庫完成了數(shù)據(jù)的清洗、ETL(抽取,轉(zhuǎn)換,裝載),數(shù)據(jù)挖掘面對的是經(jīng)過初步處理的數(shù)據(jù),更加有利于數(shù)據(jù)挖掘功能的發(fā)揮。與展示企業(yè)歷史和現(xiàn)有信息的靜態(tài)、動(dòng)態(tài)報(bào)表及查詢等分析方法不同,數(shù)據(jù)挖掘是從數(shù)據(jù)庫中智能地尋找模型,從海量數(shù)據(jù)中歸納出有用信息?梢哉f通過商業(yè)智能系統(tǒng),企業(yè)獲得洞察力的主要手段就是數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。
數(shù)據(jù)挖掘技術(shù)的分類
數(shù)據(jù)挖掘技術(shù)充分利用機(jī)器學(xué)習(xí)、人上智能、模糊邏輯、人上神經(jīng)網(wǎng)絡(luò)等方法。按照研究方法的不同,可分為:
①歸納學(xué)習(xí)方法:如信息論方法(決策樹方法),集合論方法(粗集方法,概念樹方法等);
②仿生物技術(shù)方法:如神經(jīng)網(wǎng)絡(luò)方法,遺傳算法;
③公式發(fā)現(xiàn)法:如物理定律發(fā)現(xiàn)系統(tǒng)BACON、經(jīng)驗(yàn)公式發(fā)現(xiàn)系統(tǒng)FI)D;
④統(tǒng)計(jì)分析方法:如相關(guān)分析,回歸分析,因子分析等;
⑤模糊數(shù)學(xué)方法:如模糊評判,模糊聚類等。數(shù)據(jù)挖掘按照功能又可分為描述型數(shù)據(jù)挖掘和預(yù)測型數(shù)據(jù)挖掘兩種。描述型數(shù)據(jù)挖掘包括數(shù)據(jù)總結(jié)、聚類及關(guān)聯(lián)分析等。預(yù)測型數(shù)據(jù)挖掘包括分類、回歸及時(shí)問序列分析等。
下面介紹集中比較典型的數(shù)據(jù)挖掘方法:
(1)數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計(jì)分析。數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計(jì)方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
(2)聚類:聚類分析是根據(jù)物以類聚的原理,將本身沒有類別的樣本聚集成不同的群組,并且對每一個(gè)這樣的組進(jìn)行描述的過程。它的目的是使群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。
聚類分析常用于客戶關(guān)系管理。利用聚類技術(shù),根據(jù)客戶的個(gè)人特征以及消費(fèi)數(shù)據(jù),可以將客戶群體進(jìn)行細(xì)分。例如,可以得到這樣的一個(gè)消費(fèi)群體:女性占91%,全部無子女、年齡在3l到40歲占70%,高消費(fèi)級別的占64%,買過針織品的占91%,買過廚房用品的占89%,買過園藝用品的占79%。針對不同的客戶群,可以實(shí)施不同的營銷和服務(wù)方式,從而提高客戶的滿意度。
對于空間數(shù)據(jù),根據(jù)地理位置以及障礙物的存在情況.可以自動(dòng)進(jìn)行區(qū)域劃分。例如,根據(jù)分布在不同地理位置的ATM機(jī)的情況將居民進(jìn)行區(qū)域劃分,根據(jù)這一信息,可以有效地進(jìn)行ATM機(jī)的設(shè)置規(guī)劃,避免浪費(fèi),同時(shí)也避免失掉每一個(gè)商機(jī)。對于文本數(shù)據(jù),利用聚類技術(shù)可以根據(jù)文檔的內(nèi)容自動(dòng)劃分類別,從而便于文本的檢索。
(3)關(guān)聯(lián)分析:關(guān)聯(lián)分析主要用于發(fā)現(xiàn)不同事件之間的關(guān)聯(lián)性,即一個(gè)事件發(fā)生的同時(shí),另一個(gè)事件也經(jīng)常發(fā)生。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性:序列模式與此類似,尋找的是事件之間時(shí)間上的相關(guān)性,如對股票漲跌的分析等。關(guān)聯(lián)分析的重點(diǎn)在于快速發(fā)現(xiàn)那些有實(shí)用價(jià)值的關(guān)聯(lián)發(fā)生的事件。其主要依據(jù)是事件發(fā)生的概率和條件概率應(yīng)該符合一定的統(tǒng)計(jì)意義。
對于結(jié)構(gòu)化的數(shù)據(jù),以客戶的購買習(xí)慣數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)客戶的關(guān)聯(lián)購買需要。例如,一個(gè)開設(shè)儲(chǔ)蓄賬戶的客戶很可能同時(shí)進(jìn)行債券交易和股票交易,購買紙尿褲的男顧客經(jīng)常同時(shí)購買啤酒等。利用這種知識(shí)可以采取積極的營銷策略,擴(kuò)展客戶購買的產(chǎn)品范圍,吸引更多的客戶。通過調(diào)整商品的布局便于顧客買到經(jīng)常同時(shí)購買的商品,或者通過降低一種商品的價(jià)格來促進(jìn)另一種商品的銷售等。
對于非結(jié)構(gòu)化的數(shù)據(jù),以空間數(shù)據(jù)為例,利用關(guān)聯(lián)分析,可以發(fā)現(xiàn)地理位置的關(guān)聯(lián)性。例如,85%的靠近高速公路的大城鎮(zhèn)與水相鄰,或者發(fā)現(xiàn)通常與高爾夫球場相鄰的對象等。
(4)分類:目的是構(gòu)造一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。
元數(shù)據(jù)分類
對元數(shù)據(jù)的合理分類,是對其有效管理的前提,目前對于元數(shù)據(jù)分類有很多種,從不同的角度可以將元數(shù)據(jù)分成不同的類蹦。按數(shù)據(jù)類型分為:基礎(chǔ)數(shù)據(jù)元數(shù)據(jù),數(shù)據(jù)處理元數(shù)據(jù):按抽象層次分為:概念元數(shù)據(jù),邏輯元數(shù)據(jù)和物理元數(shù)據(jù):按用戶使用角度來分:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù):按元數(shù)據(jù)來源分為:工具元數(shù)據(jù),資源元數(shù)據(jù),外來元數(shù)據(jù):按應(yīng)用日的分為:管理維護(hù)元數(shù)據(jù),更新元數(shù)據(jù)和分析元數(shù)據(jù),等等。
本文將元數(shù)據(jù)集市中的元數(shù)據(jù)劃分為:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)(technical metadata)是為企業(yè)技術(shù)用戶和IT員工提供支持的元數(shù)據(jù),而業(yè)務(wù)元數(shù)據(jù)(business metadata)是為企業(yè)業(yè)務(wù)用戶提供支持的元數(shù)據(jù)。當(dāng)開發(fā)人員和技術(shù)用戶對企業(yè)應(yīng)用系統(tǒng)進(jìn)行維護(hù)和擴(kuò)展時(shí),技術(shù)元數(shù)據(jù)為他們提供所需的信息。例如,如果企業(yè)需要重新劃分其他地理銷售區(qū)域,信息主管就可以用技術(shù)元數(shù)據(jù)列出所有含有地理銷售數(shù)據(jù)的程序、表和系統(tǒng)。這些信息使主管能夠方便而迅速地估計(jì)出開發(fā)團(tuán)隊(duì)進(jìn)行修改所需要的開發(fā)資源和時(shí)問,還可以幫助確定可能受到影響的所有其它系統(tǒng)。然后開發(fā)人員在實(shí)現(xiàn)新的地理銷售區(qū)域時(shí),可以使用其他技術(shù)元數(shù)據(jù)來幫助定位到具體的代碼。因此,技術(shù)元數(shù)據(jù)對于維護(hù)和改進(jìn)信息系統(tǒng)來說時(shí)至關(guān)重要的。技術(shù)元數(shù)據(jù)還可以幫助IT員工為信息系統(tǒng)的后續(xù)版本制定計(jì)劃,還可以協(xié)助開發(fā)人員實(shí)際地實(shí)現(xiàn)這些變化。如果沒有技術(shù)元數(shù)據(jù),分析和實(shí)現(xiàn)這些變換就會(huì)變成一項(xiàng)困難而費(fèi)時(shí)的任務(wù)。
盡管創(chuàng)建元數(shù)據(jù)源的副本《抽取文件)會(huì)有一些額外的存儲(chǔ)r丌銷,但這些開銷會(huì)相當(dāng)小,因?yàn)樵獢?shù)據(jù)源文件中的數(shù)據(jù)量通常不會(huì)很大。另一方面,單獨(dú)建立抽取層有三個(gè)優(yōu)點(diǎn):
1)時(shí)效性
抽取層對于保持系統(tǒng)中的元數(shù)據(jù)同步非常重要。為了說明這一點(diǎn),可以假定有三張?jiān)獢?shù)據(jù)倉庫表需要從相同的元數(shù)據(jù)源得至0數(shù)據(jù)。如何構(gòu)造一個(gè)進(jìn)程直接從同一數(shù)據(jù)源構(gòu)建這三張?jiān)獢?shù)據(jù)表,當(dāng)執(zhí)行該迸程來構(gòu)建其中一元數(shù)據(jù)表時(shí),此時(shí)的元數(shù)據(jù)源可能已經(jīng)變化了。當(dāng)元數(shù)據(jù)源高度動(dòng)態(tài)變化時(shí),這種情況的可能性會(huì)更大。在不同時(shí)刻讀取元數(shù)據(jù)時(shí),元數(shù)據(jù)倉庫中的數(shù)據(jù)就會(huì)不同步。通過在集成處理過程中一次性創(chuàng)建抽取文件,所有的元數(shù)據(jù)表可由該抽取文件構(gòu)建,這就消除了可能的時(shí)效性問題。
2)擴(kuò)展性
因?yàn)橐獎(jiǎng)?chuàng)建類似于元數(shù)據(jù)源文件或表的抽取文件,所以只需要從元數(shù)據(jù)源一次性地讀取數(shù)據(jù)。如果沒有抽取文件或表,元數(shù)據(jù)倉庫中的每張表都必須分別從元數(shù)據(jù)源中讀取,這并不是開發(fā)人員所期望的。
3)備份
創(chuàng)建抽取文件提供了該元數(shù)據(jù)源的自然備份。因此,如果出現(xiàn)了不得不停止元數(shù)據(jù)集成處理的狀況,那么可以在不影響元數(shù)據(jù)源的情況下輕易地撤消改動(dòng)。 |
|
|