一 、 引言
在激烈的市場(chǎng)競(jìng)爭(zhēng)環(huán)境中,一個(gè)企業(yè)如果要生存和發(fā)展,就必需了解市場(chǎng).了解客戶樹立“以市場(chǎng)為導(dǎo)向,以客戶為中心”的經(jīng)營(yíng)理念。汽車銷售企業(yè)作為服務(wù)業(yè)尤其如此面對(duì)瞬息萬變的市場(chǎng),多變的客戶,應(yīng)用信息技術(shù)為營(yíng)銷服務(wù),建立客戶關(guān)系管理系統(tǒng)等不失為有效途徑。而數(shù)據(jù)挖掘技術(shù)在客戶分析方面有優(yōu)勢(shì)。在營(yíng)銷過程中市場(chǎng)調(diào)查是十分重要的.市場(chǎng)調(diào)查將為營(yíng)銷策略,廣告的投放提供依據(jù)面對(duì)市場(chǎng)調(diào)查取得的大量紛雜、無序的數(shù)據(jù),利用商業(yè)智能軟件的數(shù)據(jù)挖掘技術(shù)進(jìn)行處理,將會(huì)起到良好的結(jié)果。
二、 商業(yè)智能軟件
商業(yè)智能 (BI,BusinessIn telligence)又稱商務(wù)智能,就是一種將數(shù)據(jù)轉(zhuǎn)變?yōu)樾畔?、信息轉(zhuǎn)變成知識(shí)的工具,并且這種工具能夠在恰當(dāng)?shù)臅r(shí)候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜?。商業(yè)智能定義為下列軟件工具的集合。
1.簡(jiǎn)單的查詢和報(bào)告工具。專門用來支持初級(jí)用戶的原始數(shù)據(jù)訪問.不包括適用于專業(yè)人士的成品報(bào)告生成工具。在這一層次,商業(yè)智能僅僅是把信息進(jìn)行粗加工。
2.在線分析處理。提供多維數(shù)據(jù)管理環(huán)境,其典型的應(yīng)用是對(duì)商業(yè)問題的建模與商業(yè)數(shù)據(jù)分析。
3.經(jīng)理信息系統(tǒng)。這類系統(tǒng)的用戶希望能夠在不太費(fèi)力的情況下.從系統(tǒng)中獲取大多數(shù)信息。
4.數(shù)據(jù)集 市和數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品。包括數(shù)據(jù)清洗、數(shù)據(jù)抽取、轉(zhuǎn)換、載入、數(shù)據(jù)管理和數(shù)據(jù)存取等方面的軟件。
5.數(shù)據(jù)挖掘(DataM ining)軟件。使用諸如決策樹、神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納等技術(shù)r用來發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系,做出基于數(shù)據(jù)的推斷。數(shù)據(jù)挖掘是通過仔細(xì)分析大量數(shù)據(jù)來揭示有意義的新的關(guān)系、模式和趨勢(shì)的過程。它使用模式認(rèn)知技術(shù)、統(tǒng)計(jì)技術(shù)和數(shù)學(xué)技術(shù)。數(shù)據(jù)挖掘的目的是為決策建模即根據(jù)過去活動(dòng)的分析預(yù)測(cè)將來的行為。比較常見的數(shù)據(jù)挖掘算法有:聚類分析、決策樹、神經(jīng)網(wǎng)絡(luò)、規(guī)則歸納。一般比較好的數(shù)據(jù)挖掘工具都會(huì)支持這幾種算法。
三、 決策樹與IBM DB2 Intelligent Miner
決策樹方法起源于概念學(xué)習(xí)系統(tǒng),然后發(fā)展了ID3方法并達(dá)到高峰最后又演化為能處理C4.5。
連續(xù)屬性的決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的數(shù)據(jù),構(gòu)造的結(jié)果是一棵二叉或多叉樹。二叉樹的內(nèi)部節(jié)點(diǎn)(非葉子節(jié)點(diǎn))一般表示為一個(gè)邏輯判斷如形式為(ai=vi)的邏輯判斷,其中ai是屬性v.是該屬性的某個(gè)屬性值;樹的邊是邏輯判斷的分支結(jié)果。多叉樹的內(nèi)部節(jié)點(diǎn)是屬性.邊是該屬性的所有取值有幾個(gè)屬性值,就有幾條邊。樹的葉子節(jié)點(diǎn)都是類別標(biāo)記。構(gòu)造 決 策 樹的方法是采用自上而下的遞歸構(gòu)造。以多叉樹為例它的構(gòu)造思路是如果訓(xùn)練數(shù)據(jù)集合中的所有數(shù)據(jù)是同類的,則將之作為葉子節(jié)點(diǎn),節(jié)點(diǎn)內(nèi)容即是該類別標(biāo)記否則,根據(jù)某種策略選擇一個(gè)屬性按照屬性的各個(gè)取值把數(shù)據(jù)集合劃分為若干子集合使得每個(gè)子集上的所有數(shù)據(jù)在該屬性上具有同樣的屬性值;然后再依次遞歸處理各個(gè)子集。這種思路實(shí)際上就是“分而治之“(Divide一and一conquer)的道理。二叉樹的原理與此的差別僅在于要選擇一個(gè)好的邏輯判斷。在生成的決策樹中可以建立一個(gè)規(guī)則基。一個(gè)規(guī)則基包含一組規(guī)則.每一條規(guī)則對(duì)應(yīng)決策樹的一條不同路徑這條路徑代表它經(jīng)過節(jié)點(diǎn)所表示的條件的一條連接。IBM 的 Intenlligent M ine:是市場(chǎng)上最強(qiáng)大和最有可伸縮性的工具之一正在競(jìng)爭(zhēng)數(shù)據(jù)挖掘工具市場(chǎng)的領(lǐng)導(dǎo)地位,它提供了最廣泛的數(shù)據(jù)挖掘技術(shù)和算法在數(shù)據(jù)規(guī)模和計(jì)算性能方面具有非常高的可伸縮性Intellligent Miner支持分類、預(yù)測(cè)、關(guān)聯(lián)規(guī)則、聚類、順序模式偵測(cè)和時(shí)間序列分析的算法。Intenlligent Miner支持DB2關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),并集成了大量復(fù)雜的數(shù)據(jù)操縱函數(shù)。根據(jù) ID C 的統(tǒng)計(jì)IntelligentM iner目前是數(shù)據(jù)挖掘領(lǐng)域最先進(jìn)的產(chǎn)品。大多數(shù)算法是由舊M研究所研發(fā)出的,是IBM的專有技術(shù).并只存在于Intelligent Mine。中。決策樹使用的是CAU算法的二種變種,用以產(chǎn)生一個(gè)分類模型并且能夠處理離散和連續(xù)數(shù)據(jù)。
四、決策樹技術(shù)在汽車銷售中的應(yīng)用
下面將就某汽車銷售公司,在汽車展上的調(diào)查問卷進(jìn)行分析。
潛在客戶的數(shù)據(jù)主要有年齡、性別、職業(yè)、收入、教育程度、是否結(jié)婚,是否有房等,調(diào)查客戶是否會(huì)在一年內(nèi)買車。數(shù)據(jù)表格式如下
1.數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理的目的是為了提高數(shù)據(jù)質(zhì)量,使數(shù)據(jù)挖掘的過程更加有效,更加容易同時(shí)也提高挖掘結(jié)果的質(zhì)量。數(shù)據(jù)預(yù)處理的對(duì)象主要是清理其中的噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)。常用的數(shù)據(jù)預(yù)處理技術(shù)主要包括;數(shù)據(jù)清洗、相關(guān)分析和數(shù)據(jù)變換等。
數(shù)據(jù)清洗試圖填補(bǔ)訓(xùn)練集中的空缺值、識(shí)別孤立點(diǎn)、消除噪聲、糾正數(shù)據(jù)中的不一致。對(duì)于空缺值的處理,通常有忽略元組、人工填寫空缺值、使用全局常量填充、使用屬性平均值填充、使用與給定元組同一類的樣本平均值填充、使用最可能的值填充等方法。
調(diào)查問卷中有部分沒有填寫的選項(xiàng),如年齡屬性,對(duì)于這一部分記錄采用的是使用屬性平均值填充的方法。在進(jìn) 行 數(shù) 據(jù)挖掘工作之前需要進(jìn)行前期的數(shù)據(jù)整理工作,比如根據(jù)直觀經(jīng)驗(yàn)去除數(shù)據(jù)中的冗余信息或不相關(guān)信息,對(duì)于上面的數(shù)據(jù)集中的屬性,像序號(hào)等可以在正式開始數(shù)據(jù)挖掘前去除,因?yàn)榭蛻羰欠窠趦?nèi)買車是我們最關(guān)心的信息我們把屬性是否 一年內(nèi)買車,即作為類標(biāo)簽屬性。
2.生成決策樹,產(chǎn)生規(guī)則。整理后的數(shù)據(jù)導(dǎo)入到DB2關(guān)系數(shù)據(jù)庫(kù)表中,使用IBM的Intenlig entM iner提供的數(shù)據(jù)挖掘工具生成決策樹并剪枝后如下圖。
在得到?jīng)Q策樹之后可以由其中提取分類規(guī)則.在該例中,可以提取的規(guī)則如下:IfS alary= 2750一6500a nda ge=31.5一40.5 then buy=y 也就是說 ,在剪去一些噪聲枝節(jié)之后在決策樹的每一條支路上,都可以形成一條分類規(guī)則??梢圆捎眠@些分類規(guī)則.對(duì)潛在的客戶數(shù)據(jù)進(jìn)行分類.由此得出哪些客戶最近有購(gòu)車的意愿然后可以主動(dòng)地向客戶推銷汽車并且給予一定的優(yōu)惠政策.由被動(dòng)營(yíng)銷轉(zhuǎn)變?yōu)橹鲃?dòng)營(yíng)銷。
3.決策樹結(jié)果分析理解。需要說明的是這203份問卷是在車展中獲取的.來參加車展接受問卷調(diào)查的自然多數(shù)是有買車想法的,因此31.2%愿意買車.這個(gè)比例在普通人群中是達(dá)不到的。下面我們從產(chǎn)生的決策樹規(guī)則分析一下是否在一年內(nèi)買車與客戶的因素之間的關(guān)系。
(1 )收入直接決定了一個(gè)人的購(gòu)買力。salary即月薪在低于2550元的客戶中汽車是奢侈品.在近期一年內(nèi)沒有購(gòu)車的意愿;月薪在高于6500元的客戶中,一年內(nèi)也沒有購(gòu)車的意愿可以想象高收入人群大多已經(jīng)有車了。
(2) 年齡也是導(dǎo)致買車的一個(gè)因素。在接受調(diào)查的人群中都在22歲一65歲之間。年輕人中愿意買車的較多年齡小于31.5歲的人,可能是由于婚姻與購(gòu)房所困,一年內(nèi)沒有購(gòu)車的意愿:年齡在31.5歲一40.5歲之間(占82.3%),一般來說這一部分高收入人群不受房子與婚姻狀況所困擾孩子大多在上中小學(xué).而目前大多數(shù)是獨(dú)生子女,社會(huì)治安又不太好在經(jīng)濟(jì)條件許可的情況,會(huì)考慮買車來接送孩子。因此有近期買車的打算。
(3) 愿意買車的多為男性。在低收入的女性中沒有考慮購(gòu)車問題.但男性如果收入還可以的情況下有近期買車的可能性。
(4) 從目前 這些數(shù)據(jù)來看受教育情況、婚否、工作性質(zhì)與是否愿意近期買車影響也不大。客戶的購(gòu) 買行為還要從多方面進(jìn)行考慮我們僅從這幾方面挖掘出外部環(huán)境與客戶的購(gòu)買行為之間的關(guān)系。在計(jì)劃購(gòu)車的人群中購(gòu)車的價(jià)位,車的排氣量、/車的顏色等也可以進(jìn)行挖掘在不打算購(gòu)車的人群中不買的原因,也值得分析。
五 、結(jié) 論
采用決策樹分類算法,通過對(duì)調(diào)查數(shù)據(jù)挖掘得到一系列的分類規(guī)則,然后利用此分類規(guī)則對(duì)潛在客戶進(jìn)行分析采取主動(dòng)營(yíng)銷.可以降低營(yíng)銷成本從而可以提高營(yíng)銷的成功率。隨著多方面大量數(shù)據(jù)的獲得,商業(yè)智能的數(shù)據(jù)挖掘工具可以挖掘出更有參考價(jià)值、易于理解,并具有很高的分類準(zhǔn)確度的規(guī)則為生產(chǎn)實(shí)踐服務(wù)。決策樹數(shù)據(jù)挖掘技術(shù)在汽車銷售中也有著廣闊的應(yīng)用前景,值得我們進(jìn)一步的研究。
(轉(zhuǎn)載)