■數據庫制作占整個分析工作量的80%
為了制作用于構建顧客行動模式的數據庫,首先要明確其利用目的,在此基礎上再進行設計工作;然后根據設計的內容進行數據清理及個人、家庭信息匯總等。通過這樣的一個過程,整理出一人一行的一覽表,制成構建顧客行動模式可使用的數據庫。這一系列處理會相當麻煩,因此需要花費很多時間。大體而言,數據庫的制作要占到所有分析工作80%的工作量。
■數據庫設計占整個數據庫制作思考量的80%
數據庫的設計是從已有的數據中,找出構建顧客行動模式所必需的信息。該數據庫中的數據是顧客行動模式的輸入數據,因此會直接影響模式的精度,所以數據庫設計是所有分析工作中最重要的。要對數據進行細查,就應清楚地將能夠使用的數據和不能夠使用的數據分開。對于這項工作,不僅需要有縝密的思考能力,還要有在過去的經驗及事物的基礎上進行類推的能力。可以說在數據庫的做成中數據庫的設計就需要占用其80%的思考量(見下圖)。
■需要的數據并不一定全部都有
數據庫設計時,要找到構建顧客行動模式所必需的數據,但是想要的信息并不一定全都在自己公司的數據儲備中。如果要制作精細的顧客行動模式,從顧客屬性到對應的顧客履歷,所有與顧客相關的數據都是需要的。但事實是,不要說收集所有的數據,就連收集到的數據也不一定完整。而且,收集到的數據也并不都可以直接用于顧客行動模式的構建。例如數據的分布范圍過廣,或者牽連的其他數據過多時,就難以得到正確的分析結果,或者無法充分把握其結果。為了解決此類問題,需把收集到的數據進行適當加工,轉換成對構建顧客行動模式有幫助的信息。例如,將郵政編碼改為行政區域和地域名稱,對購買履歷中的購買次數、累計金額、間隔等變量做一個說明等。對于變量的說明需要經驗和靈感,因此數據挖掘被公認為是一種專業技能。
■數據庫和個人信息匯總處理
即使作出了變量說明,也還沒有完成構建顧客行動模式的數據庫。還有必要進行數據清理和個人信息匯總。數據清理是對信息內容進行大小寫、全半角的統一,數據類型的統一,對空格(Null)等缺損值插入文字列實施處理,并用數據清理工具調整為可處理狀態。如果一個項目的缺失信息太多,那么這個項目將從模式的構建內容中去除。
個人信息匯總是對數據庫中存在的顧客信息進行統一化處理,把住所、姓名、電話號碼、出生年月等作為關鍵項目,將同一顧客的多條記錄匯總成一條記錄。屆時,再利用合算總額等方法,整合關鍵項目以外的信息。對于家庭,也存在統一化的必要,可以用同樣的方法實行家庭信息匯總。
