關聯規則挖掘的根本目的是尋找商品銷售記錄中的相關性,從而更好地指導銷售策略的制定。一個典型的規則是:“43%購
買了雀巢即溶咖啡的顧客都會購買雀巢咖啡伴侶”。基於這個規則,在實體超市中,應當把這兩種產品放到相近的地方,而在網上超市中,如果顧客購買了雀巢即溶
咖啡卻沒有購買咖啡伴侶,則可以在關聯商品欄目中添加相應的推薦。現在很多企業已經認識到詳細的原始購買記錄的重要性,並且建立了規範的資料倉庫,這些都
為關聯規則挖掘技術的應用奠定了良好的基礎。
商品之間關聯規則可以分為空間關聯和時間關聯兩種,時間關聯又可以分為週期關係和順序關聯兩種。在一般研究中提到的關聯規則,其實僅僅是空間關聯[1],也就是在同一個時間(同一次購買)裡,對消費者經常一起購買的商品進行分析,這也是所謂“購物籃分析”的主要支撐技術。
在介紹空間關聯之前,我們再回顧一下關聯規則挖掘中最經典的例子——啤酒與尿布的關聯。沃爾瑪通過對原始交易資料的分析,發現跟 尿布一起購買最多的商品竟是啤酒!調查顯示,美國的太太們常叮囑她們的丈夫下班後為小孩買尿布,而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。對於隱藏 在啤酒和尿布這類表面上風馬牛不相及的商品背後的關聯,如果不通過資料採擷的技術,是沒有辦法靠拍腦袋的辦法想出來的。
附表1:消費者購買記錄示例
消費者/商品
|
生泥鰍
|
綠豆
|
分歧終端機
|
任意門
|
滿神牌洗髮水
|
A
|
√
|
√
|
×
|
×
|
×
|
B
|
√
|
×
|
√
|
√
|
×
|
C
|
×
|
√
|
×
|
×
|
√
|
D
|
√
|
√
|
√
|
√
|
×
|
E
|
√
|
√
|
×
|
×
|
√
|
最常見的關聯規則挖掘技術,是所謂的“支援-置信”分析。我們還是以消費者在超市購買商品為例,如果把每一個消費者的一次購買看作一個事件,考慮從商品X到商品Y的關聯規則,支援度是指在所有事件中同時購買商品X和商品Y的比例,置信度則是在所有購買了商品X的事件中也購買商品Y的比例[1][1]。如果支持度和置信度都超過了相應的閾值,則從X到Y的規則被認為是有效的。附表1給出了一個示例,如果把支持度和置信度的閾值分別設為50%和60%,則從生泥鰍到綠豆的規則是有效的(支援度為60%,置信度為75%),而從分歧終端機到任意門的規則是無效的(支援度40%,置信度100%)。對於一個銷售量非常大的電子商務企業或者實體超市,支援度往往是千分之一甚至萬分之一這樣的數量級,在難以選擇合適的置信度閾值的時候,可以按照置信度從高到低的優先順序進行商品推薦。
“支持-置
信”分析存在很多缺陷,譬如說需要人為設定支援度閾值——如果閾值太低,則會出現很多可信度很低的關聯規則,僅僅可能來自于個別消費者偶然的行為,如果閾
值太高,很多冷門商品之間的關聯規則無法被挖掘出來。一種可能的替代方法是直接分析商品之間銷售記錄的相似度,認為與商品X關聯最強的商品就是和它相似性最大的商品。這時候需要注意兩點,首先,一般的相似度指標[2]都是對稱的[2][2],也就是說X和Y的相似性與Y和X的相似性相同,但是此處要選擇不對稱的定義方式[3]。譬如說商品X賣了10000件,商品Y賣了5件,其中X,Y共同賣了5次。那麼給一個購買了X的消費者推薦Y不一定合適,因為只有千分之零點五的購買概率,而給一個購買了Y的消費者推薦X就比較靠譜,因為看起來似乎買了Y的消費者都會買X。這就是為什麼要選擇不對稱的相似度指標的原因。其次,因為放棄了支持度閾值,會造成一個銷量很低的產品因為隨機波動的原因出現非常高的關聯,這個時候往往要通過對銷量低的商品相似度進行懲罰,懲罰的力度可以設定為商品銷售量(或者包含該商品的事件數目)的方根倒數[4]。舉例而言,在為商品X選擇關聯商品的時候,如果商品Y銷售了49次,則商品Y對應的相似度應該減去1/7。商品賣得越好,可信度越高,懲罰也越少。
剛才說了支持度的缺陷,另外一個缺陷體現在置信度上。考慮一個銷售量很大的商品X(設銷售事件總數為100萬,包含該商品的銷售事件數為5萬)和一個銷售量很小的商品Y(包含該商品的銷售事件數為200),假設商品X和Y之間的銷售完全是獨立的,那麼在Y看來,商品X的置信度為5萬/100萬=0.05;而在X看來,和Y關聯置信度是200/10萬=0.002。
也就是說,在一對產品的銷售記錄超過了支援度閾值的條件下,系統總是傾向於推薦銷售量大的產品。我們曾將在某家網上超市的關聯推薦欄中發現,當該超市超低
價促銷蘇菲衛生巾的時候,不管購買軍刀、箱包、零食,都會推薦蘇菲衛生巾;而當該超市力推金龍魚油的時候,則經常在推薦欄中連續出現多款金龍魚油,儘管你
只是買了50支一次性紙杯。這些推薦會造成廣告資訊冗餘(首頁上已經用更大幅的廣告低價促銷了),並且用戶體驗較差(用戶理解不了這些關聯,會認為這不是來源於一種資料採擷技術,而是一種打著資料採擷幌子的變相廣告投放)。從資訊熵[5]或者資源配置[6]的角度出發,在設計相似度指標的時候,適度向少量較少的長尾商品傾斜,有望大幅度提高關聯規則挖掘的價值。
[1] J. Hipp, U. Güntzer, G. Nakhaeizadeh,
Algorithms for association rule mining - A general survey and comparison,
SIGKDD Explorations 2(2) (2000) 1-58.
[2] L. Lü, T. Zhou, Link prediction
in complex networks: a survey, Physica A 390 (2011) 1150-1170.
[3] T. Zhou, J. Ren, M.
Medo, Y. –C. Zhang, Bipartite network projection and personal recommendation,
Physical Review E 76 (2007) 046115.
[4] M. Medo, Y.-C. Zhang, T. Zhou, Adaptive model
for recommendation of news, Europhysics Letters 88 (2009) 38005.
[5] L. A. Adamic, E.
Adar, Friends and neighbors on the Web, Social Networks 25(3) (2003)
211-230 .
[6] T. Zhou, L. Lü, Y.-C. Zhang,
Predicting missing links via local information, European Physical Journal B 71
(2009) 623-630.
沒有留言:
張貼留言