老陳獨白: [轉]關聯規則挖掘之空間關聯

關聯規則挖掘的根本目的是尋找商品銷售記錄中的相關性，從而更好地指導銷售策略的制定。一個典型的規則是：“43%購買了雀巢即溶咖啡的顧客都會購買雀巢咖啡伴侶”。基於這個規則，在實體超市中，應當把這兩種產品放到相近的地方，而在網上超市中，如果顧客購買了雀巢即溶咖啡卻沒有購買咖啡伴侶，則可以在關聯商品欄目中添加相應的推薦。現在很多企業已經認識到詳細的原始購買記錄的重要性，並且建立了規範的資料倉庫，這些都為關聯規則挖掘技術的應用奠定了良好的基礎。

商品之間關聯規則可以分為空間關聯和時間關聯兩種，時間關聯又可以分為週期關係和順序關聯兩種。在一般研究中提到的關聯規則，其實僅僅是空間關聯[1]，也就是在同一個時間（同一次購買）裡，對消費者經常一起購買的商品進行分析，這也是所謂“購物籃分析”的主要支撐技術。

在介紹空間關聯之前，我們再回顧一下關聯規則挖掘中最經典的例子——啤酒與尿布的關聯。沃爾瑪通過對原始交易資料的分析，發現跟尿布一起購買最多的商品竟是啤酒！調查顯示，美國的太太們常叮囑她們的丈夫下班後為小孩買尿布，而丈夫們在買尿布後又隨手帶回了他們喜歡的啤酒。對於隱藏在啤酒和尿布這類表面上風馬牛不相及的商品背後的關聯，如果不通過資料採擷的技術，是沒有辦法靠拍腦袋的辦法想出來的。

附表1：消費者購買記錄示例

消費者/商品	生泥鰍	綠豆	分歧終端機	任意門	滿神牌洗髮水
A	√	√	×	×	×
B	√	×	√	√	×
C	×	√	×	×	√
D	√	√	√	√	×
E	√	√	×	×	√

最常見的關聯規則挖掘技術，是所謂的“支援-置信”分析。我們還是以消費者在超市購買商品為例，如果把每一個消費者的一次購買看作一個事件，考慮從商品X到商品Y的關聯規則，支援度是指在所有事件中同時購買商品X和商品Y的比例，置信度則是在所有購買了商品X的事件中也購買商品Y的比例[1][1]。如果支持度和置信度都超過了相應的閾值，則從X到Y的規則被認為是有效的。附表1給出了一個示例，如果把支持度和置信度的閾值分別設為50%和60%，則從生泥鰍到綠豆的規則是有效的（支援度為60%，置信度為75%），而從分歧終端機到任意門的規則是無效的（支援度40%，置信度100%）。對於一個銷售量非常大的電子商務企業或者實體超市，支援度往往是千分之一甚至萬分之一這樣的數量級，在難以選擇合適的置信度閾值的時候，可以按照置信度從高到低的優先順序進行商品推薦。

“支持-置信”分析存在很多缺陷，譬如說需要人為設定支援度閾值——如果閾值太低，則會出現很多可信度很低的關聯規則，僅僅可能來自于個別消費者偶然的行為，如果閾值太高，很多冷門商品之間的關聯規則無法被挖掘出來。一種可能的替代方法是直接分析商品之間銷售記錄的相似度，認為與商品X關聯最強的商品就是和它相似性最大的商品。這時候需要注意兩點，首先，一般的相似度指標[2]都是對稱的[2][2]，也就是說X和Y的相似性與Y和X的相似性相同，但是此處要選擇不對稱的定義方式[3]。譬如說商品X賣了10000件，商品Y賣了5件，其中X，Y共同賣了5次。那麼給一個購買了X的消費者推薦Y不一定合適，因為只有千分之零點五的購買概率，而給一個購買了Y的消費者推薦X就比較靠譜，因為看起來似乎買了Y的消費者都會買X。這就是為什麼要選擇不對稱的相似度指標的原因。其次，因為放棄了支持度閾值，會造成一個銷量很低的產品因為隨機波動的原因出現非常高的關聯，這個時候往往要通過對銷量低的商品相似度進行懲罰，懲罰的力度可以設定為商品銷售量（或者包含該商品的事件數目）的方根倒數[4]。舉例而言，在為商品X選擇關聯商品的時候，如果商品Y銷售了49次，則商品Y對應的相似度應該減去1/7。商品賣得越好，可信度越高，懲罰也越少。

剛才說了支持度的缺陷，另外一個缺陷體現在置信度上。考慮一個銷售量很大的商品X（設銷售事件總數為100萬，包含該商品的銷售事件數為5萬）和一個銷售量很小的商品Y（包含該商品的銷售事件數為200），假設商品X和Y之間的銷售完全是獨立的，那麼在Y看來，商品X的置信度為5萬/100萬=0.05；而在X看來，和Y關聯置信度是200/10萬=0.002。也就是說，在一對產品的銷售記錄超過了支援度閾值的條件下，系統總是傾向於推薦銷售量大的產品。我們曾將在某家網上超市的關聯推薦欄中發現，當該超市超低價促銷蘇菲衛生巾的時候，不管購買軍刀、箱包、零食，都會推薦蘇菲衛生巾；而當該超市力推金龍魚油的時候，則經常在推薦欄中連續出現多款金龍魚油，儘管你只是買了50支一次性紙杯。這些推薦會造成廣告資訊冗餘（首頁上已經用更大幅的廣告低價促銷了），並且用戶體驗較差（用戶理解不了這些關聯，會認為這不是來源於一種資料採擷技術，而是一種打著資料採擷幌子的變相廣告投放）。從資訊熵[5]或者資源配置[6]的角度出發，在設計相似度指標的時候，適度向少量較少的長尾商品傾斜，有望大幅度提高關聯規則挖掘的價值。

[1] J. Hipp, U. Güntzer, G. Nakhaeizadeh, Algorithms for association rule mining - A general survey and comparison, SIGKDD Explorations 2(2) (2000) 1-58.

[2] L. Lü, T. Zhou, Link prediction in complex networks: a survey, Physica A 390 (2011) 1150-1170.

[3] T. Zhou, J. Ren, M. Medo, Y. –C. Zhang, Bipartite network projection and personal recommendation, Physical Review E 76 (2007) 046115.

[4] M. Medo, Y.-C. Zhang, T. Zhou, Adaptive model for recommendation of news, Europhysics Letters 88 (2009) 38005.

[5] L. A. Adamic, E. Adar, Friends and neighbors on the Web, Social Networks 25(3) (2003) 211-230 .

[6] T. Zhou, L. Lü, Y.-C. Zhang, Predicting missing links via local information, European Physical Journal B 71 (2009) 623-630.

老陳獨白

2011年11月24日星期四

[轉]關聯規則挖掘之空間關聯

沒有留言:

2011年11月24日 星期四

[轉]關聯規則挖掘之空間關聯

沒有留言:

2011年11月24日星期四