2012年5月22日 星期二

Web使用挖掘的應用研究


1   引言
  Web資料的爆炸性增長導致了顧客資訊的過量,合理地應用它們不僅可以使網站和商業公司在激烈的競爭中獲益,還可以找到合作長久同時又有利可固的顧客。如何策略地解決這個問題取決於我們對Web使用挖掘技術的有效應用,在Web上運用資料採擷技術發現和分析有用資訊逐漸成為知識發現研究的重要方向。

  Web是一個快速變化的資訊源,不單單是網上內容的急劇膨脹,頁面內容的改變也是極度頻繁,新聞、股票市場、廣告公司和網路股務中心都在一定的時間間隔內修改著他們的網上資訊;另外,網頁的連結和存取路徑也常常被改變,還要面對各種不同的用戶,而且用戶的數量也在不斷地增長。其使用興趣和目的各不相同,如何才能找到使用者感興趣的資訊?如何才能找到高品質的頁面?

  以上這些問題推動了在Internet上進行使用挖掘的研究,為了更好地管理Web網站的資料,使其高效地為網上使用者提供有效的資訊股務;挖掘使用者感興越的內容;跟蹤、分析使用者的使用模式;提高使用者使用網路的效率,我們要積極開展網路挖掘中使用挖掘的應用研究工作。Web使用挖掘的應用日益廣泛,尤其是在電子商務的大力支持下,越發顯示出蓬勃的生命力。它通過資料採擷技術對Web上的資料進行挖掘,從而發現Web上的使用者使用模式。

2   Web使用挖掘

  Web使用挖掘是從Web股務器中自動發現使用者的訪問模式。在Web伺服器日誌中自動搜集並記錄著使用者的訪問操作,還有通過CGI記錄的使用者註冊資訊。通過對這些使用者資訊的分析,可以找出使用者的訪問模式,確定產品的市場戰略,提高商業活動的效率,而且為網站的有效組織也提供了資訊,還可以為特定的使用者提供個性化的網路服務。

  目前常用的工具有模式發現工具和模式分析工具,它們提供了使用者行為的分析和資料的過濾,使用人工智慧、資料採擷、心理學和資訊理論從資料集中挖掘知識。在訪問模式發現以後,用相應的分析技術來理解、解釋和顯示這些模式。如使用0LAP連線分析處理技術,資料立方體簡化使用者使用模式的分析,還有用SQL查詢發現知識等。

2.1   Web使用挖掘的框架

Web使用挖掘框架主要包括三部分:

 (1)資料頂處理,包括使用者識別、操作識別、路徑完善、事務標識、資料集成、資料轉換,將Web日誌轉化成面向不同領域的適合資料採擷的事務形式。

 (2)面向不同的領域採用資料採擷演算法,如關聯規則挖掘、序列模式挖掘、路徑分析挖掘、分類和聚類分析挖掘等。

 (3)模式分析的方法有:連線分析、視覺化、知識查詢和資訊過濾。模式分析工具將抽象的使用模式以直觀、容易理解的方式展現給分析者,分析者利用知識查詢語言,根據需要對挖掘過程加以限制,得到感興趣的使用模式。比如限定某一領域進行挖掘,然後就這一領域挖掘出來的使用模式進行分析,得出感興趣的結果。

  資訊過濾分兩部分:objective過濾和subjective過濾。objective過濾處理用不同模式發現關聯的數值型度量的變化,比如:支持度和興趣度;subjective過濾是用來處理使用挖掘通過分析網站內容和結構而形成訪問網頁的可信任度。對於Web使用挖掘,設想用網站結構和內容作為網站設計者的領域知識,在網頁之間進行連結以提供這些頁面的關聯支援,那麼在網頁之間的拓撲連結越強,這些網頁一起被訪問的可信度也就越高。類似地,在同一個內容簇或同一類裡的頁面被認為在一起被訪問的可信度遠遠大於不同簇或不同類中的頁面。圖1所示是Web使用挖掘系統框架。

2.2Web使用挖掘的實驗

  採用分類和聚類的挖掘方法,通過訪問網站的客戶流量的分析,得出群體客戶的訪問規律,使網站設計者可以根據客戶的訪問規律,在不同時間段內推薦不同品質的思務,有效提升網站的訪問人數。步驟如下:

 (1)瞭解上網客戶的身份,進行特定客戶群體分析,從訪客的造訪次數、停留時間及常訪問的頁面,找到有實用價值的客戶。

 (2)對網站特定主題內容和特定網頁進行深度分析,如:國慶日活動、旅遊介紹等,進一步瞭解網站內容與訪問客戶之間的互動關係,發現最吸引客戶的商品和服務。

 (3)通過參照訪問客戶參與網站活動效果及網頁流覽狀態.輔助網站內容規劃,評估網站內容。

  基於一些實驗資料類比,將一天24小時內某網站客戶流量進行分析,用表1、圖2表示出來,並分析出一天中的推薦服務量(圖3)。

3   網站結構和內容對使用挖掘的影響

  目前有許多工具可以進行資料的清理和Web伺服器日誌中的會話識別,還有大量的資料採擷演算法從預處理後的資料集中發現使用者使用模式和預測趨勢,但最終Web使用挖掘的效果依然不能令人滿意,其中一個重要的原因就是人們忽視了對使用挖掘效果起著重要影響作用的網站結構和內容。圖4所示的是Web使用挖掘的過程,從中不難看出,網站的結構和內容對整個Web使用挖掘過程的每個重要階段都是關鍵性的資料來源。在Web上有三種數據:內容資料、結構資料和使用者使用資料。內容資料是指網頁上實際存在的資料,是供網上用戶使用的,通常是由文本和圖像組成的;結構資料是用來組織內容的一種描述性的資料,主要是指頁與頁之間的超連結;而使用者使用資料是指Web頁面的使用模式,比如:IP位址、頁面引用和存取時間等資料。使用資料通常源于普通和擴展的思務器日誌。以上三種資料組建了資料提取、頁面流覽、點擊流和會話。頁面流覽是指用戶端使用者一次點擊網頁的行為,一系列的頁面流覽構成點擊流。

  網站結構和內容的處理是一個內部關聯的任務。網頁如何連結取決於網頁的流覽方式,網站內容的創建技術又決定著網站的內容和結構,而不同的使用者則決定著網站主頁內容的設計。因此,網站的結構、內容和使用者的使用有著密不可分的聯繫,網站的結構和內容影響著Web使用挖掘的不同階段,分頁檔在語義上依賴著網站內容,而網站內容的決定是一個手工過程,取決於創建網站的技術和分析目的。

4   使用挖掘在電子商務中的應用

  由於迅速發展的電子商務競爭異常激烈,所以網站銷售商一定要做好快速迎合線上顧客需求的準備。線上銷售的伸縮性使得人們能夠監控銷售,並且及時瞭解價格調整和產品服務的可適應性。另外,通過對銷售資訊的挖掘能展現影響產品所有方面的重要趨勢和模式,包括:貨運、銷售和庫存等。

  日益增長的網站訪問資訊和飛速發展的資料採擷技術使得網站能夠真正地為它的線上顧客提供個性化服務,市場應該使網站施效於它真正的客戶和利益。在一個動態的強競爭的網路環境中,電子商務必須通過較好地理解訪問頻繁的客戶和最有利可圖的顧客的行為,才能取得它們的競爭優勢。要想瞭解客戶的訪問行為就必須通過使用挖掘去挖掘你的網站資料,使網站的努力集中在有利可圖的顧客和前景上。

  目前大部分的公司都有自己網站產生出來的巨大數量的使用者資訊,因而大型的電子商務網站需要有適合大量資料的挖掘工具,希望能通過資料採擷得到益處。另外Web是個理想的市場環境,其中每筆交易都能被獲取和存儲,通過Web上的使用挖掘可以便網站達到以下目的:

‧識別Web客戶的關鍵特性。
‧測試和決定哪個市場活動影響力最大。
‧識別出對新產品特別有興趣的客戶。
‧降低商品的價格,改善和客戶的關係。
‧改善網站廣告和銷售過程。

  使用挖掘在電子商務中的具體挖掘步驟如圖5所示。

(1)縱覽數據

  通過對顧客的可視縱覽調查,能揭示一定顧客的特性統計,從而為網站設計者和市場經營者提供一些直接的戰略戰策。

(2)分析資料

  將資料按照不同類型的分析方法分成不同的簇,進行分類聚類的挖掘。


(3)數據建模

  建立網站訪問者的行為模型,發現和學習訪問者的特性和線上行為。例如,通過檢驗訪問者的特性、點擊廣告和進行線上購物的習性,結合資料採擷工具建模和預測網站訪問者的行為,將個性化的服務推薦給有極大興趣並且有購買欲望的顧客。一旦網站和顧客建立了相互瞭解的關係,那麼這些顧客將可能永遠是網站的老顧客。

(4)方法集成

  Web使用挖掘並不是一個孤立的單一過程.而是對網站各個有影響的方面都要進行分析的綜合過程。在這個分析的基礎上,發現和控制貨運週期和具體產品的趨勢,發現的模式能提示網站目前需要哪些貨源,以確保產品和思務的迅速遣送。

(5)客戶識別

  要通過使用網站所產生的事務和顧客資料瞭解購買者是誰,最喜歡買什麼?這就要求我們結合多方因素為每個訪問者建立一個唯一的記錄,獲取並分析每個購物者的行為資訊。

(6)機構分析

  分析作為一種回饋系統思務於電子商務網站,能影響網站的設計、銷售、庫存和市場經營。對客戶資訊的整體機構的分析挖掘,可以使網站瞭解購買者的個人資訊特點和購買物品的價格特點;瞭解所處熱賣的產品,及時調整庫存、貨運和計畫定單;並制定出浮動價格、增強廣告設計、獎員促銷等一系列行銷策略。

(7)個性化服務    

  Web允許人們按照自己的喜好定制新聞、天氣、市場和股票報告,但是人們必須要提供個人資訊,以便於網路瞭解我們的偏好,適時地推薦具有個性化特點的產品和服務。因而網站要積累大量的使用者資訊,為使用者提供感興趣的產品和思務,建立牢固可靠的貿易關係,個性化網站的設計應用。最大的利益取決於網站和顧客資訊的集成,這就要求在個性化基礎上挖掘相互之間的作用與影響,並建立使用者的個人偏好記錄。通過討論、聊天和郵件的方式學習顧客,並且可以進行相互影響的交流,從而形成網站的個性化思務。

  Web通過加大顧客的自由選擇權而促進了商務的發展,網站要遞送個性化的服務就需要挖掘Web使用資料發現顧客的特性,依靠這些資料的積累,進一步拓展網站的個性化功能。

  應答式的個性化服務將會變得很規範。顧客很願意以最少的代價去尋找所需的產品、服務和資訊,因而商業網站必須結合公司的庫存資料庫,以適應不同個性使用者的產品需求,同時也可以通過交叉推薦的方式來進行推薦。總之,個性化是通過網站和顧客之間的聯繫,使用積累資訊進行挖掘,又遞送商品服務于顧客的過程。

結束語

  Web挖掘是一個新興的有巨大發展前景的研究領域,其技術在國內外有著廣泛的應用。電子商務通過Web上的使用挖掘所提供的足夠的知識,可以鎖定相當數量的顧客進入商務關係中,以改善銷售狀況和保存客戶關係,從而增加市場效益。另外,通過Web使用的個性瞭解,比較已存在顧客的綜合個性,能在已有顧客的知識幫助下發掘出潛在的新顧客的個性、生活方式和特點。Web使用挖掘作為一個新興的研究領域,其應用技術依然面臨著很多挑戰。

沒有留言: