計算機Web數據挖掘技術在現代商業中的應用論文
[摘要] 數據挖掘是近年來隨著數據庫技術和人工智能技術的發展而出現的一種全新的信息技術。隨著internet的普及,使web成為獲取市場信息的最重要的載體。本文介紹了web數據挖掘過程,以及特點,最后重點研究了web數據挖掘技術現代商業中的應用。
[關鍵詞] 數據挖掘 人工智能 載體
一、web數據挖掘概述
web挖掘是從web資源上抽取信息或知識的過程,它是將傳統的數據挖掘的思想和方法應用于web,從web文檔和web活動中抽取感興趣的、潛在的、有用的模式和隱藏信息。web挖掘可在多方面發揮作用,如搜索引擎結構的挖掘,搜索引擎的開發,改進和提高搜索引擎的質量和效率,確定權威頁面。web挖掘研究覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等。特別是電子商務領域,通過對用戶特征的理解和分析,如對用戶訪問行為、頻度、內容等的分析,提取出用戶的特征,從而為用戶定制個性化的界面,有助于開展有針對性的電子商務活動。
二、web挖掘流程以及特點
1.web挖掘的流程
web數據挖掘就是利用數據挖掘技術從網絡文檔和服務中發現和提取信息。與傳統數據和數據倉庫相比,web上的信息是非結構化或半結構化的、動態的、并且是容易造成混淆的,所以很難直接以web網頁上的數據進行數據挖掘,而必須經過必要的數據處理。web挖掘的有以下幾個過程:
(1)資源發現。任務是從目標web文檔中得到數據,值得注意的是有時信息資源不僅限于在線web文檔,還包括電子郵件、電子文檔、新聞組,或者網站的日志數據甚至是通過web形成的交易數據庫中的數據。wwW.133229.COM
(2)信息選擇和預處理。任務是從取得的web資源中剔除無用信息和將信息進行必要的例如從web文檔中自動去除廣告連接、去除多余格式標記、自動識別段落或者字段并將數據組織成規整的邏輯形式甚至是關系表。
(3)模式發現。自動進行模式發現。可以在同一個站點內部或在多個站點之間進行。
(4)模式分析。驗證、解釋上一步驟產生的模式。可以是機器自動完成,也可以是與分析人員進行交互來完成。
2.web挖掘的特點
web挖掘技術具有許多優點,如不需要用戶提供主觀的評價信息;可以處理大規模的數據量;用戶訪問模式動態獲取,不會過時;使用方便等。但是與傳統數據庫和數據倉庫相比,web是一個巨大、分布廣泛、全球性的信息服務中心,涉及經濟、文化、教育、新聞、廣告、消費、娛樂、金融、保險、銷售、電子商務等信息,內容極其豐富,數據最大特點就是半結構化;而傳統的數據庫中的數據結構性很強,即其中的數據為完全結構化的數據。顯然,面向web的數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多,會面臨很多具體問題,主要有:
(1)半結構化數據。web頁面以某種格式呈現的半結構化數據,其數據結構不規則或不完整,復雜程度遠遠高于普通的文本文檔,其數據結構隱含、模式信息量大、模式變化快。大量的文檔無任何排列次序,無分類索引。
(2)web是一個異質、分布、動態的信息源。web及其數據的更新、增長速度極快,也無固定的模式。web上的信息幾乎都是隱藏的、潛在的、未知的,從web上發現這些未知的信息和有用的模式,僅用傳統的基于關鍵字的檢索方式很難實現,現在的搜索引擎尚不具備這些功能。
(3)面對一個非常廣泛的形形色色的用戶群體。不同的用戶訪問web的興趣、愛好和使用目的千差萬別,面對一個非常廣泛的形形色色的用戶群體,能否使用戶根據自己的愛好興趣定制網頁,甚至能否根據發現的用戶。自動為用戶定制網頁,從而提供個性化的信息檢索和查詢服務。
3.web挖掘在電子商務中的應用
目前對于,web挖掘的對象和使用的方法層出不窮,但隨著電子商務網站的興起,電子商務將是未來web挖掘的主要發展方向之一,因此它在各種商業領域都存在廣泛的使用價值。在當電子商務在企業中得到應用時,企業信息系統將產生大量數據,這些海量數據使數據挖掘有了豐富的數據基礎,同時高性能計算機和高傳輸速率網絡的使用也給數據挖掘技術提供了堅實的'保障。介紹以下幾個方面的應用:
(1)分析查找獲得潛在客戶。隨著以客戶為中心的經營理念不斷深入人心,分析客戶、了解客戶并引導客戶的需求已成為企業經營的重要課題。通過對電子商務系統收集的交易數據進行分析,可以按各種客戶指標(如自然屬性、收入貢獻交易額、價值度等)對客戶分類,然后確定不同類型客戶的行為模式,以便采取相應的營銷措施,促使企業利潤的最大化。
比如通過數據挖掘可以發現購買某種商品的消費者是男性還是女性,學歷、收入如何,有什么愛好,是什么職業等等。甚至可以發現不同的人在購買該種商品的相關商品后多長時間有可能購買該種商品,以及什么樣的人會購買什么型號的該種商品等等。也許很多因素表面上看起來和購買該種商品不存在任何聯系,但數據挖掘的結果卻證明他們之間有聯系。在采用了數據挖掘后,針對目標客戶發送的廣告的有效性和回應率將得到大幅度的提高,推銷的成本將大大降低。
在對web的客戶訪問信息的挖掘中,利用分類技術可以在internet上找到未來的潛在客戶,獲得這些潛在的客戶市場。通常的策略是先對己經存在的訪問者進行分類,一般分為三種:“no customer”、“visitor once”“visitor regular”。對于一個新的訪問者,通過在web上的分類發現,識別出這個客戶與己經分類的老客戶的一些公共的描述,從而對這個新客戶進行正確的分類。然后從它的分類判斷這個新客戶是屬于有利可圖的客戶群,還是屬于無利可圖的客戶群,決定是否要把這個新客戶作為潛在的客戶來對待。客戶的類型確定后,就可以對客戶動態地展示web頁面,頁面的內容取決于客戶與銷售商提供的產品和服務之間的關聯。
(2)保留客戶。數據挖掘可以把你大量的客戶分成不同的類,在每個類里的客戶擁有相似的屬性,而不同類里的客戶的屬性也不同。你完全可以做到給不同類的客戶提供完全不同的服務來提高客戶的滿意度。數據挖掘還可以發現具有哪些特征的客戶有可能流失,這樣挽留客戶的措施將具有針對性,挽留客戶的費用將下降。對客戶來說,傳統客戶與銷售商之間的空間距離在電子商務中己經不存在了。在網上,每一個銷售商對于客戶來說都是一樣的,那么如何使客戶在自己的銷售站點上駐留更長的時間,對銷售商來說將是一個挑戰。為了達到這一目的,就應該了解客戶的瀏覽行為,知道客戶的興趣及需求所在,動態地調整web頁面,以滿足客戶的需要。通過對客戶訪問信息的挖掘,就能知道客戶的瀏覽行為,從而了解客戶的興趣及需求。在網上的電子商務中的一個典型的序列,恰好就代表了一個購物者以頁面形式在站點上導航的行為,所以可運用web數據挖掘中的序列模式發現技術。
(3)聚類客戶。在電子商務中客戶聚類是一個重要的方面。通過分組具有相似瀏覽行為的客戶,并分析組中客戶的共同特征,可以幫助電子商務的組織者更好地了解自己的客戶,向客戶提供更適合、更面向客戶的服務。例如,有一些客戶都花了一段時間瀏覽“baby toys”“baby furniture”頁面,經過分析這些客戶被聚類成為一組。銷售商根據分析出來的聚類信息,就知道這是一組“expecting parents”客戶,對他們所進行的業務活動當然也就不可能同于其他被聚類了的客“college students”、“office ladies”。及時調整頁面及頁面內容,使商務活動能夠在一定程度上滿足客戶的要求,對客戶和銷售商來說更有意義。
(4)交叉銷售與個性服務。交叉銷售的好處在于,對于原有客戶,企業可以比較容易地得到關于這個客戶的比較豐富的信息,大量的數據對于數據挖掘的準確性來說是有很大幫助的。在企業所掌握的客戶信息,尤其是以前購買行為的信息中,可能正包含著這個客戶決定他下一個購買行為的關鍵,甚至是決定因素。這個時候數據挖掘的作用就會體現出來,它可以幫助企業尋找到這些影響他購買行為的因素。
當客戶在電子商務網站注冊時,客戶將會看到帶有客戶姓名的歡迎詞”根據客戶的訂單紀錄,系統可以向客戶顯示那些可能引起客戶特殊興趣的新商品。當客戶注意到一件特殊的商品時,系統會建議一些在購買中可以增加的其他商品。普通的產品目錄手冊常常簡單的按類型對商品進行分組,以簡化客戶挑選商品的步驟。然而對于在線商店,商品分組可能是完全不同的,它常常以針對客戶的商品補充條目為基礎,不僅考慮客戶看到的條目,而且還考慮客戶購物籃中的商品,結果就會使推薦更加個性化。
三、結語
隨著計算機技術的迅猛發展和internet資源的快速增長,特別是電子商務的興起,web挖掘成為21世紀的熱門研究領域之一,其研究具有廣闊的應用前景和巨大的現實意義。目前國內的web挖掘尚處于學習、跟蹤和探索階段,web挖掘有許多問題有待于進一步的研究和深化。
參考文獻:
[1]郝先臣張德干尹國成等:基于電子商務中的數據挖掘技術研究.小型微型計算機系統,2001
[2]韓家煒孟小峰王靜等:web挖掘研究.計算機研究與發展,2001
[3]鄧英李明:web數據挖掘技術及工具研究.計算機工程與應用,2001
【計算機Web數據挖掘技術在現代商業中的應用論文】相關文章: