- 相關推薦
web數據挖掘技術分析與研究
1Web數據挖掘面臨的問題
目前面向Web的數據挖掘面臨的問題,主要有兩個方面:
1.1數據庫環境的異構型
Web上的每個站點就是一個數據源,數據源之間是異構的,外加上各個站點的信息和組織的不同,Web網站就構成了一個巨大的異構數據庫環境。要對這些數據進行挖掘,首先,要解決各個站點之間的異構數據集成,提供用戶統一界面,從復雜的數據源中取得所需的有用的信息知識。其次,有關Web上的數據查詢。
1.2數據結構的半結構化
Web上的數據比較復雜,各個站點的數據都獨立設計,具有動態可變性。雖然Web上的數據形成半結構化數據。這些問題是進行Web數據挖掘所面臨的最大困難。
2XML技術在Web數據挖掘中的優勢
Web數據的異構使Web數據挖掘變得十分困難,通過XML可以解決這個問題。因為XML文檔具有很好的自我描述性,他的元素、子元素、屬性結構樹可以表達極為豐富的語義信息,能夠很好的描述半結構化的數據,因此在網絡數據集成、發送、處理和顯示的方面。開發人員能夠用XML的格式標記和交換數據。XML在三層架構上為數據的處理提供了有用的途徑。利用XML,Web設計人員能夠構建文檔類型定義的多層次互相關聯的系統、元數據、數據樹、樣式表和超鏈接結構。基于XML的Web數據挖掘技術,能夠使不同來源的結構化的數據很容易地結合在一起,解決Web數據挖掘的難題。
2.1XML技術在Web數據挖掘中具體作用利用XML技術我們在Web數據挖掘中可以完成以下幾點:
2.1.1集成異構數據源
XML是一種半結構化的數據模型,可以完成和關系數據庫中的屬性一一對應,從而實施精確地查詢與模型抽取。XML可以搜索多個不同數據庫的問題,以實現集成。
2.1.2和異構數據進行交換
在Web數據挖掘程中,用戶需要和異構數據源進行數據交換,XML通過自定義性及可擴展性來標識各種數據,從而描述從各站點搜集到的Web頁中的數據。XML的出現解決了數據查詢的統一接口。
2.1.3過濾信息并顯示
XML描述數據本身,可以使得定義的數據以不同的方式顯示,對獲取的信息進行裁減和編輯以適應不同用戶的需求。以不同的瀏覽形式提供給不同的用戶。
3基于XML的Web數據挖掘模型
我們通過對XML及Web數據挖掘的分析,設計了一個基于XML的Web數據挖掘模型通過提供一個Web數據挖掘的集成環境,提高數據挖掘系統的整體性能。工作流程如下:系統根據用戶要求搜集Web資源,經數據轉換器處理成相應的XML數據存儲,提供給挖掘器使用;挖掘器則根據要求從選取相應的算法挖掘,輸出挖掘結果;用戶根據自己的滿意度,獲得需要的挖掘結果,調整挖掘要求進入新一輪數據挖掘。通過系統的維護我們可以加入新的挖掘算法,實現升級。
3.1各模塊具體功能
3.1.1數據收集
從Web站點上采集數據并存儲,獲得挖掘內容。針對異構數據源,可以多種方式提出相關需求,挖掘的重點是Web內容和Web使用的數據。把用戶訪問網站留下原始日志數據進行清洗、過濾和轉換處理,轉變成統一處理的數據結構,構建日志數據庫。
3.1.2轉換器
對檢索得到的數據用XML技術進行預處理,建立半結構化數據模型,抽取其特征的元數據,用結構化的形式保存,為挖掘模塊提供所需的數據。
3.1.3挖掘器
不同的挖掘算法有不同適用情況,挖掘綜合器根據具體的需求和挖掘方法的不同選擇策略到挖掘算法庫中去選擇挖掘算法或種組合算法執行挖掘任務。隨著應用的深入,知識庫中的算法和規則不斷的豐富。挖掘算法庫是挖掘分析方法的綜合庫,以插拔的形式組織存放各種挖掘算法。314結果生成與評估以直觀的方式提交挖掘結果,便于用戶的評估。通過模式分析和興趣度度量,若結果使得用戶滿意,數據挖掘結束,輸出用戶感興趣的內容;否則可以在此重新提出挖掘要求,重新挖掘。
3.2系統各模塊實現方法
3.2.1數據收集
數據的收集也涉及數據挖掘的技術,其過程是:通過人工輸入辦法,給出查詢主題,找到相關的Web頁,然后,通過相應的數據挖掘的算法對訓練數據集提煉,利用提煉出的數據模式,進行更大范圍的搜索,以獲取更多的數據源。最終形成較新和有效XML文檔。
3.2.2數據的轉換處理
數據抽取轉換是模型實現一個重要環節,其主要方法是把現有的Web頁面轉換成XML格式,并使用相關工具處理XML結構數據檢要把HTML中含有的與主題無關的標記過濾掉,然后轉化到XML的格式存儲。目前Web頁面到XML文檔的轉換,有兩部分數據構成:一是XML數據,二是非XML數據。XML數據,可以直接將它們提交給下一個模塊。對于非XML數據,本文的實現方法是用到Tidy以改正HTML文檔中的常見錯誤并生成格式編排良好的等價文檔,還可以使用Tidy生成XHTML(XML的子集)格式的文檔。通過構造相應的Java類完成將數據從HTML到XML的轉換。
3.2.3挖掘方法
(1)文本分類:文本分類是指按預先定義的主題類別,把集合中的每個文檔確定一個所屬類別。這樣,用戶能夠方便地瀏覽文檔,并限制搜索范圍來使查找更為容易。利用文本分類技術對大量文檔進行快速、有效地自動分類。有關的算法通常采用TFIDF和NaiveBayes等方法。
(2)文本聚類:文本聚類與分類的不同之處在于,聚類不需要預先定義好的主題類別,它是將把文檔集合分成若干個簇,要求同簇內文檔內容相似度最大,而不同簇間的相似度最小。Hearst等人研究表明聚類假設,即與用戶查詢相關的文檔通常會聚類比較靠近,而遠離與用戶查詢不相關文檔。可以利用文本聚類技術把搜索引擎檢索結果分成若干個簇,用戶只要考慮那些相關的簇,就能夠縮小所需要瀏覽的結果數量。目前,常用的文本聚類算法,分為兩種:以G-HAC等算法為代表的層次凝聚法,以k-means等算法為代表的平面劃分法。
(3)關聯分析:關聯分析是指從文檔集合中發現不同詞語之間關系Brin提出一種從大量文檔中查找一對詞語出現模式算法,在Web上尋找作者和書名的模式,從而發現數千本在Amazon網站上查找不到的新書。
(4)模式評價:Web數據挖掘中十分重要的過程就是模式評價。常用的方法有預留法和交叉實驗法,將數據分成訓練集和測試集兩部分,學習和測試反復進行,最后用一個平均質量模型來確定模型質量的好壞。
(5)預留法:從數據集合隨機抽取預定大小一個子集作為測試集,其他數據則作為訓練集。
(6)交叉驗證法:把整個數據集合按照所要進行的學習測試循環次數分成一定數目的子集,在每次循環中,選取其一個子集作為測試集,其它子集并集則作為訓練集。
4結束語
XML技術不僅為Web上的數據交換提供了一個標準,而且能夠更好的表示數據內容,以及數據的含義。隨著XML的興起和完善,Web頁面會蘊涵更多的結構化和語義的信息,因此,基于XML技術的數據挖掘已成為目前Web挖掘的研究熱點。當然Web數據挖掘這一研究領域還有待于進一步研究。
【web數據挖掘技術分析與研究】相關文章:
基于web的綜合測評與分析05-20
Web 2.0技術的內容08-13
面向電子商務的Web日志挖掘系統09-27
客戶關系管理數據挖掘與應用10-20
計算機web技術介紹06-24
IBM大數據分析07-09
挖掘機技師必備的挖掘機維修技術01-12
推廣中要注意的數據分析05-18
分類數據的統計分析技巧11-01
挖掘機無回轉故障分析與處理09-25