范例推理下旅游計劃推薦系統設計的關鍵問題論文
隨著我國旅游業和互聯網電子商務的迅猛發展,互聯網上的旅游電子商務網站成百上千,而這些網站提供的旅游相關信息堪稱海量。這為普通游客設計自己的旅游計劃提供了豐富的選擇和參考,但同時也大大增加了 信 息 篩 選 和 比 對 的 難 度。例 如,使 用“百 度”搜 索 引 擎 檢 索 關 鍵 字“九 寨 溝 三 日 游”,檢 索 結 果 獲 得23 800 000個頁面。為此,建立一個第三方網站,通過“推薦系統”向游客提供旅游計劃個性化服務具有很高的實用價值和商業價值。傳統的“推薦系統”一般基于用戶的歷史記錄(例如網頁瀏覽記錄、產品購買記錄、對產品的評價或評分等)設計推薦算法,但旅游活動不同于一般的產品消費,即游客一般不會重復地旅游或者頻繁地旅游。因此,旅游電子商務網站的“推薦系統”有必要選擇其他 理論和技術作為基礎。比較普遍的情況是,游客對于自己將進行的旅游活動僅有一些初步的想法(例如時間、費用、旅游地點等),對于具體行程安排不太了解,所以在制定旅游計劃的過程中往往喜歡參考別人的旅游計劃或者經驗,并以此作為自己旅游計劃的基礎和依據,修改這些例子以形成自己的旅行計劃。有鑒于此,范例推理(Case-based Reasoning)理論和技術可運用到旅游電子商務網站的“推薦系統”設置中。范例推理理論和技術起源于美國,是人工智能領域中較新穎和成熟的一種問題求解和學習方法。它的基本思路是在新問題的解決過程中,通過尋找與之相似的歷史范例,挖掘歷史范例中可資借鑒的信息和知識,進而形成新問題的對應解決方案。基于范例推理的問題求解過程的可以分為4個階段:范例檢索(Retrieve)、范例重用(Reuse)、范例修正(Revise)和范例保存(Retain)。
1 機構框架
基于范例推理的旅游計劃推薦系統由三個層次構成,即游客應用層、Web服務層和數據源層,見圖1.
(1)游客應用層。該層為游客訪問推薦系統提供一個的良好的交互操作界面,游客可輸入文字、數字等信息,瀏覽、修改和保存旅游計劃推薦系統的輸出結果。(2)Web服務層。該層負責從數據源中檢索、更新數據。旅游計劃推薦系統運行在該層。該層主要模塊包括管理模塊(負責和“游客應用層”相互作用,管理其他模塊、維護“數據源層”、檢索模塊(負責CBR技術中的檢索、匹配功能)。(3)數據源層。該層包括旅游計劃收集庫、旅游計劃范例庫和游客資料庫等。其中,旅游計劃收集庫包含大量采集自各網站的、未經整理的旅游信息資料;旅游計劃范例庫包含大量的標準化的旅游計劃范例;游客資料數據庫包含著登陸游客的相關歷史記錄。
2 關鍵技術與方法
基于范例推理理論和技術,本文將范例推理系統作為旅游計劃推薦系統的'核心組成部分。為了保證旅游計劃推薦系統正常運作,該范例推理系統必須解決3個關鍵問題,即旅游計劃采集系統、旅游計劃范例庫和旅游計劃范例檢索設計。
(1)旅游計劃采集系統。旅游計劃范例的搜集工作主要依賴旅游計劃自動采集系統進行。該系統通過“URL模板匹配庫”過濾出可以解析的網頁,然后將可解析的HTML文檔進行網頁結構化處理,生成XML文檔。最后結合DOM4J和XPath語言建立頁面解析模板,從XML文檔中抽取指定節點信息,并將其存儲進入旅游計劃收集庫。旅游計劃采集系統工作流程參見圖二。需要說明的是,筆者將XML語言應用在網頁信息自動抽取過程中。XML是一種元標記語言,它將結構、內容和表現分離,提供描述結構化資料的格式,有著較好的數據存儲格式,可擴展性,高度結構化,語義性強、能夠解決HTML網頁的數據的異構性和半結構化問題。URL模板匹配庫是一個包含了旅游電子商務網站URL特征的XML文件,與待抽取網頁的URL進行模板匹配,判斷頁面是否可以被解析并確定其網頁解析模板。XPath(XML Path Language)是一種在XML文檔中查找信息的語言,可用來在XML文檔中對元素和屬性進行遍歷。用DOM4J解析器可以從指定的XML文檔中自動抽取出所需信息。
(2)旅游計劃范例庫。各旅游商務網站提供的旅游計劃包含大量信息,內容側重點和格式等大相徑庭,因此必須將這些旅游計劃進行標準化處理,即將一個個旅游計劃依據需要事先確立旅游計劃范例模板轉化為旅游計劃。該范例模版既能夠最大限度地反應普通游客對旅游計劃的諸多關注要點,而且信息應該言簡意賅,一目了然。為了更好的了解普通游客對旅行計劃的關注要點,筆者與Phuket ABC Tour合 作 進 行 了 旅 游 計 劃 網絡問卷調查,歷時30天,獲得“旅游計劃問卷調查表”100份(該問卷調查表調研對象為普通游客,調研主要內容為對旅游計劃的關注要點進行排序和打分)“旅游計 劃問卷調查表”統計結果顯示,普通游客對旅游計劃的關注要點由強到弱排序為景點、時間、費用、住宿、餐飲、交通。為此,筆者設計了一個旅游計劃范例模版(以成都國旅的九寨溝三日游為例),見表1.旅游計劃范例庫存儲有大量旅游計劃范例,并且能夠不斷補充的新的旅游計劃范例。
(3)旅游計劃范例檢索。與旅游計劃范例模板相匹配,筆者設計了新旅游計劃模版,游客可根據自身需要選填各項。新旅游計劃模版見表2.表2中,“關注程度排序”可理解為游客賦予各“關注要點”的權重;“時間”和“費用”兩項為數值,“地點”、“住宿”、“餐 飲”、“景 點”、“交通”和“旅游對象”項為字符。假設新旅游計劃與旅游計劃范例分別表示為t和s,fti和fsi分別表示新 旅 游 計 劃 和 旅 游 計 劃 范 例 的 第i個“關注要點”的數值或字符。
對于旅游活動的“時間”和“費用”而言,如果新旅游計劃設定的數值與旅游計劃范例的數值之間差距過大,則游客 一般 難 以 接 受,例 如5 000元與50 000元之間的差距,5天與10天之間的差距。故根據生活常識設定兩者差距介于0.5和1.5倍之間為有效相似度,否則為無效相似度。
地點“、”住宿“、”餐飲“、”景點“、”交通“和”旅游對象“等字符項目相似性計算公式為
將單個關注要點的相似度與其權重相乘(w{1,2,3…7}),其結果再相加得到新旅游計劃與旅游計劃范例的總體相似度。總體相似度越大,說明新旅游計劃與旅游計劃范例越相似。旅游計劃范例按照總體相似度降序輸出。
3 結語
為了幫助游客從海量網絡旅游信息中解脫出來,快速、有效地制定個性化的旅游計劃,筆者嘗試提出了基于范例推理的旅游計劃推薦系統的系統框架。該系統在實際運用過程中還存在一些難題,需要大量關鍵技術與方法的支撐,筆者僅進行了簡要的探討,未來還有待于進一步研究。
參考文獻:
[1] 張曌,夏國平,李雪峰。基于案例推理的電子商務個性化推薦系統[J].計算機工程,2007(20):187-189.
[2] 楊健,趙秦怡。基于案例的推理技術研究進展及應用[J].計算機工程與設計,2008(3):710-712.
[3] 胡少榮,孟嗣儀,劉云,等。網頁信息自動抽取技術的研究[J].鐵路計算機應用,2010(9):37-40.
[4] 李施施,葉柏龍。基于案例推理的電子商務推薦系統研究[J].計算機光盤軟件與應用,2013(3):14-15.
【范例推理下旅游計劃推薦系統設計的關鍵問題論文】相關文章: