- 相關推薦
大數據架構下的文獻資源管理應用論文
摘要:本文介紹了在圖書館情報領域數據管理中存在的信息孤島、數據類型缺乏統一架構等問題,通過對實際應用中數據類型的分析,利用大數據存儲的系統架構,使用關系型數據庫與非關系型數據庫結合,同時輔以內存數據庫和分布式文件系統,對內部用戶提供統一元數據管理,對外部提供統一數據訪問平臺和統一數據搜索引擎,從而實現對多種結構數據資源的管理和應用.
關鍵詞:圖書館;大數據;數據存儲;異構數據;非關系型數據庫
作為以圖書館為基礎的情報研究機構,隨著近年數據資源量的不斷增加,各類文獻、圖書、期刊、基礎數據等都需要進行穩定的存儲與高效率的分析。同時,基于這些數據的知識庫、咨詢服務智庫等系統的建設也都迫在眉睫。為了能充分管理眾多數據,為各類系統提供數據基礎,有必要建設一個結構統一、技術先進、可重復利用的數據資源平臺,統一管理各類數字化資源。
1存在問題
面對大量的數據資源,在信息化過程中通常會碰到以下問題:1.1信息孤島現象這種現象是指需求建設的應用系統存在相互之間在功能上不關聯互助、信息無法共享互換以及信息與業務流程和應用相互脫節等問題,缺乏統一元數據管理。1.2多種類型數據缺乏統一數據架構每個業務環節都會有大量非結構化、結構化、半結構化數據,如何對這類數據進行統一分析管理。在這些多種結構的數據中存在大量內在關聯,只有統一數據存儲,才能進一步挖掘出數據中存在的深層價值。1.3軟硬件環境重復購買現象在信息化建設過程中,新建應用系統都會根據自身需求重新搭建軟件、硬件環境,大部分系統運行所需軟硬件并沒有達到資源的滿負荷利用。1.4缺乏統一數據標準由于多年系統建設過程中由不同團隊開發,造成相同數據內容格式不統一,存在大量冗余數據,彼此數據更新不暢通。1.5缺乏統一數據安全管理方案在日常工作過程中需要進行大量數據交互與實時操作,缺乏統一的信息化安全手段對數據分配權限進行管理,并實現定期的資源備份。
2建設目標
基于以上狀況,考慮基于大數據架構的文獻資源管理方案應可達到以下目標:(1)實現基于統一元數據定義的信息集中管理和信息共享,為數字出版、數據加工、咨詢服務、日常管理等各項工作提供統一數據資源平臺。(2)實現統一大數據環境,滿足各個應用對于文檔數據、關系型數據、非關系型數據和內存型數據的統一存儲需求。(3)構建基于SOA架構的應用系統,保證在應用對于數據訪問權限的統一管理。(4)建設統一搜索環境,滿足于各種數據資源能夠統一搜索查詢訪問。(5)建設必須具備高度的先進性、可靠性、可用性、安全性并具備良好的擴展性和靈活性。
3建設方案
3.1資源建設方案
圖書館中常見資源主要包括文獻、圖書、期刊、數值型數據、動態信息等。依據數據結構的不同,可主要分為基礎數據、結構化數值型數據、非結構化數據、動態信息、其他文字類信息等幾類。其特點如下:(1)基礎數據:主要如書目、期刊文獻等數據;(2)動態信息:主要包括各類網站、媒體發布的信息,時效性比較強;(3)非結構化數據:主要包括格式不夠統一的數值型數據;(4)結構化數值型數據:可以定期獲取的格式相對規范的數據,如海關進出口數據、圖書期刊銷售數據;(5)其他文字類信息:更新頻度較慢的文字類數據,如各類法律庫、研究報告等;針對不同類型的數據資源,應對其采用特定的方式進行處理、保存及利用。3.1.1基礎數據包括如數據、期刊文獻等基礎數據都應經過數字化加工、元數據定義、自動標引、關鍵數據提取等多個步驟,分別保存至相應數據庫。3.1.2動態信息動態信息的來源主要是各個網站,包括網站文章及各類輿情信息。可以由技術手段完成從信息采集、分類整理到分發的所有過程。整個流程由三個規則來體現:分別是采集規則、分類規則、分發規則。采集規則:采集規則由編輯確定,包括來源網站、欄目等。利用爬蟲技術,可對所有網站的資源進行自動增量采集,并裝入“待分類庫”。分類規則:分類規則利用到詞表、詞庫以及自動標引技術。由專家及編輯對所有資源進行多維度分類,并提供相應的語料,經過學習,對之前進入“待分類庫”中的所有數據進行自動標引。之后,所有的數據將被從多個維度被分類。保存后即可方便準確的提取。分發規則:在完成上述兩項工作之后,所有的動態信息已經被分門別類的整理好。通過分類、關鍵詞即可快速提取相關的信息。對于已經經過規范化處理的動態信息,也可以直接利用形成產品,同樣依據自有的多維分類,即可把相關的動態信息直接推送給用戶。3.1.3結構化數值型數據結構化數值型數據包括海關進出口數據、統計局數據、產品庫等眾多格式相對規范資源。由于數據量的不斷增大,需要考慮使用數據倉庫技術對所有的結構化數據進行規范保存,利用建模的方式保存數據。這類數據的主要用途分為兩部分對內提供數據的查詢,對外提供報告的自動生成。(1)數據查詢。規范化存儲之后的數據可以方便的通過多個維度進行查詢、鉆取,內容的研究人員可以直接通過輸入查詢條件進行數據的查詢,同時生成各類圖表。(2)自動報告。對外可以以產品的形式提供多種數據報告,利用預先準備的模板,在用戶選擇所需報告之后,利用已有數據,套用不同模板形成一份自動的報告。3.1.4非結構化數據對于非結構化數據,將主要通過兩種方式來處理。(1)非結構化數據的結構化。部分非結構化數據本質是結構化數據,因為某些原因才造成了數據的不完整,對于這類數據,需要整理結構的最大集并將相應的數據填入對應字段。在完成此步驟之后,可采用類似對于結構化處理的方式對這些資源進行處理。(2)非結構化數據的標引分類。除上述的數據之外,還有一部分非結構化數據過于零散,只能采用標引的方法實現這些數據的歸檔利用。方法和動態信息的處理方式類似。3.1.5文字類信息文字類信息的特點是實效性不強,每次發布后都會長期使用。比如法律法規、咨詢報告等。這類資源應主要采用自動標引的技術進行處理。首先也需有多個維度的分類、詞庫、詞表以及語料,經過學習后將每篇文章進行標引分類,之后再將文章內的段落進行二次標引。這樣,所有的資源都可以通過關鍵詞、多個維度的分類進行提取,即可獲取具體段落資源、也可以獲取完整的文章報告。這類規整后的信息可提供給內部科研人員作為資料進行調用,同時可以為結構化數據的自動生成報告提供文字資源。
3.2技術建設架構
針對資源建設的方案,考慮采用關系型數據庫與非關系型數據庫結合的方式建立存儲架構。3.2.1數據存儲技術一個完整的數據環境,需要面對來自于各個方面的數據存儲需求挑戰,主要存在的數據存儲需求為:(1)文檔型數據存儲需求(2)關系型數據庫數據存儲需求(3)實時型數據存儲需求(4)非關系型數據關系型數據庫的優勢在于保持數據的一致性,由于以數據標準化為前提,數據更新的系統開銷很小,同時可以方便的進行Join等復雜查詢。MySQL是目前最流行的關系型數據庫管理系統。尤其在WEB應用方面,它與PHP語言的結合是目前最為成熟、穩定、安全的技術之一。針對現有數據,絕大多數的結構化數據都可以保存在該類數據庫中,從而實現復雜條件下的檢索操作。同時,關系型數據庫擔任保存整個系統元數據架構與基本數據的任務,是其他結構數據庫存儲及導入導出的基礎。NoSQL泛指非關系型的數據庫。它的優勢在于性能,由于NoSQL是基于鍵值對的,可以想象成表中的主鍵和值的對應關系,而且不需要經過SQL層的解析,所以性能非常高。另外可擴展性同樣也是因為基于鍵值對,數據之間沒有耦合性,所以非常容易水平擴展。它可以最大程度的解決關系型數據庫所不擅長的大量數據的寫入處理和為有數據更新的表做索引或表結構變更等問題。用NoSQL可以方便的保存系統中的非結構化數據,并根據實際需求隨時調整其結構。分布式文件系統(DistributedFileSystem)是指文件系統管理的物理存儲資源不一定直接連接在本地節點上,而是通過計算機網絡與節點相連。由于系統中數據資源過于龐大,為提高其使用訪問效率,利用HDFS的一次寫入、多次讀寫的特性。數據集一旦由數據源生成,就會被復制分發到不同的存儲節點中,從而響應各種各樣的數據分析任務請求。以Redis為代表的內存數據庫,是基于全部數據都存在內存中的技術體系,拋棄了磁盤數據管理的方式,它在采用半持久化模式運行時所有數據都是保存在內存中,然后不定期的通過異步方式保存到磁盤上。通過這種方式,內存數據庫在保證讀寫速度遠超過傳統數據庫的基礎上,又可對其數據進行分布式存儲且具有可恢復性。針對以上需求內容,結合各種軟件的特性:(1)MySQL滿足關系型數據庫需求;(2)NoSQL滿足對數據結構要求靈活需求;(3)HDFS滿足文檔類型數據存儲需求;(4)Redis內存型數據庫,滿足高速存取需求;提供統一數據存儲環境,為后續數據統一元數據管理、數據統一權限管理、數據統一搜索等建設提供了充分必要條件。3.2.2數據訪問平臺統一數據存儲提供大容量數據存儲環境,滿足數據存儲的大量、高速、多樣的需求。在這個基礎上,還需要有統一元數據對存儲的數據結構進行定義,統一數據訪問安全控制對數據訪問者進行權限控制,用數據統一搜索打通各種類型數據,為后續數據挖掘分析提供數據高速訪問接口。3.2.3統一元數據管理元數據(Metadata),又稱中介數據、中繼數據,為描述數據的數據(dataaboutdata),主要是描述數據屬性(property)的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。元數據算是一種電子式目錄,為了達到編制目錄的目的,必須在描述并收藏數據的內容或特色,進而達成協助數據檢索的目的。將所有資源的元數據統一管理,是進一步應用的前提。3.2.4數據統一搜索在具備數據存儲與數據訪問平臺基礎上,構建滿足于融合關系型數據庫、非關系型數據庫、文件數據庫以及內存數據庫的統一搜索引擎,并在構建搜索索引過程中融入專業詞庫詞表。以Web服務方式提供搜索引擎服務,對用戶所輸入的文字進行分詞,并結合搜索引擎索引,進行詞關系匹配,并按用戶所需排序格式提供數據排序給用戶。搜索服務提供web服務方式給應用系統使用,應用系統需根據自身權限范圍進行數據搜索范圍設置。通過上述平臺的組合,可以為圖書館中文獻、圖書、期刊、數值型數據、動態信息等為主的各類型數據提供完整的管理解決方案,并通過具有詞表技術的搜索引擎提供對外接口。
4結束語
雖然關系型數據庫有著技術成熟、易維護、支持SQL方式的復雜查詢、豐富的完整性約束等諸多優勢,且在圖書館情報領域被廣泛應用。但隨著數據量的不斷增大,數據類型的不斷增多以及應用模式的不斷變化,嘗試傳統數據架構+大數據架構的存儲、管理和應用將是圖情領域未來的技術架構發展方向。
參考文獻
[1]朱潔,羅華霖.大數據架構詳解:從數據獲取到深度學習[M].電子工業出版社,2012.
[2][美]湯姆,懷特(TomWhite)著.王海,華東,劉喻,呂粵海譯.Hadoop權威指南:大數據的存儲與分析(第4版)[M].清華大學出版社,2011.
[3]栗蔚,魏凱.大數據的技術、應用和價值變革[J].電信網技術,2013(07).
[4]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013(01).
[5]申德榮,于戈,王習特,聶鐵錚,寇月.支持大數據管理的nosql系統研究綜述[J].軟件學報,2013(08).
【大數據架構下的文獻資源管理應用論文】相關文章:
數據挖掘的論文參考文獻10-14
安卓應用論文參考文獻04-19
計算機應用論文參考文獻05-30
旅游管理下數據挖掘運用論文11-18
人力資源管理畢業論文參考文獻03-11
人力資源管理論文參考文獻05-08
數據挖掘在旅游電子商務中應用論文11-28
淺談資產評估中大數據的應用論文01-21
標準文獻論文文獻格式12-04