信息檢索
信息檢索(Information Retrieval,IR),從狹義上講,是指用戶使用檢索工具或系統,采用特定的檢索策略和方法,從信息資源集合中找到并獲取所需信息的過程。從廣義上講,它首先是索引和存儲信息的過程,其次是分析和檢索信息的過程。信息檢索的本質是用戶信息需求與信息資源集合匹配的過程。用戶在尋找所需信息時表達需求,系統將需求與信息資源系統中的檢索語言進行匹配。
信息檢索起源于圖書館的參考咨詢服務和文摘索引。它最早發展于19世紀下半葉,到20世紀40年代,索引和檢索已成為圖書館的獨立工具和用戶服務項目。隨著1946年世界上第一臺電子計算機的問世,計算機技術逐漸進入信息檢索領域,并與信息檢索理論緊密結合。20世紀70年代,隨著通信技術的發展,美國出現了Tymnet和Telnet等數據通信網絡,通信成本降低,在線檢索逐漸在美國普及。20世紀80年代,隨著微型計算機的廣泛應用和高密度存儲介質光盤的出現,計算機信息檢索進入了光盤檢索階段。20世紀90年代,隨著衛星通信技術、網絡技術和多媒體技術的發展,信息檢索進入了網絡檢索階段。此外,隨著人工智能技術的發展,互聯網檢索逐漸向語義和知識檢索發展,并進入智能信息檢索階段。
信息檢索的四個基本要素包括信息資源、信息需求、信息獲取和信息利用。實踐中常用的信息檢索技術主要包括布爾邏輯檢索、截止檢索、有限檢索和位置檢索。信息檢索有很多種,按檢索方法可分為手工信息檢索和數字信息檢索;按檢索對象可分為文獻信息檢索、數據信息檢索和事實信息檢索;按組織方式可分為全文檢索、超文本檢索和超媒體檢索,通過按內容特征劃分的主題路徑和分類路徑以及按外觀特征劃分的作者路徑、書名路徑、序號路徑和引文路徑進行信息檢索。
信息檢索廣泛應用于文檔檢索、網頁檢索和社交媒體分析等領域,使人們能夠以最少的時間和精力在文獻中快速準確地獲取所需的知識,并能培養人們獲取最新信息和更新自身知識的能力,使其知識結構和思維方式與社會發展保持同步,提高自主學習能力。然而,信息檢索也面臨著檢索結果不完整、標引準確率低、無法長期提供信息服務等局限性。
歷史發展
信息檢索起源于圖書館的參考咨詢服務和文摘索引。它最早發展于19世紀下半葉,到20世紀40年代,索引和檢索已成為圖書館的獨立工具和用戶服務項目。隨著1946年世界上第一臺電子計算機的問世,計算機技術逐漸進入信息檢索領域,并與信息檢索理論緊密結合。
手動搜索
信息檢索起源于參考咨詢工作,讀者需要獨立使用圖書館提供的書目和索引工具來查詢所需的文獻和信息。在這一階段,信息檢索行為已經出現,但比較分散和不專業,缺乏必要的關注和研究,因此沒有形成專業的信息檢索系統。19世紀下半葉,正式參考咨詢服務逐漸發展起來,尤其是在美國公共圖書館和大學圖書館。20世紀初,大多數圖書館都設立了參考部,主要利用圖書館的書目工具幫助讀者找到書籍、期刊或現成的答案。索引成為一種獨立的檢索工具,書目和摘要開始被編纂并用于專門的文獻檢索。“信息檢索”從此成為一項獨立的用戶服務工作,并逐漸從一項純粹的經驗工作向科學方向發展。然而,人工檢索簡單、成本低、精度高,但效率很低,且無法保證查全率。隨著科學技術的發展,文獻信息日益增多。使用印刷文檔的傳統人工檢索方法已經不能適應信息的快速增長,更不用說跟上時代的發展了。
機械信息檢索
20世紀50年代開始使用機械信息檢索系統。它是一個使用各種機械設備來檢索信息的機械系統。這是從人工檢索到計算機信息檢索的過渡階段。1954年,V Nivard Bush博士在他的文章《正如我們所想》中首次提出了利用機械和電子技術實現信息檢索的想法。他描述了一種稱為“Memex”的非線性檢索機器。他和美國農業部圖書管理員拉爾夫·肖共同建造了一臺名為“布什·肖檢索機”的快速檢索機。這臺機器利用光電原理來檢索拷貝在膠片上的文件。膠片邊緣有黑白點用于編碼,當它遇到要搜索的內容時就會停止。
機械信息檢索系統通過改進信息存儲和檢索方法,使用先進的機械裝置來控制機械動作,并用機械信息處理器的數據識別功能代替部分人腦。這促進了信息檢索的自動化。然而,機械信息檢索系統沒有開發信息檢索語言,而只是使用單一方法檢索固定的存儲形式。此外,它過于依賴設備,檢索復雜且成本高,檢索效率和質量都不理想。因此,機械信息檢索系統很快被迅速發展的計算機信息檢索系統所取代。
離線批量信息檢索
20世紀60年代初,美國開始使用計算機編輯和排版檢索工具,并使用計算機處理文獻記錄。他們將文獻記錄存儲在磁帶上并編制各種索引,實現了自動照片排版和離線批量檢索服務。現階段,“化學學科記錄”和“醫學索引”數據庫相繼產生。但由于當時計算機技術的限制,數據載體主要是磁帶和磁鼓,系統僅由一臺計算機和幾個相關文件組成。專職情報工作者根據用戶的需求和指令編制檢索問題,積累一定數量的問題后輸入計算機進行批量處理。然后將檢索結果返回給用戶。這一階段的特點是用戶不直接參與檢索,而且由于數據載體是磁帶和磁鼓,只能進行簡單的順序檢索。
在線檢索
20世紀60年代中期,以半導體為主要器件的計算機出現,大大提高了計算機的分時處理能力。同時,強大檢索軟件的成功開發使離線檢索迅速發展為在線檢索。DIALOG、ORBIT等國際知名在線檢索系統開始對外提供服務。但是,因為當時的網上搜索是租用公共電話線,所以搜索費用非常昂貴。20世紀70年代,隨著通信技術的發展,美國出現了Tymnet和Telnet等數據通信網絡,通信成本降低,在線檢索逐漸在美國普及。隨后,衛星通信被用于計算機網絡,世界主要計算機檢索系統進入通信網絡為世界各地區提供服務,從而發展成為國際在線檢索。
光盤檢索
20世紀80年代,隨著微型計算機的廣泛應用和高密度存儲介質光盤的出現,計算機信息檢索進入了光盤檢索階段。憑借其超媒體和大存儲容量,光盤一直受到情報界的青睞。與在線檢索不同,光盤檢索不需要投入巨大的基礎設施和復雜的技術,搜索者也不需要擁有專門的檢索技術,更不用擔心通信和在線打印成本。用戶可以不斷修正檢索策略,獲得滿意的檢索結果。除了原來的書目和摘要數據庫外,全文數據庫已被添加到光盤數據庫中。但這種檢索方式受到光盤數據庫更新的限制,提供的信息具有一定的時間差。
光盤檢索系統可分為單機和在線兩種。單機光盤檢索系統由微型計算機、光盤驅動器、光盤數據庫、檢索程序和驅動器組成,它可以是一個獨立的系統,供單個用戶檢索。聯機光盤檢索系統是單機系統的發展。20世紀80年代末,出現了支持光盤網絡的光盤塔和局域網。服務器在局域網(如圖書館內部網或校園網)中連接多個用戶終端,管理和運行一套光盤數據庫,使多個終端用戶可以同時檢索這些數據庫并共享信息資源。
互聯網檢索
20世紀90年代,隨著衛星通信技術、網絡技術和多媒體技術的發展,信息檢索進入了網絡檢索階段。在此期間,越來越多的官方出版物被放到互聯網上,各種電子期刊、電子書和網絡數據庫不斷涌現。互聯網上有書目數據庫、摘要數據庫甚至全文數據庫,這使得信息檢索非常方便,圖像生動而形象。互聯網使信息資源共享成為現實。其規模、復雜性和快速發展的趨勢使其成為世界上強大的通信工具,世界主要檢索系統已進入互聯網。
智能信息檢索
此外,隨著人工智能技術的發展,互聯網檢索逐漸向語義和知識檢索發展,并進入智能信息檢索階段。智能檢索是將現代人工智能技術和方法引入信息檢索系統,使后者具有一定程度的智能特征,并在更高層次上實現其功能。智能信息檢索基于對內容的分析和理解、內容表達、知識學習和推理機制、決策等。以語義和知識檢索為例,與傳統檢索相比,語義檢索不僅可以檢索到與用戶關鍵詞完全匹配的結果,而且可以擴展關鍵詞,這可能會導致更理想的檢索結果。語義檢索將試圖理解搜索者想要檢索的整體思想,并推斷搜索者的檢索意圖,從而檢索到所需的結果。知識檢索與信息檢索的區別在于知識檢索強調語義,而不是像信息檢索那樣僅僅基于字面上的機械匹配。它可以從語義和概念的角度揭示文章的內在含義。在語義和概念層面檢索標引知識將提高查全率和查準率,減輕用戶負擔。
操作原理
信息檢索的本質是用戶信息需求與信息資源集合匹配的過程。因此,信息檢索的一般步驟是從提出問題到解決問題的過程。這個過程需要信息檢索人員從檢索到的信息中識別出能夠解決問題的方法并最終解決問題。信息檢索的基本步驟一般包括分析檢索主題、定義檢索需求、選擇檢索工具、確定檢索路徑、提取檢索詞、編寫檢索表達式、實施檢索、調整檢索策略和輸出檢索結果。用戶在尋找所需信息時表達需求,系統將需求與信息資源系統中的檢索語言進行匹配。如果匹配成功,所需信息將出現在檢索結果中;如果匹配不成功,則需要重新分析檢索需求并調整搜索詞進行二次檢索。由于網絡信息資源量大、更新快,許多信息資源的內容與元數據的描述不匹配,難以實現信息需求與信息集合的完全匹配。在信息檢索過程中,需要根據檢索結果適當調整搜索詞,使檢索結果盡可能匹配信息需求。
基本要素
信息資源
信息資源是用戶滿足需求的基本保障。信息資源可以包括書籍、報紙、研究報告、會議信息、專利信息、學位論文等。根據出版形式,可以包括印刷、機器可讀和視聽類型。用戶通常通過檢索工具來查找和獲取所需的信息資源,檢索工具是在對信息資源進行加工和整理的基礎上產生的。正是由于用戶的信息需求和信息資源的存在,人們開發了各種檢索工具。通過使用這些工具,用戶可以更有效地找到和獲取他們需要的信息,從而滿足他們的需求。
信息需求
用戶的信息需求是信息檢索的必要驅動力,他們通常通過檢索條件來表達這些需求。由于個體差異,不同的用戶會有不同的信息需求,即使對于相同描述的信息,不同的用戶也會有不同的理解。具體體現在人對信息的敏感度、選擇取向和理解識別能力上。信息需求意識包括信息認知、信息情感和信息行為三個層次,是人們學習信息知識和利用信息解決實際問題的基礎。此外,用戶對檢索工具的認知也會影響他們對檢索工具的正確選擇和不同檢索策略的制定。
信息采集
信息獲取是信息檢索的目標。要實現這一目標,需要了解各種信息來源,掌握信息檢索方法,熟練使用檢索工具,正確評價信息檢索效果。它體現在人們應用信息存儲機構(如圖書館、互聯網和各種光盤數據庫)的能力上。當用戶確定合適的檢索工具時,他們需要選擇符合其信息需求的搜索詞和字段來構建檢索條件。設置適當的檢索條件后,檢索工具將執行查找目標文獻的任務。不同的檢索策略會導致不同的結果,關鍵步驟是檢索條件的設置。
檢索工具的質量直接關系到檢索任務的質量,這包括用戶能否在短時間內以較少的成本找到足夠的線索和目標信息的原始信息。根據美國國家基金會在化工部的調查,科研人員的總工作時間分配為:信息收集占50.9%,實驗論證占32.1%,數據處理占9.3%,計劃和思考占7.7%。因此,掌握信息獲取技術可以使研究人員以最快、最準確的方式獲得所需信息。
信息利用
檢索信息資源的目的是為了利用信息資源,檢索效果直接關系到用戶的信息需求。事實上,信息資源是一種可再生資源,在工程和科技領域可以根據不同的目標使用相關信息。一方面,利用信息會開闊我們的視野,避免重復別人的研究工作;另一方面,它還可以將現有信息轉化為新知識。然而,由于在創建各種信息線索時缺乏統一的標準,不同的信息提供者往往根據自己的習慣創建信息線索,導致許多符合用戶需求的信息線索無法找到。此外,一些信息線索雖然符合用戶的檢索條件,但并不完全符合用戶的信息需求。
主要類型
按檢索方式
人工信息檢索:人工信息檢索是一種傳統的檢索方法,主要利用各種工具書,如文摘、索引、手冊、目錄卡片等來檢索信息。這種檢索方法來源于文摘索引和圖書館參考咨詢服務。雖然人工信息檢索不需要特殊設備,方法簡單靈活,易于人們掌握,但它有一些明顯的缺點。沒有機械設備的幫助,檢索過程非常耗時費力,容易造成漏檢和誤檢。同時,由于純手工操作,對操作人員的知識儲備和專業技能要求較高。
數字信息檢索:數字信息檢索主要指計算機檢索。自1946年第一臺計算機誕生以來,計算機在信息檢索領域的應用不斷取得突破。隨著網絡技術和多媒體技術的出現,信息檢索技術也在不斷更新和變化。隨著新媒體時代的到來,數字信息檢索方式也增加了微信檢索、微博檢索和各種應用軟件內置檢索的功能。這些新的檢索方法使人們能夠更加方便快捷地獲取所需信息,同時使信息檢索更加智能化和個性化。
根據檢索對象
文獻信息檢索主要關注文獻的特征,旨在通過各種檢索工具(如文摘數據庫、索引數據庫、書目數據庫等)發現文獻線索。),并根據這些線索找到原始文獻。這種類型的信息檢索涉及大量數據,是信息檢索的主要組成部分。文獻檢索是一個探索相關性的深層過程,它不能直接給出用戶問題的直接答案。然而,通過文獻信息檢索,科研用戶可以深入分析特定主題的主要內容,并為項目研究提供重要參考。
數據信息檢索:數據信息檢索以數據為主要對象,其目的是通過特定的檢索工具(如數值數據庫和統計數據庫)找到特定的數據,如文獻中的特定數據、公式和圖表,或某種物質的化學分子式。
事實信息檢索:事實信息檢索以事實為主要檢索對象,旨在通過特定的檢索工具(如指南數據庫和全文數據庫)找到特定的事實性和知識性答案。與文獻信息檢索不同,數據信息檢索和事實信息檢索都是確定性檢索,用戶可以直接使用檢索到的信息,從而大大節省了研究人員的時間,提高了研究效率。
按組織模式劃分
全文檢索:全文檢索是指檢索存儲在數據庫中的整本書和文章中的任何信息。用戶可以根據個人需求獲取相關章節、段落等信息,同時還可以進行各種頻次統計和內容分析。
超文本檢索:超文本是一種通過超鏈接將不同空間的文本信息組織起來的網絡文本。它由若干信息節點和一條表示節點間關聯的鏈組成,形成一個具有特定邏輯結構和語義關系的非線性網絡。超文本檢索是對存儲在每個節點中的信息和由信息鏈組成的網絡信息的檢索。在超文本檢索中,理解中心節點之間的語義連接結構非常重要,這依賴于系統提供的用于圖形顯示和節點瀏覽查詢的工具。
超媒體檢索:對文本、圖像、聲音等媒體信息的檢索是對超文本檢索的補充。
檢索語言
在搜索時,用戶需要將搜索問題轉換為系統可以接收的語言,這就是搜索語言。檢索語言是用來描述檢索系統中信息的內部或外部特征以及表達用戶信息問題的特殊語言。常見的檢索語言有分類語言和主題語言。
分類語言
分類語言是用分類號和相應的分類條目名稱表示信息主題概念,并根據學科性質對信息進行系統分類和組織的檢索語言。其中,最常見的是系統分類語言,它是按照學科體系從綜合到一般、從復雜到簡單、從高級到低級的順序逐步開發的。常用的檢索語言包括《中國圖書館分類法》、《國際十進分類法》、《美國國會圖書館分類法》、《國際專業分類法》等。分類語言可以更好地反映主題的系統性,通過集中同一主題的文檔有助于用戶從主題或專業的角度進行搜索,但用戶需要知道概念對應的分類號。
中國圖書館分類法
《中國圖書館分類法》,簡稱《中圖法》,是我國各類圖書館和情報單位廣泛使用的綜合分類法。《中國圖書館分類法》是建立在科學分類和圖書特征基礎上的系統分類。它分為五個基本類別,再細分為22個基本類別。每個類別根據學科的具體內容逐層擴展,逐級形成層次分明的科學體系。字母和數字的不同組合代表不同的類別,其中特別的一個是“工業技術”使用兩個字母代表二級類別。
國際十進分類法
通用十進分類法也被廣泛稱為通用十進分類法。它是世界上用戶數量最多、影響最深遠的最大文檔分類。其依據來自美國的杜威十進分類法(DDC),在科技論文分類中應用廣泛。UDC使用簡單的阿拉伯數字作為符號。第一類用單個數字標記(0-9),第二類用兩位數標記(00-99),第三類用三位數標記(000-999)。如果需要進一步細分,將在每個數字后添加一個小數點。
國際專利分類
IPC分類表是根據1971年3月24日通過的《斯特拉斯堡國際專利分類協定》編制的,是世界上唯一的通用專利文獻分類和檢索工具。世界知識產權組織(知識產權組織)負責定期修訂分類表。世界上100多個國家和地區以及世界知識產權組織《專利合作條約》國際局都在使用IPC分類法,該分類法涵蓋了世界上95%以上的專利文獻。國際專利分類系統的架構如下:該系統根據技術主題設置類別,并將整個技術領域分為五個不同的級別,即節、類、子類、組和子組。
主題語言
主題語言又稱關鍵詞語言,不同于以學科體系為中心的分類語言,而是用名詞術語來表達信息的特征。主題語言的檢索直接、直觀,對某一主題信息的檢索效率高。根據編寫方法、規則和規范的不同,話題語言一般分為標題語言、關鍵詞語言、單元語言和敘事語言。
標題詞語言
標題語言是早期的主題語言,用規范的詞匯來表達事物的概念。這些詞選自自然語言,包括單詞、短語或詞組。標題敘詞表是根據標題詞的語言編制的詞匯,包含各種標題詞及其使用規律,揭示詞與詞之間的邏輯關系,是信息標引和檢索的重要依據。然而,由于標題詞匯表中主題詞和副標題詞的固定組合,索引和檢索在一定程度上受到限制。因此,標題語言已經不能滿足現代信息檢索系統的發展需要。例如,標題敘詞表EI (SHE)已經不能完全滿足工程索引(EI)的檢索要求。所以工程敘詞表(縮寫為EIThesaurus)取代了EI敘詞表的位置。
關鍵詞語言
關鍵詞語言是一種自然語言,直接來源于信息的標題、摘要和全文,對表征文獻的主題內容具有實質性意義。除了禁用詞(比如一些冠詞、介詞、副詞、連詞),所有概念上有意義的詞都可以作為關鍵詞。以關鍵詞為詞條的檢索語言稱為關鍵詞語言。常用關鍵詞可以直接表達事物的概念,不受詞庫的控制,能及時反映新事物和新概念。關鍵詞語言在計算機檢索中得到了廣泛的應用。撰寫學術論文和畢業論文時,會在期刊的格式要求中列出3~5個關鍵詞,方便信息檢索。
單位詞語言
單位詞也稱為元詞,是能夠表達主題的最小的、不可分割的詞匯單位。它是由標題詞發展而來的檢索語言。單位詞相對獨立,但特異性低,對精度影響較大。
敘述/描述性語言
描述性語言是以自然語言為基礎,經過標準化后,通過詞語的組合來識別主題的檢索語言。它借鑒了其他檢索語言的優點,并進行了改進。在直觀性、特異性和兼容性方面,敘述語言優于其他檢索語言。
檢索技術
布爾邏輯檢索
布爾邏輯檢索是檢索系統中應用最廣泛的檢索技術之一,也是最早的檢索理論之一。其理論基礎是集合論和布爾邏輯。它使用布爾邏輯表達式來表達用戶的檢索需求。布爾邏輯運算符有三種基本運算符:AND、OR和NOT。這些操作符可以用來連接兩個以上的搜索詞,以表達搜索需求。
攔截檢索
在西方語言中,一個詞的不同形式往往只有語法意義,對使用者來說都是一樣的。因此,為了減少漏檢,大多數檢索系統都采用截詞檢索的方法。截取檢索是指截取搜索詞,只檢索其中的一部分。這種截斷操作可以通過使用特定的截字符號來執行,例如“*”、#”和“$”。
受限檢索
在文檔記錄中,當同一個詞出現在不同的位置時,它在表達文檔主要內容時所起的作用會有所不同。常見的字段限定符包括“in”,“”和“=”。其中“in”是一個字段限定符,表示檢索的內容必須出現在特定的字段中。例如,“洛杉磯的英語”意味著搜索結果的語言僅限于英語。和“.”和“=”分別表示在特定字段中查找單詞或字段的內容。
位置檢索
位置檢索是指使用位置運算符來指定搜索詞在原始文檔中的相鄰位置關系。位置運算符都隱含了邏輯運算符AND的含義,即它們所連接的兩個搜索詞(或搜索表達式)必須出現,但位置運算符還進一步定義了連接的兩個搜索詞(搜索表達式中單詞的位置關系)。
倒排索引
倒排索引是一種在特定應用中根據屬性值查找記錄的索引方法。在索引表中,每一項都包括一個屬性值和具有該屬性值的每條記錄的地址。因為記錄的位置是由屬性值決定的,而不是由記錄本身決定的,所以它被稱為倒排索引。
散列索引
HashIndex是一種特殊的索引,它基于哈希表。哈希索引只對精確查找有用,適合使用索引中的每一列。對于每一行,存儲引擎都會計算被索引的哈希代碼。哈希碼是一個小值,可能和其他行的哈希碼不一樣。存儲引擎將哈希代碼保存在索引中,并將一個指針指向哈希表中的每一行。如果多個值具有相同的哈希代碼,索引會將行指針存儲在鏈表中哈希表的相同記錄中。
查詢擴展
查詢擴展的目的是用與用戶檢索意圖一致的詞對初始的、不成功的查詢進行擴展,或者生成一個最有可能檢索到更多相關文檔的相關查詢。當用戶提交的原始查詢較短且有歧義,需要話題相關詞的幫助時,查詢擴展機制對檢索性能的提升作用顯著,這也符合微博檢索面臨的困難。查詢擴展的基本思想是在信息檢索過程中通過與用戶的交互來提高最終的檢索效果。
Web查詢處理
Web查詢處理是搜索引擎信息檢索的關鍵步驟,也是用戶與搜索引擎交互的核心環節,主要體現在以下兩個方面:
首先,為用戶提供準確的查詢信息是搜索引擎的重要研究方向。由于查詢的特點,目前基于關鍵詞匹配模式的搜索引擎不能完全滿足用戶的查詢需求。此外,隨著搜索引擎中結構化和半結構化數據的日益增多,對這些數據資源進行檢索可以得到更直接、更準確的結果。
其次,從提供信息到提供服務的轉變是當前搜索引擎的一個發展趨勢。搜索引擎致力于成為提供信息、資源(如音頻、視頻、圖像等)的服務平臺。)和互動應用(如地圖、購物、本地生活服務、新聞、社交等。)在網上。這種基于服務平臺的搜索引擎迫切需要準確理解用戶的查詢需求,為用戶提供更加個性化、場景化的精準信息搜索服務。
檢索模型
布爾型
布爾檢索模型是一種經典的信息檢索模型,廣泛應用于傳統的信息檢索系統中。它將文檔表示為布爾表達式,然后通過與用戶查詢的表達式進行邏輯比較來檢索相關文檔。在布爾檢索模型中,用戶可以使用邏輯運算符(AND)和(OR)和(NOT)將多個關鍵字連接成一個邏輯表達式來提交查詢。匹配函數由布爾邏輯的基本規律決定,通過文檔表達式與用戶查詢表達式的邏輯比較進行檢索。檢索到的文檔或者與查詢相關,或者與查詢無關。
向量空間模型
向量空間模型(Vector Space Model,VSM)是Salton于1975年提出的信息檢索理論框架,旨在解決布爾模型中二進制權重的局限性。VSM使用特征詞的表達方式,使用TF-IDF($ TERM-frequency/inverse document frequency)為特征詞分配權重,使用倒排文件建立索引,使用余弦夾角作為距離度量,使用查全率和查準率來評價檢索系統的性能。這些成果已成功應用于基于關鍵詞的中英文信息檢索。
向量空間模型最大的優點是在知識表示上有很大的優勢。在向量空間模型中,通過從文檔資源中提取它們的特征詞并以某種方式對特征詞進行加權,將文檔資源轉換成一組特征向量。與文檔資源的表示方法類似,用戶簡檔也可以用向量空間模型來表示,即基于相同的特征詞將用戶簡檔表示為n維空間中的向量,向量中的每個一維元素由對應的特征詞及其權重組成,權重值表示用戶對特征詞的興趣。
概率模型
概率模型是基于概率排序原理的信息檢索方法。它根據與查詢相關的概率對文檔資源進行排序,將最有可能的文檔資源放在最前面。概率模型旨在解決信息檢索中相關性判斷的不確定性和查詢信息表示的模糊性。在概率模型中,我們可以通過概率計算來分析特征詞之間的依賴關系以及特征詞與文檔資源之間的關聯關系。這有助于預測文檔與用戶查詢的相關概率,進而根據相關概率對檢索結果進行排序。
檢索方法
根據內容特征
主題方法:主題法是一種根據文檔內容的主題來查找文檔的方法。它以確定的主題詞作為搜索條目,按照主題詞順序進行搜索。通常利用文獻檢索工具中的主題目錄和主題索引來實現。選擇主題詞的參考系統是詞庫。用主題法檢索文獻的優點是直觀,適合于特征檢索,不需要考慮文獻的主題體系。
分類方法:分類方法是一種根據主題類別檢索文檔的方法。它以分類號(或類別)為檢索條目,按照分類號(或類別)的順序進行檢索。通常,使用文獻檢索工具中的分類目錄和分類目錄,基于參考分類系統,例如分類和分類目錄。使用分類方法檢索文獻的優點是同一學科領域的文獻可以一起檢索,便于系統檢索特定學科領域的研究資料。通過主題分類系統,可以快速定位相關文獻的類別,提高檢索效率。然而,分類方法存在一些缺點。新興學科、交叉學科、邊緣學科在分類時往往難以明確識別,給查找帶來不便。另外,一定要了解學科分類體系的構建,以及概念轉化為分類號的過程,否則容易出錯,導致漏檢。
根據外觀特征
作者方法:按作者姓名查找文獻是以已知作者(個人作者、團體作者或公司、機構)的姓名為檢索入口,通過作者目錄、個人作者團體作者索引等途徑查找所需文獻的方法。
所有權方法:根據文章或書刊的標題進行檢索,是根據標題(包括標題、期刊、文章)查找文獻的一種方式。這種方法將標題作為檢索條目。只要知道文檔的標題,就可以通過文檔的標題索引(目錄)找到所需的文檔。
序列號方法:按文獻序號檢索是利用序號(如專利號、標準號、報告號、合同號、文獻登記號或人存號等)查找文獻的一種方式。)出版時編為檢索入口。在序號索引中,只是數字的序號按數字大小排列,字母和數字混合的序號先按字母順序排列,再按數字大小排列。如果文獻號已知,使用這種檢索方法不僅簡單,而且不易造成誤檢或漏檢。通過文獻序號進行檢索,可以準確找到所需文獻,提高檢索的準確性和效率。根據文獻序號進行檢索時,要保證所使用的索引或數據庫完整可靠,避免因索引或數據庫不完整而造成漏檢或錯檢。
引用方法
通過參考文獻或附在文獻末尾的引文檢索工具找到被引用的文獻。
搜索方法
追溯性法律:追蹤法可分為前向追蹤法和后向追蹤法。
向前追蹤法:前向追溯法是一種傳統的獲取文檔的方法,它利用相關文檔所附帶的參考文檔進行回溯搜索。因為附在作者文獻上的參考文獻一般比作者文獻早5-10年,所以只能用回溯法檢索作者文獻之前5-10年內的文獻。此外,由于作者文獻所附參考文獻數量有限,提取年份不連續、不系統,參考文獻較多時,可能會混雜一些參考價值不大的文獻,影響文獻檢索的效果。因此,只有在文獻檢索工具不全或計算機網絡環境不好的情況下,才會采用這種方法。
反向追蹤法:回溯法又稱引文法,是利用文獻檢索工具引文索引(如美國出版的《科學引文索引》)對文獻進行追溯的方法。引文索引是按照期刊論文所附參考文獻的作者姓名的順序排列的。在該索引中,引用文獻的作者及其文獻來源按年份列在被引用作者的名字下。如果要查找被引用文獻的標題,可以重用源索引。引用文獻的標題和尋找原文的線索可以在源索引中找到。來源索引中所列的引用文獻,就其內容而言,必須比被引用文獻新,有些論點具有創新性。如果我們繼續從引用的文件中搜索,我們可以找到一些比原始文件內容更新穎的相關文件。這種方法可以避免文獻分類和主題檢索的困難。有時候,只要知道一篇論文的作者,也可以檢索到所需的文獻。此外,檢索邊緣學科和交叉學科的文獻也是一種非常有效的方法。
工具方法
工具法是利用文摘、索引、標題等各種文獻檢索工具(文獻數據庫)查找文獻的方法。因為這種方法是文獻檢索中最常用的方法,所以也叫常用方法。工具法有三種方法:直接檢查、反向檢查和抽查。
后續方法:順序搜索法是一種按時間順序從前到后查找文檔的方法。它從課題研究開始,利用文獻檢索工具逐年查找,直到最近。順序搜索法的優點是漏檢少,找到的文檔可以及時篩選,所以查全率和查準率都比較高。其缺點是檢索工作量比較大,需要一套完整的文獻檢索工具和充足的檢索時間。用這種方法檢索到的文獻比較系統有助于了解該學科的產生、演變和發展。
向后搜索方法:向后搜索法與向前搜索法相反,即從近期逐年向長期搜索。反向搜索法的檢索效率比正向搜索法高,耗時少,但能檢索到內容新穎的文檔。
測試方法
抽查法是根據學科發展特點,選取學科發展較快、文獻發表較多的年份進行集中檢索的方法。它的優點是檢索時間相對較短,但可以獲得更多的相關文檔。但使用抽查法要求檢索者熟悉學科發展特點,了解學科文獻集中發表的時間和范圍,才能達到最佳檢索效果。
交替法:交替法又稱循環法,實際上是回溯法和工具法的結合。根據組合的不同,可分為復合交替法和區間交替法兩種。
復合交替法:復合交替法是一種結合了工具法和回溯法的文獻檢索方法。首先利用文獻檢索工具找到若干有用的文獻,然后利用這些文獻所附參考文獻提供的線索進行回溯,擴大搜索范圍(即第一種工具法和第二種追溯法)。或者,先掌握一批文獻所附參考文獻的線索,分析各種檢索途徑(如作者途徑、分類途徑、主題途徑等。)適合查找這些文獻,然后使用相應的文獻檢索工具擴大檢索范圍,獲取新的文獻線索(即第一種回溯法和第二種工具法)。
區間交替法:區間交替法是一種結合工具法和回溯法的文獻檢索策略。首先通過文獻檢索工具找到若干有用的文獻,然后利用這些文獻所附的參考文獻進行回溯檢索,擴大檢索范圍。之后跳過一定時間(一般是5年),再用工具法找出一批新的有用的文獻,再回溯。這個循環用于檢索。之所以可以跳過五年,直接從工具書上找文獻,是因為根據文獻出版的特點,重要文獻會在五年內被引用,也就是說會出現在參考文獻中。
應用領域
文檔檢索:文獻檢索(Archie)為用戶提供了搜索和獲取電子目錄資源的功能。它實際上是一個大型數據庫,以及與這個數據庫相關的檢索方法。文檔檢索最初是由麥吉爾大學的學生開發的計算機科學項目。文檔檢索的核心是數據庫,數據庫中包含了可以通過FTP獲取的資源信息,包括文件名、文件長度、計算機名、文件存放的目錄名等詳細信息。文檔檢索數據庫大約每月與每個站點進行一次FTP連接,并生成站點提供的內容列表。然后,這個數據庫將被發布到各種文檔檢索服務器,以便每個人都可以使用它進行查詢。
網絡搜索:在眾多的網絡主機和網頁中,如果你想鏈接到某個特定的網站,但又不知道網址,你必須先搜索網頁。一般來說,網絡搜索是利用門戶網站中的搜索引擎來完成的。只要在搜索引擎的查詢欄輸入關鍵詞,就可以查詢到相關的網站和網頁。Web索引技術是按照一定的邏輯規范或排列順序組織和管理文獻數據庫的方法。應用網頁搜索的本質特征是只揭示網頁內容的大致主題和網頁來源的“來源或線索”信息。對于數據組織或用戶查詢,web搜索并不直接提供網頁本身的完整內容信息。搜索引擎利用網頁搜索的主要作用是為廣大網絡搜索用戶快速獲取海量網頁全文內容提供準確高效的線索引導。
社交媒體分析:社交媒體數據挖掘源于人們對社交媒體數據分析的需求。社交媒體上的用戶,因為自身的“社交屬性”,形成了一個網絡社會。在這個社會中,用戶之間有許多不同類型的“交流”,包括一般的交談,給予評價,分享自己的狀態更新,以及對他人的分享和信息表示贊賞。通過在社交網站上收集用戶信息,營銷人員可以更好地了解客戶行為、目標受眾細分和受眾粘性。