2016-03-06

Some Fundamental Concepts of Information Retrieval.

Author: Patrick Wilson

Title: Some Fundamental Concepts of Information Retrieval.

Citation: Drexel Library Quarterly, 14(2), 10-24

Topic: Information retrieval

Purpose: 說明資訊檢索中五個重要名詞的概念。


Summary:

在有些學科中的實務人員成常常不知所以然的討論或是應用一些實用技巧,而Wilson認為這樣的情況只能存在比較沒價值的(Wilson稱這樣的學科是Cheap)學科之中,但是資訊檢索就是一個例子,在資訊檢索中就有如此的情況,因為許多基本的概念都缺乏公認的定義。像是什麼是的資訊? 什麼是相關?什麼是資訊需求等等,所以Wilson撰寫這篇文章就是為了解決這個問題。

此文章Wilson主要闡述五大名詞,分別是資訊 (Information)、關於 (About)、相關 (Relevance)、需求 (Need)與用途 (Use),最後說明理想的檢索系統。

一、資訊 (Information)
首先我們必須先從文件來說。文件這個載體包含各種資訊,這樣子的說法有兩種角度,即文件包含某主題的資訊與文件包含某主題的「正確」資訊,換句話說文件可能包含各種資訊,但是無法保證資訊的正確性。
可是如果我們認真檢視文件包含(Contain)資訊這件事,就會發現其實文件只包含文字,資訊並不存在,而資訊是用這些文字是來表達的。再者,相同文字也不包含相同的資訊。例如有一人說「真是漂亮」,指涉的對想可是人、風景或是球技。因此資訊存在人的心中,由個人來詮釋,在個人的信念中又參雜正確與不正確。同時也涉及資訊輸出者與接受者之間的關係。
資訊輸出者與接受者的四種關係:

1. 接受者無法確認資訊正確,僅只於了解

2. 接受者自認理解,接受並成為信念

3. 確認資訊正確,但是僅止於了解


4. 承第三點,更進一步接受成為信念


資訊存在著正確與不正確的情況,對於資訊檢索上的意義在於,如果檢索系統中檢索到的資訊並無法分辨真偽,Wilson認為那應該稱為「內容檢索」,而不是「資訊檢索」。所以我們目前的資訊系統均屬於內容檢索,因為無法分辨正確與錯誤的資訊。


二、關於 (About)
關於與分類、索引有關,目的是在描述文件的內容,換句話說,關於是探討文字與真實世界的關係。許多學者研究關於的操作型定義,目的更了解關於的本質,進而達到索引的一致性,因為如果可以依操作型定義選擇詞彙,不同索引者做出的索引就能就能達到一致。Maron對於關於的定義是若文件關於某一主題,此主題以詞彙i表示,所以使用者檢索時會以詞彙i作為檢索詞。但是從資訊組織的觀點Wilson認為Maron的觀點無法分辨主題索引與非主題索引,遵循Maron的做法會導致每次的索引作業不一致。
Wilson認為任何文件均具有規律結構,資訊的規律結構就是言談結構的展現,因此我們可以利用言談結構組織資訊,言談結構包含歷史背景、問題陳述、解決方法等等。


三、相關(Relevance)
一直以來對於相關就被用來評估系統的檢索結果的好壞,其中主要的兩個評估指標就是求準率(Precision)與求全率(Recall)。但是對於相關的定義則一直沒有一個明確的定義。
Wilson從字典上整理出,相關在字典上的解釋有:對於自身有關或影響的事物;可以證明事務或議題的事物;與某事物有可回溯的、顯著的、邏輯上的連接。所以可以理解出相關是邏輯性的詞彙。Wilson認為相關的意義就是一個文件「值得被檢索的」,Wilson給了一個詞retrieval-worthy,意思就是在檢索需求與特定資料之間,相關的文件就表示為應該被檢索到的文件,文件相不相關的依據為是否該被檢索到,再依據與檢索要求相關的程度作為文件排序的依據。
但是相關的認定上牽涉需求者提出的需求的本質,以及需求者本身的情境與內心。所以很難有一個直接又明顯的證據可以顯示相關。認定相關的方法,依不同任務而有差異,這些任務有尋找這篇文獻的內容、了解文獻間的關聯、評估文獻的利用價值等等,不同的需求者對於不同因素的權重不同,對於相關的程度判斷亦有差異。


四、需求(Need)
對於需求Wilson分為積極與消極。在積極的需求方面,指的是當某物是需要的,意思就是其為達成目的必要條件(sine qua non),目標與需求是互有關連的。有目標才有需求,需求是指達到目標的必要事物。在消極的需求方面,指的則是在達成目標的過程上非必須的需求,而是可以使我們容易達到目標的需求,例如減輕成本、增加效率、使成果更好等等,而這些需求便會衍生出資訊的需求,因為人需要資訊協助判斷。但是人不一定明確知道自己的需求並且明確表達出來,就算說出你想要什麼,對於其它自己真正的需求可能也不一定察覺出來。
在另一方面,資訊需求存在著供給端與需求端的關係,供給端指的是檢索系統,檢索系統給的資訊可能也包含誤訊,但是需求者卻會有兩種情況發生,有可能收到誤訊而不滿意,也有可能雖然收到誤訊可是滿意,也就是說在誤訊(misinformation)的情況下,使用者的需求也有被滿足的可能性。因此系統該讓使用者感到滿意為目標,還是該以滿足他們的需求為目標?此彰顯出需求滿足的主觀性。因此在檢索系統中,可用性評估會有過於主觀的問題。


五、用途(Use)
在用途方面分為主要用途(Primary use)與進一步用途(Further use)。
主要用途是指文件中的資訊內容就是說明該文件的主要用途的方式,但是主要用途絕非該文件的唯一用途;進一步的用途可能包括可應用的計畫、加速的決策、支持的論點等等。
探討主要用途時,我們必須對資訊與誤訊進行區分,如果資訊檢索系統不分辨真偽,只蒐集與某主題有關的文件,這樣的系統就只能稱為內容檢索系統。在內容檢索系統中,讀者可以找到與某主題有關的文件,主題可以說是某作者對於某主題的看法或意見,而沒有分辨真偽,Wilson認為新的資訊組織應以功能性進行,而功能性就是考慮到進一步的用途。

最後,Wilson認為理想的檢索應提供資訊而非資訊與誤訊雜陳,並且非停留在文件內容的描述,而是可解決讀者問題與達成目標。然而目前檢索系統只能告訴我們文件的內容,無法表達文件真正的價值,頂多只能說明一些利用價值。因此我們仍須在主要用途的基礎上相近一步用途邁進,將內容檢索系統推向真正的資訊檢索系統。

Comments:

Wilson認為才是能夠提供正確的資訊才能稱作Information retrieval,如果資訊有包含誤訊,就只能是Content retrieval。Wilson這篇文章撰寫於1978年,近四十年過去,我們的檢索系統也還沒達到Wilson所說的「資訊檢索」系統,仍然停在「內容檢索」系統的層次;在另一方面,Wilson希望在用途方面,可以讓文件不只顯現其主要用途,而是進一步的用途,這是對於資訊組織的願景,一旦文件可以顯現其近一步的用途,就能夠讓使用者獲得文件利用的進一部效益,然而這方面我們的資訊組織亦尚未達成,這些都是資訊科學需要努力的地方。

在關於(about)應用於索引與分類方面,儘管目前圖書館持續在進行編目分類與權威控制,但是索引方面卻一直是很大的難題,因為追求索引與分類的一致性有很大的難度,這也就是研究者們也在追求索引的操作型定義,也因為如此自然語言仍然很盛行,因為不同人心中對於資訊的解讀與概念不同,形塑出的結果也不同,我認為這些目前仍是難以解決的問題。

沒有留言:

張貼留言