Effects of inconsistent relevance judgments on information retrieval test results: A historical perspective

Author: Tefko Saracevic

Title: Effects of inconsistent relevance judgments on information retrieval test results: A historical perspective.

Citation: Library trends, 56(4), 763-783.

Topic: Relevance, Information retrieval, Information retrieval test.

Purpose:

對先前的相關判斷之實驗研究進行回溯與統整，以文獻回顧方式闡述相關判斷在資訊檢索測試中的作用與影響。

Methodology: 文獻回顧。

Summary:

資訊檢索系統的主要目標檢索與使用者要求或是可能的需求相關的資訊或資訊物件，為了追求檢索結果的相關程度，開始出現對於資訊檢索系統的測試，資訊檢索系統的測試常會出現系統相關（系統層面）與使用者評估（使用者層面）二者比較的議題，而使用者相關逐漸被視為檢索系統表現評估的重要標準(本文獻稱為「黃金標準」)。但是相關為人為判斷所構成，因此衍生許多問題，其中一個問題判斷結果的不一致性，此文獻主要針對先前的實驗研究進行回溯與統整，這些研究主要在處理以下方面的議題：

1. 人類相關判斷上的不一致。

2. 資訊檢索結果不一致的影響。

3. 檢索失敗的原因。

資訊檢索系統在二戰後短時間內快速地出現，目的是為了因應當時人們開始察覺到資訊爆炸的問題，科學家也開始興起研究對於資訊的處理方法，資訊檢索就是其中一個想法。資訊檢索與其他方法或系統的不同之處有兩個關鍵點：第一，資訊檢索有搜尋的概念，搜尋的方法是由演算法所構成；第二，就是對於相關的選擇，書目描述與編目主要關心描述與分類，而資訊檢索也是，但使資訊檢索也關心搜尋，而搜尋就是相關有關，因此檢索相關的資訊或資訊物件成為並持續是資訊檢索系統主要追求的任務與目標。

資訊檢索測試
資訊檢索系統在實務上的發展始於1940年代末期，搜尋方式為布林邏輯。之後Mortimer Taube發展出組合索引，在資訊檢索界中引起轟動。在1955年Kent等科學家提出第一個測試資訊檢索系統有效性的測量方法，為求全率與相關，相關由於會造成誤解所以在之後更名為求準率，而相關則是測量中的根本準則。他們試著測量系統是否成功檢索相關，以及什麼是使用者評估為相關，兩者之間的關係，亦因此產生出使用者相關是評估相關的重要標準。

在紀錄上第一個資訊檢索測試則是在1950年代初期，由Gull在1956所進行，但是結果失敗。而最廣為人知且最具影響力的資訊檢索測試，就是在1950至1960年代間由Cleverdon領導進行的「Cranfield測試」，此測試有二次，目的在於尋找出最佳的索引語言。

Cranfield測試在資訊檢索發展歷程上有重要的意義。第一，建立出資訊檢索的模型，並且在被之後的Salton用以進行著名的SMART實驗，以及後來在1992開始的TREC(Text Retrieval Conference )實驗。第二，第一次的Cranfield測試繪製出後來大家熟悉的求準率與求全率曲線，同時確立出求準率與求全率的反比關係，並且進一步公式化。之後的SMART實驗則是成為資訊檢索從布林邏輯搜尋進入更多元的檢索方式的里程碑，開啟不同資訊組織與檢索結果的方式，例如由系統判定的相關排序、叢集相關。

資訊檢索測試的相關判定
資訊檢索測試奠基於比較系統相關與使用者相關，因此對於系統的表現評估則建立於人類對於系統給予的資訊與需求間的相關判斷，同時關鍵在於取得適當的相關判斷方法以作為計算求全率與求準率。建立「黃金標準」是一個極重要的難題，許多資訊檢索測試的相關判斷方式都希望能夠貼近真實生活，以達到真實世界的效度，儘管非常難以達到。基本上，有四個相關判斷的方式被視為十分接近「黃金標準」：

1. 由使用者或提問者判斷

2. 由使用者代理人：例如根據其專業領域來判斷的專家。

3. 資訊專業者：因為他們熟悉資訊系統的運作流程。

4. 旁觀者：非以上所述者。例如學生被要求進行事先篩選的判斷任務。

資訊檢索測試中檢索失敗之分析
在資訊檢索的測試中，診斷分析失敗的原因是相當重要的一環。在第一次的Cranfield測試中，Cleverdon說明失敗的意思是針對所有案例分析後，其中來源文件未被檢索出來。失敗的原因被分為四類：問題方面、索引方面、搜尋方面與系統方面，在導致失敗的原因中，人類的判定最常造成失敗。

Lancaster在1969年對MEDLARS（Medical Literature Analysis and Retrieval System）系統進行評估，然後分析兩種類型的失敗：求全率失敗與求準率失敗，大部分的失敗源自於不充分的搜尋與人機互動，在實務上，搜尋與人機互動仍然左右人的許多決策。

自檢索失敗原因分析中可以獲得許多教訓，但是已經沒有人在進行失敗原因分析了，由於複雜、費時與無法以電腦進行，所以此分析方式已成為歷史。

人類相關評估的不一致性
人類在有關於許多資訊流程上的判定相當不同，像是索引、分類、搜尋與相關等等。在資訊科學中，觀察相關的不一致性始於資訊檢索測試。Gull 在1956年對於資訊檢索評估進行第一份研究，此份研究顯示出不同團體之間對於相關的評估有明顯差異，不過相關判斷的一致性非本研究目標，而是資訊檢索系統的評估。目標為比較兩個不同的索引系統，由ASTLA(Armed Services Technical Information Agency)所開發的系統，使用主題標目；另一個由Documentation Inc.所開發，使用組合索引詞彙的系統。但最終研究結果一致性只有百分之三十點九，研究便停止。之後的研究均謹記此研究的錯誤，即不使用超過一個以上的判斷標準來建立「黃金標準」。

最後，資訊檢索系統決不會脫離相關，相關也是連接所有資訊檢索問題的所在。過去半世紀以來建立用以測試的基礎概念與模型，至今仍然影響著資訊檢索測試，而資訊檢索測試就像一條河川，逐漸更寬更深，但是不會改變方向，而此方向似乎即將成形。

Comments:

為解決使用者判斷上的主觀與不一致，資訊系檢索系統的評估出現使用測試集的方式，人類的判斷不一定存在標準答案，但是測試集存在，藉由一致的檢索答案的要求，對資訊檢索系統的表現可以有更一致的測試與評比。人類的判斷一直有存在著不一致，從相關判斷、索引、分類等等，儘管客觀相關是以專家來判斷相關，但是專家也是人，所以彼此之間的判斷仍有不一致。另一方面，儘管現今資訊檢索主要以使用者為中心，但是使用者的判斷帶有極大的主觀認知，使用者對於資訊檢索系統的滿意程度與資訊需求是否被滿足，二者不一定有絕對的關連，使用者可能對結果感到滿意，但是其資訊需求並未被滿足，這彰顯出使用者資訊需求滿足的主觀性，故資訊檢索系統的使用者評估會存在過於主觀的問題。

LisMicroscope

搜尋此網誌

Effects of inconsistent relevance judgments on information retrieval test results: A historical perspective

留言

張貼留言