2016-03-06

The State of Retrieval System Evaluation.

Author: Gerard Salton

Title: The State of Retrieval System Evaluation.

Citation: Information processing & management, 28(4), 441-449.

Topic: System Evaluation


Purpose:

說明資訊檢索系統的相關研究歷史與概況,進而思考未來之研究方向,並且給予相關的建議。

Summary:

檢索評估領域的發展已超過三十年,從1950年代開始,到了1960年代初期由美國國家科學基金會(National Science Foundation, NSF)的支助下,檢索評估研究大量產出。然而許多研究的結果導致不少專家學者對於研究方法產生質疑,Cooper就認為傳統的系統評估因為是在實驗室環境下執行,所以存在相關判斷的廣泛變因與實驗者的主觀判斷。另一方面,對於求準率與求全率作為評估的測量工具也受到質疑;更進一步批評則是許多研究者的研究都在實驗室中進行,質疑實驗室中的結果是否可以應用至真實世界中的情況。因此本文獻希望以藉由檢索系統評估之回顧,提出可產生可信結果之研究建議。

在客觀的檢索評估方法開始用以評估檢索系統的表現後,最受人所知與被使用的指標就是求準率與求全率。此兩個指標反映出使用者可以檢索到最大比例的相關文獻,同時亦可拒絕最大比例的不相關文獻之假設上。但是求準率與求全率並未被廣泛地接受,因為對於求全率最大的疑問在於與效用理論的不相容,在效用理論的框架之下,檢索效益取決於使用者對於文獻的是否可解答其檢索需求。

Cooper認為文獻的相關與效用二者表達的是不同的意義,高相關不一定有高效用。對求全率而言,其計算方式取決於未被檢索到的相關文獻,但可能無法適用於所有的情況。再者,求準率與求全率的雙指標比起單一指標而言在比較上會有困難。作者也提及Swet的E-measure與Cooper的Expected search length,前者為測量問題與文獻的相似程度,在判定是否相關;後者則是使用者在檢索到想要的相關文獻數量前,平均會掃描過多少不相關的文獻數量。然而此二者在測量值上的計算都有一定的難度,故求準率與求全率仍是目前主要的檢索評估工具。作者希望未來可以將實驗室所得之研究結果應用於實際的情形之下。

由於許多檢索系統評估的研究都是在實驗室型的環境中進行的,然而現實世界中很難進行,因為實驗室可控制許多變因影響。實驗室型研究的缺點有:

1. 對於測試的檢索要求無法表現出真正的是使用者需求,相關判斷也無法與現實比擬。

2. 每一個使用者對相關或效用的評估不盡相同。

3. 求全率奠基於所有相關的文獻上,但是對於無法檢索到但是相關的文獻,只能透過估計值來計算。

4. 實驗室型研究的問題與文獻量相較於現實世界,其規模過小。

接下來,作者對於Cranfield測試第二階段的環境與SMART測試的結果進行探討。在Cranfield測試方面,其證明發現單一詞彙語言的效能最佳,但因為與既有的認知不同(控制詞彙應該優於自然語言),所以遭受眾多批評,其中最受關注對於此測試的批評來自於Swanson與Harter。二人的批評重點主要有二:

1. 提問的作者對於與問題相應的文獻進行評估,此方式有利於關鍵字匹配技術,而非更加複雜的匹配系統。

2. 在測試結果中未包含相關但未被檢索出的文獻。所以對於求全率的計算可能有缺失,相關文獻之數量被低估,進而高估了求全率。

在SMART測試方面,以Cranfield的測試集為基礎,目的在於證明文本分析系統的表現優於關鍵字系統,但是研究結果卻推翻假設,加權關鍵字的檢索結果出乎預期的好,而層級詞彙則比預期的差。後來SMART系統的自動索引系統與國家醫學圖書館的Medlars搜尋系統之控制詞彙索引的比較測試,結果發現自動索引系統並不比人工控制詞彙索引表現得差。雖然Smart測試和Cranfield測試二者之間的結果是互補的,但並不被專家學者廣為接受,其原因主要在於實驗室型研究的規模過小,以及實驗室型研究與現實環境檢索的差異性過大。

最後在自動化文本檢索系統方面,Stairs資訊檢索系統的評估結果報告中,求準率為0.79,求全率為0.20,其使用無權重關鍵字與布林邏輯進行檢索。報告撰寫者表示求全率達百分之二十可能是全文檢索系統的最大值。在操作型檢索系統中,求準率與求全率被認為是可以操作的,檢索者可以自行擴大求準率或求全率,但是因為兩者是反比關係,提高一者必會降低另一者。研究也指出透過操作可以獲得百分之五十甚至更好的求全率,但是McCarn和Lewis認為系統讓使用者可以限制檢索範圍與限縮相關的物件文獻數量,以形成一個有效的檢索系統。但是在這是指在實驗型的環境下,與現實中的運作有所不同,實驗室環境中可以對檢索詞進行限縮或是擴張以改變求準率與求全率,但是實際生活中這種操作是不可能的。Blair與Maron則是認為全文檢索系統在本質上是有侷限性的,由於語言的豐富性,沒有一個檢索系統的使用者可以想到所有可能可以表達特別概念的詞彙,所以導致檢索需求建構的不足或求全率的不滿意。

然而作者認為批評者們關切的重點都是次要問題,重要的是能夠提出可以冷靜客觀評估當代所以與檢索系統的能力。對於SMART系統而言,其未強調求準率與求全率,而且測試環境不是在單一環境中,文獻涵蓋多種學科領域,檢索問題與相關判斷也是來自於不同的使用者群集,因此其檢索結果是可靠的。而過去的系統評估研究多關注於相關判斷的過程與求全率基準建立,此應予以糾正並改變,但並非抹滅過去三十餘年的研究成果。未來的研究方向應朝使用者檢索的相關反饋過程,進而研究人機互動下變動的檢索歷程。


Comments:

實驗室的環境明顯比不上真實的環境,所以我們在實驗室的環境只能進行某程度的推測,但也因為如此,研究者們希望可以在研究室中的成果更逼近真實世界,所以我們可以發現許多計畫與實驗室的規模逐漸擴大。但是就是因為實驗室與現實世界的差異,所以仍然會受到此點的批評,不過從另一個角度而言,我們應該是追求一個好的評估方法,催生一個健全與適切的作法,而非執著於與現實的那些差距或是數值上的差異,更近一步而言,對於資訊組織如何勝過單一詞彙,才是資訊組織必須要追求的目標。

沒有留言:

張貼留言