2016-03-06

The Cranfield test on index language device.

Author: Cyril Cleverdon

Title: The Cranfield test on index language device.

Citation: ASLIB Proceedings, 19(6), 173-194.

Topic: System Evaluation


Purpose:

Cranfield Test主要分為二個階段:Cranfield ICranfield II
Cranfield Test為一個資訊檢索系統的評估研究,本研究之主要目的在於尋找出最佳的索引語言。Cranfield I目的為測試四種索引語言的檢索效能;Cranfield II則為測試分為三類共33種索引編製方式的檢索效能。


Methodology:

Cranfield I
  • 測試索引語言:國際十進分類法(Universal Decimal Classification)、層面分類法(facet classification)、按字母順序排序之主題索引(alphabetical subject catalog)與單詞組合索引法(Uniterm system of co-ordinate indexing)
  • 測試資料:1100Western Reserve University的冶金學文獻。
  • 評估指標:求準率與求全率。

Cranfield II
  • 測試資料:1400篇空氣動力學文獻;由多位研究文獻作者所提出之221個問題。
  • 測試索引:將每一份文獻以三種方式編製索引。使用自然語言單詞記錄索引詞;將文獻概念組合成文獻之主題;給予主題概念相關權重。
  • 索引語言:分為三類,單一詞彙語言(single term language)、簡單概念索引語言(simple concept index language)與控制詞彙索引(controlled term index),共33種。
  • 文獻與問題間相關程度之判定:完全回答問題;高度相關問題;有用的:最低利益。判定程度由14
  • 評估指標:求準率、求全率、誤檢率與常態化求全率(Normalized recall ratio)。常態化求全率(Normalized recall ratio)Salton在進行SMART系統測試時所提出,用以比較不同索引語言之表現。

Findings:

Cranfield I
四種索引語言的檢索結果相差不遠,Cleverdon認為此四種索引語言皆為提高求準率與求全率之混合產品,所以導致檢索結果差異不大。

Cranfield II
在三類索引語言的表現方面,優劣排序為單一詞彙語言、控制詞彙索引與簡單概念索引語言,單一詞彙語言的專指性低,而簡單概念詞彙的專指性高,但是檢索效能低,但是控制詞彙的表現則介於前兩者之間。另外亦顯示出在Cranfield I中發現求準率與求全率的反比關係,兩個指標的相互影響會使得評估變得困難。


Summary:

此系統評估研究為評估不同系統在不同索引語言下,其檢索的效能,進而找出最佳的索引語言。Cranfield Test主要分為二個階段:Cranfield ICranfield II。在兩階段測試的結果中,分別得出索引語言對於檢索效能的影響。

Cranfield I中,使用四種索引語言進行測試,但是最後四者相當接近,原因在於此四種索引語言的編製皆為考慮到提高求準率與求全率,因此四者是為了提高兩個指標而成的混合產物,造成彼此對於系統的檢索效能影響差異不大。

Cranfield II中,利用三種方法編製索引,並且設定相關判斷的程度等級。測試三類索引語言,總共33種。最後證實求準率與求全率的反比關係,兩者相互影響。同時發現在不同索引語言中的專指性與窮盡性會影響檢索表現,專指性(Specificity)指的是詞彙代表一個文獻的程度;窮盡性(Exhaustivity)是指一詞彙能涵蓋多少文獻。

專指性過高會導致檢索表現下降,而窮盡性過高則會使得檢索效能降低。最後測試得出的結果為單一詞彙的自然語言,加上切截功能和正確同義字控制,可以具有最佳之檢索效能。


Comments:


Cranfield測試做出的結果到現在還是對於資訊檢索系統評估還是很重要,而且其在檢索系統評估的歷史上有著重要的地位。但是在圖書資訊學界的人們在當時一定都有著很大的震驚與懷疑,究竟為什麼自然詞彙會超越控制詞彙的問題,也因此Cranfield遭受很多批評,因為與所有人心中的認知與設想差異過大,但是我們仍不禁要問,是否也是可能的事情呢?

現今許多人都愛用Google,原因就是因為他接受任何自然語言的形式,人們不須適應或依循任何分類法或索引,只要依照心裡所想的輸入,然後按下搜尋,結果就迅速展現在眼前,十分便利且快速。然而,許多人似乎就開始否定資訊組織、權威控制的價值,但是我認為資訊組織仍是重要的,其仍有存在的必要性,因為許多人喜愛的Google,其實背後也是有著各種資訊組織的結果,但是因為人們沒有看到組織的過程,便認為資訊組織不重要。人們總喜愛那些看不見的人為產製的成果,但是其實忽略了這些成果的背後往往是人為的,並不會從天而降。因此Cranfield給予我們很大啟示但是重點是我們應該探究如何改善與進步。

沒有留言:

張貼留言