Next: 15.1.2 Evaluation measuers
Up: 15.1 Some Background on
Previous: 15.1 Some Background on
- invsersed index
転地 index, 本の索引
- position information
洗練された inverted index は単語の有無の他に
位置情報も保持する
phrases 検索が可能
- ``car insurance'' という query に対して, 語がこの
順で並んで出現する document ほうが,より relevant
- 単なる位置だけだと ``car insurance rates'' と ``rates for car insurance'' を
同一のものと扱えない
NLP reserch の分野
- 現在の IR system の多くは phrases を pharses として
扱うのではなく, word 単位で扱う(n-gram 等)
それなりの performance
- collocations の問題
- stop list
- from や could などの function words(機能語)は,
word-by-word な検索には不要.
stop list として保持しておき,
inveted index に登録しない. (Table 15.1 に stop list の例)
- inverted index の sizeを大幅に減らすことができる (Zipf の法則..)
- phrases 検索には function words は必要
多くの検索 engines はstop list を使わない
- stemming
- laughing,laugh,laughs,laughed を同一視したい
- suffix の変化を吸収する
- Lovins and Porter stemmers が一般的
- これらの stemmer は 語の表層しか見ないので意味的な区別を
行うことができない
(gallery と gall は おなじ gall- に stemming される)
1999-08-03