Next: 考察
Up: Probabilistic Latent Semantic Indexing
Previous: U-PLSI,Q-PLSI
- MED,CRAN,CACM,CISI の4つの Corpusを使用
- Latent Class の次元数,
- ベクトルの類似度測定には内積を利用
- cos+tfidf を base line の実験とし, 11-points
(recall 0,10,20..100% における precision の平均値) による評価
|
MED |
CRAN |
CACM |
CISI |
document 数 |
1033 |
1400 |
3204 |
1406 |
|
1/2 |
1/2 |
1/2 |
2/3 |
cos+tfidf |
49.0 |
35.2 |
21.9 |
20.2 |
LSI |
69.5 |
38.7 |
23.8 |
21.9 |
PLSI-U |
72,1 |
40.4 |
27.6 |
24.6 |
PLSI-Q |
66.3 |
40.1 |
28.3 |
24.4 |
Taku Kudo
平成12年7月4日