Next: 7.3 Part-of-Speech Tagging
Up: Chapter7Ambiguity Resoltion: Statistical Methods
Previous: 7.1 Basic Probability Theory
- MLE (maximum likehood estimator)
- sampleの頻度をそのまま利用
- sample数が多ければ多いほど,信頼度が上がる.
the law of large numbers(大数の法則,中心極限定理)
- sample数が少ないと信頼度が下がる
margin of error, coin toss の例(試行回数が少ないとダメ)
- Sparse Data
Brown Courps 単語数 100万,異なり語数 49,000
平均 1単語20回づつ出現してるはずなんんだけど... 実際はその大半が 5回以下
このような sparse な環境では十分な推定が行えない
- ELE (expected likehood estimator)
- Vi を X=xi となる回数だとすると, 事象 xi が起こ
る確率は
- data が sparse な場合,分母が 0 になる可能性が高く,
MLE だと確率値が定義できない
-
とする, つまりすべての頻度
が最低
回あると仮定
- (例1)
40 の品詞分類, corpus に一度も出現しなかった単語wが,
ある品詞 Li である確率
PROB(Li|w) を求める (
)
ELM だと確率値を求める事が可能, MLE だと分母= 0 となり
確率値を定義できない
- (例2)
40の品詞分類, courps に 5回出現した単語 w,
そのうち noun 4回, verb 1回の時
- Evaluation
- courps を traing set と test set にわけ,training set で学
習した結果を test set で試す
- test set の選ばれ方の分散を減らすため(偶然に悪い結果,良い
結果をなくすため)に, traing set,test set を循環的に別けて,
連続した評価を行う (cross validation)
例えば, corpus を 10等分して そのうち 9 を traing, 1 を
test とする,
test set が 10通りできるため 10回の試験が可能
1999-08-03