以 P(w) 表示词条 w 的概率,假设已知 P(南京)= 0.8,P(市长)=0.6,P(江大桥)=0.4:P(南京市)=0.3,P(长江大桥)=0.5:如果假设前后两个词的出现是独立的,那么分词结果就是( )

2629 次浏览
  • A、南京市*长江*大桥
  • B、南京*市长*江大桥
  • C、南京市长*江大桥
  • D、南京市*长江大桥
该题考察的是最大概率分词,其基本思想是:一个待切分的汉字串可能包含多种分词结果,将其中概率最大的作为该字串的分词结果。若某候选词在训练语料中未出现,其概率为0。 A分词结果的概率为P(A)=P(南京市)*P(长江)*P(大桥),由于“长江”未在语料中出现,所以P(长江)=0,从而P(A)=0; 同理可以算出B, C, D分词结果的概率分别是: P(B)=P(南京)*P(市长)*P(江大桥)=0.8*0.6*0.4=0.192; P(C)=P(南京市长)*P(江大桥)=0*0.4=0; P(D)=P(南京市)*P(长江大桥)=0.3*0.5=0.15。 因为P(B)最大,所以为正确的分词结果。
挑战成功
2年前
挑战失败
2年前
挑战成功
2年前
挑战失败
2年前
挑战成功
3年前
挑战成功
3年前
挑战失败
3年前
挑战成功
3年前
挑战成功
3年前
挑战失败
3年前