word2vec
Maximum Likelihood N-gram Model P(Data|M) 能表示成 П (i: 1->m) f(xi|Θ) 计算量大, 不能表示词之间的关系, 且 n 从 1->3, 提升很大, 但之后提升很小 现在已经能计算n=10的结果了
平滑化: 当词的出现次数为0或全部的时候, 不能判定词的概率就是 0或者100%, 所以需要做平滑化;
NN Active Function NNLM All NNLM Implementation SimHash Algorithm Word2Vec
Summary: Mine