搜索
您的当前位置:首页正文

学习笔记:TF-IDF、相似度

来源:筏尚旅游网

1.原理:
本文频繁出现而别的地方出现不频繁,说明这个词就是本文关键词
TF(词频)=本文出现该词的个数/本文词数
IDF(逆文档频率)=log10(语料库文档总数/1+出现该词的文档数)
TF-IDF=TF*IDF
2.文本分析相似度
①先把中文句子分词
②构造语料库向量
③根据词频构造各个句子的词频向量/Gemsim(转化为词向量效果更好)/word2vec
④计算余弦相似度(类似点乘)
3.语料可以选取的来源:搜狗实验室

因篇幅问题不能全部显示,请点此查看更多更全内容

Top