您的当前位置：首页正文

学习笔记：TF-IDF、相似度

来源：筏尚旅游网

1.原理：
本文频繁出现而别的地方出现不频繁，说明这个词就是本文关键词
TF（词频）=本文出现该词的个数/本文词数
IDF（逆文档频率）=log10（语料库文档总数/1+出现该词的文档数）
TF-IDF=TF*IDF
2.文本分析相似度
①先把中文句子分词
②构造语料库向量
③根据词频构造各个句子的词频向量/Gemsim(转化为词向量效果更好)/word2vec
④计算余弦相似度（类似点乘）
3.语料可以选取的来源：搜狗实验室

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文