1.原理: 本文频繁出现而别的地方出现不频繁,说明这个词就是本文关键词 TF(词频)=本文出现该词的个数/本文词数 IDF(逆文档频率)=log10(语料库文档总数/1+出现该词的文档数) TF-IDF=TF*IDF 2.文本分析相似度 ①先把中文句子分词 ②构造语料库向量 ③根据词频构造各个句子的词频向量/Gemsim(转化为词向量效果更好)/word2vec ④计算余弦相似度(类似点乘) 3.语料可以选取的来源:搜狗实验室
因篇幅问题不能全部显示,请点此查看更多更全内容