专利名称:一种基于Hadoop的微博热点话题提取方法专利类型:发明专利
发明人:徐明,代光英,任一支,张海平,徐建,郑宁申请号:CN201310501234.X申请日:20131023公开号:CN103617169A公开日:20140305
摘要:本发明提出了一种基于Hadoop的微博热点话题挖掘方法。本发明首先组建一个局域网,安装相应的软件搭建Hadoop的平台;其次采集微博信息;第三,对采集的微博内容进行分词处理、噪音信息过滤、出现频率变化较大的热门关键词抽取;第四根据提取出每个潜在热门话题的特征词组;第五循环遍历潜在的热门话题,合并相似度超过阈值的话题;最后对提取出来的热点话题,以特征词组中最热门关键词的爆发得分作为话题的热度,将热点话题按热度值从高到低次序显示。本发明利用Hadoop框架中MapReduce运算模型的特点,能够准确地判断出微博的热门话题,使挖掘结果更能反映互联网的客观事实,有较强的可扩展性和容错性。
申请人:杭州电子科技大学
地址:310018 浙江省杭州市下沙高教园区2号大街
国籍:CN
代理机构:杭州求是专利事务所有限公司
代理人:杜军
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务