安徽理工大学学报(自然科学版)
Journal of Anhui University of Science and Technology( Natural Science)
Vol. 37 No. 3
May 2017
基于大数据的云计算网络协同创新平台的研究
程淑玉
(安徽电子信息职业技术学院,安徽蚌埠233000)
摘
要
:以云计算和大数据技术为理论基础,构建了 一个具有“产学研”功能的网络信息协同
创新平台,对该平台的“云”架构和功能模块进行了叙述,重点阐述了 Hadoop云平台的工作模 式。针对大数据环境下数据的稀疏性及扩展性等问题,提出了利用用户隐性行为数据在Ha-
dop
平台上实施协同过滤算法,实现智能推荐,从而有效的提高了算法的执行效率。:云计算;协同创新;Hadoop;协同过滤推荐算法
:TP311. 52
文献标志码
关键词
中图分类号
:A
文章编号
:1672 -1098(2017)03 -0072 -07
Study on Network Information Collaborative Innovation Platform Based on Cloud Computing and Big Data
CHENG Shu - yu
(Anhui Vocational College of Information and Technology, Bengbu Anhui 233000, China)
Abstract :Based on the theories of Cloud Computing tive innovation is This paper describes
constructed the
with
the
and
Big
Data,
a netw^ork the
information p
pro
purpose of realizing
and
function of
\"cloud\" platform architecture functional modules,and focuses
of Hadoop cloud platform. Aiming at solving the problem of data sparsity and scalability in big data environment,the paper put forward a collaborative filtering algorithm based on Hadoop platform using the users implicit behavior data, which could realize Intelligent recommendation and therefore improve the execution efficiency of the algorithm.
Key words :cloud computing; collaborative innovation; Hadoop; collaborative filtering recommendation algorithm
随着《国家中长期科学和技术发展规 划纲要(2006 - 2020年)》的颁布,具有中国特色国 家创新体系建设被提上工作日程,围绕产业的全面 升级转型,通过产学研结合技术创新,实施创新驱 动发展战略。根据“整合、共享、协同、提高”的原 则,建设“面向企业的创新支撑平台”,围绕解决区 域发展重大、共性问题,推动跨区域协同创新。协 同创新是以高校、科研机构、企业为主、以、第 三方机构为辅,为实现重大科学技术创新而开展的
多元主体大跨度整合协同创新的网络创新模 式[1]。网络协同创新平台,将多元主体通过立体 化网络连接起来,共同通过与外部环境的交互作 用,实现各主体之间的知识流动、技术研发合作和 资源集成共享,是整合资源、开放交流和协作创新 的基础。
云计算技术的不断发展为协同技术创新创造 了良好的条件,它将多元化主体分散的各类创新需 求和技术资源、服务资源进行重新整合,使得资源
收稿日期:017-01-07
基金项目:安徽省遴选教育部高职教育创新发展行动计划项目-《WEB标准网站设计》在线开放课程;安徽电子信息职业技术学院课 题《基于教育云的校企合作实训平台的研究》(ADZX1514)
作者简介:程淑玉(1982-),女,安徽池州人,副教授,硕士,研究方向:数据挖掘与网络搜索。
第3期程淑玉:基于大数据的云计算网络协同创新平台的研究73
能够在最大范围内共享,降低了各创新主体的合作 成本,提高了协同创新的实效性。
服务机构,提供投资融资服务,产学合作实施平台 建设,该平台引入了 Had〇〇P分布式框架实施协同 过滤推荐算法,该框架采用集群并行计算模式,利 用MapReduce编程框架将计算任务分配给Hadoop 集群内的每台机器,从而能有效的提高推荐系统的 执行效率。
1
1.1
网络协同创新平台现状分析
平台发展现状
网络协同创新平台能够让多元主体在交互式、
同时该平台在数据收集上利用了隐性户行为 数据(如用户点击量、浏览网页的次数、停留的时 间等),这些数据能直观的反映用户行为偏好,且 自主式的网络环境中获取各类资讯服务、创新服 务、技术信息及需求信息,并提供创新合作虚拟空 间进行技术合作研发[2]。协同使得各主体间信息 沟通更加便捷、更容易获取创新所需资源,创新效 率也变得更加高效。网络协同创新平台目前存在 三种模式,一种是行业创新平台,该平台主要依托 行业科研院所和重点企业针对某一产业开展技术 创新和研发,无法实现跨界、跨区域合作;另一种是 以提供服务为主的科技创新服务资源平台,该平台 提供了资讯中心、资源下载、科技服务等基础的科 技信息服务,在诸如资源共享、创新合作虚拟空间、 协同创新等方面较为薄弱;还有一种是以高校为 主,企业为辅的产学研合作创新平台,该平台由于 机制等问题,产学合作的不够深入,在创新方面由 于缺乏资金支持,往往以基础创新研究比较多,其 研究成果多因工程化能力弱而难以推广应用。1.2平台存在的问题
现有的网络协同创新平台的用户都是通过访 问一个功能强大、性能过硬的服务器实现协同工 作,协同用户越多,服务器承载压力就会越大,一旦 服务器发生故障,用户之间就无法实现资源的共享 和协同创新。当协同用户不在工作时,服务器就很 空闲,从而造成服务器的极大浪费。
随着平台信息的不断增多,平台数据不断增 大,用户已很难从这些信息中获得对自己真正有用 的那部分信息,知识的创新过程缓慢。如何从大量 数据中快速有效的获取有用的信息,推荐系统顺应 而生,传统的协同过滤推荐系统使用用户对项目的 预测评分数据为依据进行推荐,评分会增加用户的 操作,影响用户体验,数据稀疏,而大数据环境下数 据处理量更多,冗余度更强,导致算法可扩展性差, 处理效率低,推荐的实效性低,精确度不够高。
针对以上问题,构建了基于云计算和大数据技 术的网络信息协同创新平台,由引导引入金融
不影响用户体验,收集方便,数据规模很大,Ha-
dop
平台使用对稀疏数据具有良好支持的分布式
数据库Hbase来保存数据,能有效改善数据稀疏问 题,提高推荐的实效性。
2
云计算及大数据技术
2.1云计算技术
云计算是虚拟化、网络存储、分布式计算、并行 算等 算机
融合的产 。
算的
虚拟化体现在它把大量的计算机硬件、平台、软件 及服务等资源迁移到互联网上,形成虚拟资源,拥 有这些虚拟资源的网络被称为“云”,在“云”端的 资源可以共享,用户可以根据需要从“云”端请求 所需的计算、服务,按使用付费[]。
云计算提供了分布式并行计算模式,将计算任 务扩展到服务器集群中更多的计算资源,并使用冗 余的资源进行容错处理,具有超强的计算能力和低 成本、高安全性等特性,在网络资源共享等方面具 有明显的优势[]。
云计算平台简称云平台,常用的开源云平台有
AbiCloud、Hadoop、MongoDB 等
。
2.2大数据技术
大数据与云计算是相辅相成的,所谓的大数据 技术,就是在云平台基础架构上,对海量数据中进 行处理,并快速获取对用户有价值信息的技术。大 数据处理技术包括五大块:数据的采集、数据预处 理、数据存储管理、数据挖掘分析及数据的展现与 交互[]。
数据的采集是大数据服务的基础,就是使用某 种技术或手段采集各种类型的海量数据并存储于 特定设备上;数据的预处理主要是对采集到的数据
74
安徽理工大学学报(自然科学版)
第37卷
,紧紧抓住产业龙头企业,充分发挥
进行清洗、过滤、效验、转换等操作,从而提取出有 效数据;数据的存储管理要用存储
采集到的数
业商
用,引入高校、科研院所的科技创新
据存储起来,建立相应的分布式数据库,把数据分 布到多个存储节点上进 分析,
理和调用;数据的挖掘
,对处理
资源,协调金融机构共同参与,把产业、科技、金融 等
起来,共同服务产业发展,促进科
用数据挖掘,机器学习等 、产业、金融、人才相结合,建立健全 制机制, 高端发展。3.2平台架构设计
该平台由创新资源整合服务平台、产学研协同
科
,将
校、科研院所)、金融机构、 源进行整合,面向用
入 入,
台,并 入
自
分
,该
界、跨区域合作,推动产业转型
后的数据进 值[6];数据的
分析,分析出其潜在的数据价
将隐藏于海量数据
中的有价值信息挖掘出来,并用生动直观的展示方 式
给用户,如图表等,以便用户更好的理解数
据的内涵。
本文重点研究了基于Hadoop云平台的创新平 ,阐述
并就Hadop :
针对用
的“云” 的工作模式进
能模块,详细阐述,
的,,
(如企业、高
的资
在海量数据中找到有用
,建立
能推荐
等
资源服务。其中各
的方式有两种,第一采用
都建立自己的
问题,采用了数据
模块,可以根据用户的基本 、访问
发现其兴趣点,从而向其推荐感兴趣的信息、资源 及服务。
规范化描述和封装,然后通,用户通
,
问
3
平台设计
这些资源,并得到点对点的服务。第二种方式是直 接接入,, , 将自
资
直接租用共 到该
的虚拟资
3.1平台建设内容
产学研合
,
。 通
, 然后通 该
供的工具对资源进 效管理[7]。
服务
创新资源整合服务平台产学研协同创新平台各园区科技创新平台
企业图1
学校科研院所
基于云计算的区域协同创新平台架构
3.3平台的模块设计
该平台采用B/S结构,前台采用HTML5响应 式
,使得用户能够通过PC
机共同访问平
台,后台采用MVC框架设计,系统的主要功能模块 如图2所示。
第3期程淑玉:基于大数据的云计算网络协同创新平台的研究75
技术转移成果转化需求对接
信息发布
导读资源服务
项目申报
技术对接技术服务
虚拟实验室高新区平创台新科技园平创台新电商产平业台园
图2协同创新平台功能模块图
其中,技术服务平台主要向多元主体用户提供 技术转移、成果转化、需求对接等技术服务。公共 服 行业
,对
资讯服务,包括发布相关的相关进行导读、分析,提供点
资源、人才资源、行业数
的拥堵,提高系统的整体吞吐量;MapReduce是
Hadop
处理大量数据的编程框架,用于大规模数
算,能够减少数据冗余,高效率的处
据集的并
理网络信息;HBae是构建在HDFS上的分布式 的、面向列的开源数据库,Hadoop HDFS为HBase 提供了高可靠性的底层存储支持,Hadop MapRe
duce 为 HBase 提供了高性能的计算能力[7] 。
对点的设备资源、 据资源、科
资源、投资融资服务,提供科技项
目、产学研项目申报、人员培训等服务。产学研协
给企业、高校和科研院所之间的协 环境,包
虚 布
模块,技术对 ,寻找
合
对接、技术服务和针对某个项目发
在公有云中通过搭建Hadoop平台,将采集到 原始数据存储到数据存储区,数据存储区采用
HDPF模
块,该 数据导入和数据分析两个子
伴进行合作研发;技术服
、名师工作室的
模块,数据导入子模块将采集到原始数据进
用来展示高校的
科技成果,以方
处理,过滤掉其中错误、残缺的数据,得到 有应用价值的初级数据,然后通过HDFS数据上
业寻找伙伴进行商业合作;虚
,
校企合作创新研发一个研发
传接口,将预处理后的初级数据存储到HDFS中; 数据 分析子 模 块
之 的
, 其
立 在 Hadoop 的 MapReduce
能
HDFS
包含共享的技术知识库、行业数据库,及整个项目 合
中的资料、合
、协同研发等流程,该
的
平台综合运用协同、Agent技术实现协同创新研 发。
科
针对
数据并执行MapReduce作业来进行数据处理分析 工作,一个MaaReduce作业在执行时会分为两个 阶段:Map(映射)和Reduce(归约),Map阶段对 输入的数据< key,value >进行分片处理,即map (keyl,valuel ) - > list ( key2,value2 ),映射成一■组
业及行业的研发平台,该平台建立在企业内部,主 要任务是完成企业的科技研发工作。3.4所采用的关键技术
l)H
新的数据< key2,values2 >输出,新数据根据key
Hadoop
adoop云计算平台架构。
是一个
值进行排序、合并、划分等 后将处理的结果交
分布式数据 算框架,能够充分利用集群的威力
给Reduce阶段,Reduce对数据里相同key下的所
value进
进行高速运算和存储,用户使用该框架可以不需要 了解分布式底层服务,也能开发分布式程序。Ha
doop 实现了一个分布式文件系统 HDFS,用来实现
行合并产生一组更小的数据对-最
,
的结果输出存入Hbae,供后续的如用
深度挖掘分析等各类数据分析业务使用[],该平 台工作流程如图3所示。
对海量数据的保 理,它的使用能够消除网络
76安徽理工大学学报(自然科学版)
第37卷
作业配置列表
|作业1丨|作业2丨丨作业3 |
数据存储区
图3 Hadoop云计算平台工作模式
2)基于协同过滤的的智能推荐。基于协同过 滤的智能推荐
根据用户的相关
进行数据
本平台中的智能推荐系统模块,是根据Hbae 中的用户基本、需 网络行为和数据,采用 出符合
用
、访问 滤推荐算法
,当该用
等个性化
分析录
挖掘,分析用户兴趣,基于不同的兴趣对用户进行 群
分,综合同一用户群里的相似用户对某一信
趣偏好的
的兴趣度,对目标用户进行预测,并推荐类似的 。
将其感兴趣的 推荐给用户,从而
。
个性化服务,具体的推荐流程如4图
图4智能推荐模块推荐流程图
第3期程淑玉:基于大数据的云计算网络协同创新平台的研究
77
协同过滤智能推荐包括基于用户的协同过滤 推荐和基于项目的协同过滤推荐,本文采用的的是 基于项目的
滤推荐,该推荐算法
流程分
三步走,第一步是收集用户偏好,第二步是查询最
近邻居,第三步是预测并进行推荐[9],如图5所示。
1.用户偏好收集
图5
2.查询最近邻居
协同过滤推荐算法具体流程图
3.预测并进行推荐
1用户偏好收
中收集用户的偏好信息,通过
似度计算完后,选择与当前项目相似度最大的前n 个项目
居集合。
从用户隐性
回归模型计算出一定的时间段内用户User对项目
Item
3)预测并进行推荐根据目标项目的 预测用户U其对 公式()
居集合的所有评分项,
y
的兴趣度值interest,根据这些这些兴趣度值
的“用户—
居
项
”模型。
构建如上图
2广
问项目的兴趣度,公式如
用余弦相似性计算项目a与项目之间的
相似度,公式如式(1)
^
sim(a
,,S)二
i^u
=ug==~
X
⑴
式中:匕,为用户U对项目标项目的
y
的兴趣度,SNIy为目
居集合,,?u,i为用户对项目纟的评
式中:sim(a,)为项目a和项目^的之间的相似 度,U,
U«
分,预测出用户对项目的兴趣度值后,选择值 的前几个推荐果给目标用户。
该算法在MapReduce框架的实现[10]如图6所示。
评价过项目a与项目的用
评价过项目a和项目的用
合,
和U分
合,,分另1j表本U对项目a和的评分。相
第一步
第二步
第三步
图6 MapReduce框架下协同过滤算法实现图
78安徽理工大学学报(自然科学版)
第一步:输入数据,map阶段接收输入的
第37卷
息,我们设计了智能推荐模块,采用了协同过滤算 法进行推荐,取得了一定的效果,但是由于网络上 的一些信息没有遵循行业的标准,存在不规范性, 所以在某些情况会存在推荐质量低的问题,如何有 效的解决这个问题,改进算法有待进一步研究。
第二步:map阶段接收“用户—— 项目 项目矩阵” 参考文献: 后,提取每个用户下的项目兴趣度值,以项目对 (ItemlD(i) ,ItemID(j))作为 key,项目对应的(^1- terest (i ),interest ( j ))作为 value 输出。Reduce 阶 [1] 邵云飞,杨晓波,邓龙江,等.高校协同创新平台的构 建研究[J].电子科技大学学报(社科版),012(4): 段对相同key下的所有value进行处理,利用余弦 相似度方法计算项目间相似度。 第三步:map阶段根据所有项目ItemID间的 相似度,得出每个项目的最近邻居集合(neigh- borltems),输出给Reduce阶段,根据目标用户Use- rlD的最近邻居的兴趣度值预测其对某个项目的 兴趣度值,通过对兴趣度值的排序,得出推荐项目 结果(recommen-Items )返回给用户。 4 结束语 随着“互联网+”的提出,创新成为推动社会 发展的主要因素,单打独斗的创新已经无法满足技 术增长的需求,网络的不断发展、资源的日益庞大 为协同创新提供了基础。协同创新能够将充分利 用各主体的优势,提高资源的共享整合,达到更好 的创新效果,创造更大的利益。本文主要研究了基 于大数据的云计算网络信息协同创新平台,该平台 利用云计算技术解决了网络信息不断增大情况下 的网络堵塞等问题,同时将资源进行共享整合,降 低创新的成本,提高协同创新的效率。随着各主体 用户数据的不断增长,用户项目对接的难度不断增 大,为了使得各主体用户能够快速的找到需要的信 79 -84. [2] 王翔,潘郁.基于云计算的协同技术创新平台[J].计 算机工程与应用,2011,47(15) :57 -60. []霍丽,于淼,高义栋.云计算支持的群体协作学习环 境研究[].中国信息技术教育,2010(5) :77 -80.[4]张琼妮.网络环境下区域协同创新平台模式与机制 及研究[D].杭州:浙江工商大学,2014. []赵伟,岳东升.浅谈大数据[].佳木斯职业学院学 报,2015(10) :447 -447. [6] 王少华,王可勤,牛振喜,等,基于云计算的产学研协 研究 [J] . 机 制 工 , 2014 (5) :1 -4. [7] 林文辉.基于Hadop的海量网络数据处理平台关键 技术[D].北京:北京邮电大学,2011. [8] 李秋虹.基于MapReduce的大规模数据挖掘技术研 究[D].上海:复旦大学,2013. [9] 吕佳.WEB日志挖掘技术应用研究[].重庆师范 大学学报,2006, 4(23) : 39 -44. [10] 杨志文,刘波.基于Hadoop平台协同过滤推荐算法 [].计算机系统应用,2013(7)108 -112. (责任编辑:李丽,范君) 因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务