云平台数据库搜索引擎的实现方法
作者:曲进
来源:《科教导刊》2016年第21期
摘要 如今电子商务信息化得到很大程度提升,尤其在这个网络高度发达的时代,信息的收集和整理显得十分重要,对于电子商务来说,其未来最有可能的业务模式是与搜索服务结合起来。这种业务模式带来的海量信息数据,利用传统的数据库管理模式已经不能满足我们的需求,如今存在的主要不足为信息单点、搜索效率低下,同时搜索准确率得不到有效的保证,进而不能满足互联网搜索的基本需求,这也是现在很多研究人员十分关注的一个话题。为此,本文对云平台数据搜索相关问题展开研究,设计面向云平台数据搜索的基本结构,进而使得数据库的搜索方式应用于HBase系统内,提升整体查询搜索的性能,使得我们对信息搜索的效率大幅度提升。同时,本文还设计了数据的预处理方案,能够简化关系类型数据与HBase分布式数据之间的交互技术和算法。分析基于编辑距离和矢量数据的算法搜索评价机制,利用关键字之间具有相似部分判断用户的类似数据,大大提升用户搜索效率。 关键词 云平台数据库 搜索引擎 分布式数据库
中图分类号:TP391.3 文献标识码:A DOI:10.100/j.cnki.kjdkx.2016.07.075 0引言
如今网络发展迅速,电子商务信息呈现几何倍数增加,同时随着互联网应用环境的变换,如何从大量信息之中找到自己所需信息已经成为亟需解决的关键问题。搜索引擎在大量网络信息里建立起相关的链接,进而可以自动获得相关信息,之后把这些信息存入到数据库,并建立相关搜索词,供用户使用。
但是伴随着商务信息的不断增加,数据量呈现爆炸式增长趋势,随之也出现很多搜索引擎效率低下、准确度下降等问题。同时,搜索获得的信息非常巨大,获得展示的信息之间的相关程度变得十分低下,这导致用户很难在较短时间内获得自己所需的相关内容。鉴于此,本文利用云平台数据库建立相关搜索引擎,使用云平台数据库的体系结构,充分分析了关系型数据库以及HBase分布式数据库之间的交换模式,来提升搜索质量与速度。 1系统的需求分析与总体设计 1.1系统的需求分析
现在电子商务网站每天都有很多新的用户注册到其内部数据库里,随着注册人数的增多,这些数据也呈现了几何倍数的增加,因此在用户将自己的注册信息输入到数据库之后,需要对这些信息进行审核,判断输入数据是否重复或者是否合法,如果存在重复内容,则需要返回到修改界面,重新输入数据,如果没有,直接将这些数据存入到数据库中。
龙源期刊网 http://www.qikan.com.cn
对于这部分工作来说,需要准确以及快速的搜索引擎作为指导。系统基本要求就是,每天出现新的注册信息可以及时保存到数据库里,完成快速储存任务。其次,根据系统要求,对这些注册信息与以往信息进行对比,发现是否具有重复或者非法的情况。再次,每天更新已经通过注册的用户信息情况,对这些信息进行排序以及储存。最后,对那些更新的用户信息,需要及时的存入到已有的注册信息记录中。 1.2系统的总体结构设计
本文设计的基于云平台数据库搜索模式,主要方案基于Hadoop分布式文件系统和MapReduce编程模型,通过HBase分布式数据库结构以及Lucene全文检索系统,应用到数据库搜索系统之中。本文设计的数据搜索引擎的模型分为三个基本功能,即数据的预处理部分、索引模块以及搜索部分等,基于HBase分布式框架来,将设计内容部分含有的具体实现方法封装在程序内部,通过API应用接口使得子系统之间建立良好通讯机制。数据预处理模式通过关系型数据库与H]3ase分布式数据之间建立的良好信息交互能力,将关系型数据库内部历史用户注册的数据传递到HBase数据库的数据处理中心,同时将关系类型模块具有的已经获得批准的新数据提交到搜索器,再将不能使用的部分返回到关系型数据库内部。本文设计的索引器主要提供的功能为对预处理数据库里存在的信息进行倒排索引,同时对每天新增的数据信息建立其自身具有的增量索引模式,最后建立自己的倒排索引都储存到HBase分布式数据库索引库内部。
索引器模块含有的功能可以为每天新用户注册信息进行更新,同时获得新用户注册的信息,分析以往历史用户信息,使其可以存入到HBase数据库的内部进行倒排搜索,同时可以将获得的结果传输到关系类型的数据库制定列表里,同时将每天更新的用户注册信息中不重复的数据更新到数据库里,并更新索引模块。HBase分布式数据库,使用HDFS分布式结构完成系统内部模块设计,利用历史数据访问结构来获得大量文件信息。如果含有信息预处理的数据库,索引库可以提供相关访问接口,从而使得系统内部含有的功能得到全部使用,可以非常方便的增加系统新功能。本文设计的系统,在数据预处理部分、索引器部分与搜索器部分,执行程序的基本流程介绍如下:
首先是数据预处理部分,一是使用分布式数据交互工具Sqoop,对于存在关系型数据库内的历史用户注册数据向预处理数据库中导入,使得该数据库中含有HBase分布式数据库。二是对于倒排索引要通过索引器向HBase分布式数据库索引库内进行引入,同时将搜索信息提供给搜索器。三是在预处理完成之后,索引模块含有的数据库处理部分使用倒排索引模块,使用分词结构,利用数据文本数据进行分词,主要有中文分词与英文分词。四是借助于复合框架,数据预处理器能够对关系型数据库存在的每天用户注册数据更新进行实时读取,同时向搜索器进行提交来给予处理。五是对复合框架提供的相关数据通过搜索器进行解析,并提取关键字,以此为依据对索引器的倒排索引进行查询。六是以关键字中存在的相似度为依据,搜索器对用户更新数据进行有效排序。七是对用户注册数据的更新结果查重,会由搜索器向数据预处理器进行返回。八是对所有用户注册数据的更新中存在的不重复数据更新要通过搜索器向处理数据库中进行返回,接着便进行增量索引的建立。九是对搜索器返回的查重结果要通过预处理器来向
龙源期刊网 http://www.qikan.com.cn
关系型数据库进行写入,上述步骤便是系统整体结构具体的执行过程,其对子系统问的关系给予了充分体现。 2详细设计
2.1数据预处理子系统的设计
如图1所示,对数据的预处理分为两个基本结构,首先,使用关系类型数据模块存在的历史数据信息,通过Sqoop工具,向HBase数据库里面的预处理模块进行批量导入。第二,借助于特定程序模块框架,向搜索器提交每天用户注册的更新数据,通过搜索模块含有的查重结果将关系类型数据库内部信息返回到检查列表里面。 2.2索引子系统的设计
索引部分含有的主要功能如图2所示,首先在数据预处理模块对历史用户含有的信息建立倒排索引模块。其次对新注册的信息使其更新在已有的索引库里面,进而建立相关的索引模式。子系统中主要有索引合并、分词、索引存入索引库中、进行增量索引的建立、倒排索引的建立五个方面。
2.3搜索子系统的设计
本文是以搜索子系统为核心来对数据库搜索引擎系统进行优化。对于搜索子系统来说,其工作主要就是对每天用户更新的注册数据进行查重处理,具体如图3所示。首先就是接收每天用户注册的更新数据,解析这些数据,然后查询搜索评分机制处理之后的查询结果。查询结果的前50名数据会被视为重复数据,在数据库指定表中进行关系型数据的写入;在查询结果50名之后的数据被认为是不重复数据,将这些数据保存到数据库之中。 3数据预处理方法及搜索评分机制的研究 3.1数据预处理方法 3.1.1静态数据处理
处理静态数据信息的时候,首先利用分布式数据交换工具Sqoop,检查关系型数据模块中所包含的历史用户信息表格Historvcal data的字段类型以及其约束关系是否正确。然后,把表字段类型映射给相关的MapReduce任务,检查并分类获取表信息,并在HBase分布式数据库中创建预处理表HBaseHistorical data。最后,启动MapReduce任务,在历史注册的数据表格Historical data内记录相应数据,同时插入到预处理表中,下面便是其具体操作步骤: sqoop list-tables-connect jdbc:数据库:IP:端口号/数据库名字usemame用户名-password密码。
龙源期刊网 http://www.qikan.com.cn
第二部分对海量信息进行交互,同时对HBase内部的分布式数据进行相关处理,也就是在HBase Historical data导入存在于关系型数据库中历史用户注册数据表的相关记录。下面所表示的是其执行操作的具体步骤:
sqoop import-connect jdbc:数据库:IP/端口号/数据库名字-table关系型数据库中表名字-hbase-tabe。
Sqoop内部的分布式交互模式可以降低导入到记录储存的磁盘内部,之后在利用数据库记录具有非常类似的结构,这样使得其相对比传统的搜索模式更加优秀,同时本文设计的静态数据处理的方法变得更加简单。 3.1.2动态数据处理
动态数据分析功能,可以对HBase分布式数据库模块中含有的相关信息进行批量读写,通过特定程序模块以及复合框架来进行实现。因此,实现本文所述动态数据处理方法的时候,所带来的性能损失很小。
动态数据获得的处理方法为,通过包含复合框架的关系型数据库来获得更新的数据信息,然后将其保存到注册的数据表格Update-data中对应的字段,之后再利用Dim.xml文件将表的字段类型经过映射java程序相关的数据类型,同时对表Up-date-data操作的SQL语句映射成为java程序里面Dim类的方法。 3.2搜索评分机制
对于搜索评分制度来说,因为其对搜索的速度具有重要的影响,所以需要设计出可以快速提升搜索评分制度准确率的模式。目前的评分制度为TFIDF评分模式,以及PageRank相结合的方式。通过TF-IDF含有的基本评估的模式获得数据信息含有的关键字信息评分,这非常重要。本文设计的处理数据结构含有的主要信息为电商用户含有的相关注册信息,其中主要包括ID名字、邮箱以及相关主页信息等。根据相关的应用要求以及数据的特点,本文选择使用了基于编辑距离结构的数据距离算法基本模式,以及关键字段之间类似度建模分析。 4结束语
伴随着电子商务规模发展越来越大,用户注册数目得到快速的提升,对于存在很多的数据查重分析问题,以前使用的数据库搜索的模式已经不再适合现在的需求。针对现实应用内部出现的这些不足,本文利用云平台数据库搜索引擎的相关处理模式,使用了最新的云平台、全文搜索的技术模式,利用了数据库交互技术等很多缓存技术,进而使得数据库具有的数据搜索性能得到了大幅度的提升,提升了检索的可靠性,缩短了检索用时。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务