算法语言信息与电脑China Computer & Communication2019年第20期基于元数据的搜索引擎的设计与实现周文瑜(湖南现代物流职业技术学院,湖南 长沙 410131)摘 要:针对物流元社区共享过程需要构建搜索引擎,对于普通用户来说,对物流元数据领域的相关认识还存在一定的缺陷,需要引入探索式访问技术,进一步表达检索请求,可实现元数据的检索功能,分面检索是一种探索检索方式,能够根据物体系最终完成检索结果聚类分析,因此用户可以选择分面值完成结果筛选。随着目前物流元数据增加以及异构化程度提升,分面数量逐渐增加,如果将所有分面均展示给用户则很容易导致用户出现选择困难。为将探索检索方式应用于物流元数据检索过程中,在本研究中针对物流元数据分面较多的问题,提出了基于保持率的分面推荐算法,并设计和实现物流元数据动态分面搜索引擎,通过研究结果发现所提出的算法能够显著提升最终的检索效率。关键词:元数据;搜索引擎;设计;实现中图分类号:TP393.09 文献标识码:A 文章编号:1003-9767(2019)20-050-03Design and Implementation of Meta Search Based Search EngineZhou WenyuAbstract: For the sharing process of logistics meta-community, it is necessary to build a search engine. For ordinary users, (Hunan Modern Logistics College, Changsha Hunan 410131, China)there is still some defects in the knowledge of logistics metadata. It is necessary to introduce exploratory access technology to further express retrieval requests and realize metadata retrieval. Function, faceted search is a kind of exploration and retrieval method, which can finally complete the clustering analysis of search results according to the object multi-dimensional system, so the user can select the number of facets gradually increases. If all the facets are displayed to the user, it is easy to cause the user to have difficulty in the facet value to complete the result screening. As the current logistics metadata increases and the degree of isomerization increases, selecting. In order to apply the exploration and retrieval method to the process of logistics metadata retrieval, in this study, based on faceted search of logistics metadata was designed and implemented. The engine, through the research results, found that the proposed the problem of more facet of logistics metadata, a maintenance-based faceted recommendation algorithm was proposed, and a dynamic algorithm can significantly improve the final retrieval efficiency.Key words: metadata; search engine; design; implementation0 引言得初步搜索信息集合,从多个角度上对该结果进行分析,最近年来,随着信息技术的发展,各部门陆续开始收集物终能够将这类分析结果利用术语方式展示给用户,从一定程流信息数据,为实现信息共享,以元数据形式进行描述,通度上来看,分面层是搜索对象属性反馈给用户的过程,能够过整合物流信息数据并构建信息发布服务,进而实现信息充使用户选择分面信息,最终得到所需要的检索结果[1-2]。分共享,传统数据在检测过程中主要以关键词作为检测依据,目前,物流部门会产生大量的业务数据,这对于企业发然而在元数据检索领域中通过采用探索搜索方式能够提高检展来说是十分重要的资源,如何确保大量数据实现高效管理索请求的准确度。分面检索是一种引导式检索,近年来其应成为了物流行业急需解决的信息化问题。物流元数据搜索引用较广,具有一定的直观性、交互性,能够让用户通过导航擎可有效解决上述问题,进而实现信息资源共享,对于物流实现数据应用,比如对一件衣服来说,就存在不同维度,行业不同部门所收集的信息来说,可实现高效数据汇总,并包括价格、品牌等信息,通过不同维度进行物体分析,可获且以对象形式将元数据储存在索引中,通过分面能够有效划得多种分析结果。相比之下,当用户输入关键词后,能够获分物流元数据,提高最终检索率。传统使用的信息检索主要作者简介:周文瑜(1980—),女,湖南永州人,硕士研究生,讲师。研究方向:信息管理、健康信息传播。— 50 —信息与电脑2019年第20期China Computer & Communication算法语言以关键词作为检索依据,然而这种方法的分面效果不佳,输是比较合适的,可通过覆盖率进行分面衡量,将分面下所涉入检索的关键词之后,系统会自动罗列关键词检索结果,并及的检索结果利用下列公式表示:将所有的结果反馈给用户,在检索过程中用户查询是比较明确的,仅需要查询某个包含的元数据,因此需要采用其他辅 f(B)=hit(B)助检索方式来获得关键词,提高检索率,以关键词作为依据hits (1)公式中,B分面覆盖率用f(B)表示,B分面覆盖初次检的分面检索可为用户提供有效指导,并对最终的检索结果完测到的结果数量可以用hits(B)表示,初步搜索结果数量集可成筛选,能够以客户检索意图为依据,准确表达检索需求,以利用hits表示,通过该公式能够准确计算不同分面的覆盖提高检索体验和服务。在本研究中,在物流元数据检索过程率,进而向用户推荐覆盖率高的分面。对于信息量较大的分中,引入导航检索-分面检索方式,针对当前物流元数据存面来说,研究学者开发了分面检索系统并提出基于统计的分在较大异构程度,提出高效推荐方法,即基于保持率分面推面导航模型,该模型能够有效划分减少空间,并且要求所有荐法,并阐述该方法的实用性。检测到的结果均匀分布在不同的分面中。通过信息熵来衡量1 分面检索分面值,如式(2)所示:分面搜索实际上是在图书馆中使用的,能够将信息 Hc=∑p(ci)logp(ci) (2)进行正交划分的一种重要分类体系,之后在结构化数据上被公式中,c分面信息商用Hc表示,分面值ci覆盖率p(ci)演化成探索式检索法,用户可通过发送检索请求,然后从系表示在总分面结果中分面值检索结果占总数比例。对于相关统中获取最初的结果进行聚类分析,进而形成分面和分面值,性高的分面推荐方法,输入关键词后,系统能够自动返回所通过分面选择获取预期的检测结果。该技术具有一定的便捷推荐的分面和最开始检索到的结果,从而能够帮助用户缩小性,目前已经广泛应用在很多行业中,如图书馆、电子商务、检索范围。用户通过刷新推荐的分面选择分面后,继而会被影视等。马蒂·赫斯特研发的项目中,运用了层次分面技术将引导选择最相关的几个分面,有关研究表明分面之间存在一检索和浏览技术进行结合。定的相关性,且可以度量。针对半结构化文件,以树状方式除此之外,在分面检索中还涉及分面和分面值概念,其存在子节之间,子、父节点之间具有一定的联系,与此同时中分面是指针对研究对象开展的度分析,比如在物流行父节点与子节点为必然性联系,分面从一定程度上来看是与业中元数据存在联系人、地址、单位、联系电话等多种维度,文件节点相似的,从而可推出不同分面之间的联系。分面之这是元数据的重要属性,作为元数据分面,而相对来看分面间的联系可以用式(3)表示:能够通过物体属性进行分类分析。分面下具体的值称为分面值。就像联系人这个分面下如果有个值叫李某某,那么这个 xsd=XiYjX)i+Yj-X (3iYj李某某就叫分面“联系人”下的分面值。可以将李某某作为式(3)中,分面i和j的关系可以用xsd表示,Xi为分联系人相应分面值完成检测,实际上是对最初检索结果进行面i下的检索结果的最终数量,Yj表示分面j下的检索数量,聚类分析,进而将其生成分面和分面值,然后选定分面和分XiYj则代表同时在两个分面下的检索数量,利用这种公式可面值或去掉已选分面和分面值,以此来提高查准率和查全率,以发现当XiYj偏大,所获得的分面相关性就越高,如果两分达到最理想的检索目的。面存在共同的检索结果,且数量较大,则证明这两个分面具2 分面推荐算法相关概述有较大的相关性。为用户提供合适的分面,就要采用合适的分面推荐算法,3 动态分面搜索引擎设计目前国内外对于分面推荐算法存在多种选择,当信息量较大对分面检索系统而言,它可以为物体分配多种不同模式,时,使用覆盖率高的分面推荐算法,存在多种选择时可使用因而一个物体可以以多种不同的方式来表现,而不仅是对某物相关性高的分面推荐,具体来看,针对覆盖率高分面推荐这体的简单定义和组织。部分检索系统可使用多种分面,基于一一算法来说,其在分面检索系统中应用较广,当用户输入其定条件下这种分面不会随便变化,而会依据用户选择逐渐减少他查询请求或者一些关键字时,此时该系统会返回最初获得所呈现的分面量。动态分面检索系统是针对存在较多检索分面的检索结果,将该结果通过聚类分析获得多个不同分面下的的情况设计的,这种情况下当用户选定某一分面,系统会重新结果数量,如果某一分面存在较多检索结果时,此时所需结为其推荐最合适的几个分面,对于静态分面检测系统来说,相果在该分面下概率较高。由于初步检测是由用户提交前获得比异构数据资源处理上动态分面检索系统具有良好的处理效的,如果某分面所覆盖检索结果较多则表明该分面与所提交果。对于面向元数据动态检索系统来说,能够简化为检索模块、的检索请求具有较大的相关性,可将该结果数量大的分面推索引模块、结果模块,其中,开源检索框架为Lucene可对物荐给用户,防止后续的检索中出现结果为零的问题。从这里流元数据进行准确检索,并能够从中获取分面数据,通过该算可以看出,对于存在较大检索结果的分面,将其推荐给用户法为用户挑选这些合适的推荐分面,在检测时利用向量空间模(下转第58页)— 51 —软件开发与应用信息与电脑China Computer & Communication2019年第20期是通过Cookie将餐品信息转换成字符串保存来实现的。用时间,所有互联网用户均可访问本系统,突破了地域的。户点击加入餐车后,系统调用checkCookieNums()对餐品进餐厅管理员也可通过互联网管理餐厅信息,吸引更多的用户,行判断,确定购物车信息后提交订单,触发按钮的Click事节省企业开销,增加利润。件,会显示用户的订单div,该div里有详细的订单信息,用户可以查看订单号跟踪订单的详细情况,购物结束。用户将参考文献餐品添加至购物车,点击提交后,系统访问数据库,判断该用户是普通用户还是会员用户,如果是会员用户,系统调用[1]谷悦.“互联网+”开启餐饮新时代——首届中国互联MemberCentInfo()方法获取会员积分,并修改餐品价格为会网+餐饮发展高峰论坛在京举行[J].中国食品,2015(15):16-21.员价格。[2]陈新宇,关鑫,金环.浅析互联网时代下餐饮业服务营销[J].数码世界,2018(2):86.3 结 语[3]张卫.互联网巨头们纷纷插手网上订餐业务[J].中国开发网上订餐系统,用户通过互联网订餐,节省了用餐食品,2015(4):74-75.(上接第51页)型进一步对所获得的检索结果进行排序。对于物流元数据来说,元数据是指物流元数据相对应的信息在信息系统中的元数据,主要涉及物流信息资源,能够以元数据方式对信息源进行准确描述。半结构化数据将其作为数据载体,所使用的元数据信息具有结构统一、储存便捷等特点。物流元数据是对物流行业信息资源的提取,可以使用半结构化文件作为物流数据载体,在整个文档中使用节点树方式,不同节点之间具有语义关系。对于物流元数据来说可以将属性值放在节点中,通过路径找到对应数据的属性值,在分面检索中通过元数据路径提取,能够对相应路径进行分装,将其和对象建立相应。所以在分面推荐模块中,动态分类检测系统能够对一个数据进行有效处理,将成为用户提供更加优质服务的检索体验。静态分辨系统是在检索分辨中进图1 最适推荐分面流程图行分面固定,最终为用户呈现固定分面模式,且随用户选择获取最初的检测结果集,在这一栏目中在这一过程中所显示分面固定在检索分面中的数量不会变化,而动态分面检测系的推荐分面,使用户进行分面检索中具体分辨值的选择,完统呈现给用户的分面数量并不是固定的,会随用户选择系统成结果筛选,不断刷新检索栏菜单之后,系统会再次为用户自动进行分面选择处理,针对一个资源较多的问题可以使用推荐分面,直到最终用户获得比较满意的检索结果,在面向动态分面的技术为其提供最合适的分面,而在后台中对其他物流元数据动态分面检索引擎中使用这种算法,通过实验给分面进行隐藏。在设计动态分面检索引擎时,最关键的是要用户后期进行反馈,并发现利用这种检索引擎能够进一步提做好分面推荐,每次系统为用户显示最终的搜索结果时,需高检索效率,且前几个被推荐的分面也是客户所需的数据,要对结果完成聚类分析形成不同分面,使用动态检索引擎要该方法在系统中起着十分重要的作用。求每次检索过程中能够刷新分面,被推荐分面是一种最合适分面,具体流程如图1所示。参考文献4 结 语[1]赵许.基于元数据仓库的数据地图设计与实现[D].大从动态分面检索系统的设计上来看,在具体项目中可运连:大连理工大学,2016:34.用这种算法,面向物流元数据动态分解检测系统,我们可以[2]朱明瀚.基于数据仓库的数据搜索引擎设计与实现发现该系统涉及分面检索栏窗口,输入关键词之后,用户可[D].上海:华东理工大学,2015:56.— 58 —