您好,欢迎来到筏尚旅游网。
搜索
您的当前位置:首页面向开源社区的Web数据抽取方法研究

面向开源社区的Web数据抽取方法研究

来源:筏尚旅游网
文章编号:1007—1423(2017)04~0027—04 DOI:10.3969/j.issn.1007—1423.2017.04.006 面向开源社区的Web数据抽取方法研究 张方,尹刚,王涛,余跃 (国防科学技术大学计算机学院,长沙410073) 摘要: 由协同开发社区和知识分享社区所组成的开源社区中汇集海量的开源数据资源。如何从数量众多。页面结构各异的 开源社区中准确、高效地获取这些数据是对开源数据资源进行全面分析.深度关联的前提。阐述面向开源社区的Web 数据抽取方法研究过程.实现对开源社区中Web数据的精确抽取 关键词: 开源社区;Web数据抽取;协同开发社区:知识共享社区 0 引言 面向开源社区的Web数据抽取是指从各类开源 社区的Web页面中抽取出我们所感兴趣的数据.并将 其以结构化的格式导人数据库中供进一步分析处理的 现对开源社区用户所感兴趣的开源数据的精确抽取. 因此.开展面向开源社区的Web数据抽取方法的相关 研究工作迫在眉睫 本文着力研究面向开源社区的 Web数据抽取技术.目标是构建一个抽取准确率高。并 能够适应不同开源社区站点的通用、健壮的Web数据 抽取框架.从而实现对开源社区中众多的协同开发社 过程。通常情况下,在开源社区中我们获取信息的方法 是通过页面浏览和关键词搜索 然而.页面浏览和搜索 的结果都是粗粒度的网页.我们虽然能查看具体内容. 但却无法精准地获得网页中自己所感兴趣的数据 此 区和知识共享社区所包含的海量的开源数据资源的精 确抽取 外.即使我们获得了这些网页.也无法直接进行数据分 析和应用 如何从源自不同开源社区站点且表现形式 复杂.结构各异的Web页面中准确的抽取有价值的数 2 主要研究内容 本文研究的是对开源社区中海量开源数据资源进 行有效抽取的方法.在此过程中主要涉及以下几个方 据.并将其集成并转化为结构和语义清晰的格式.存储 到数据库中.以满足后续数据的深加工需求进而形成 开源资源知识库已经成为一个亟待解决的问题 面的问题:如何构建一个适用于不同开源站点的通用 的、健壮的Web数据抽取框架:如何表达待抽取数据 元素的抽取规则:对于抽取得到的数据.如何进行有效 的验证和处理 1 研究意义及研究目标 近年来.互联网技术的迅速发展聚合了分散在全 球各地的开发人员.促使国内外开源社区蓬勃发展.开 源也成为了软件开发的趋势.各个开源社区互相关联 形成了一个完整的开源生态系统 在这个生态系统中. 开源数据资源规模巨大、增长迅速且分布广泛。为了能 够更加高效地利用开源社区中的数据资源.首先要实 2.1构建面向开源社区的Web数据抽取框架 开源社区中众多的开源社区站点在网页结构和内 容上都呈现出很大的差异.面向开源社区的Web数据 抽取框架对大量不同开源社区站点的通用性.即对不 同开源站点的适应性和健壮性是面向开源社区的Web 数据抽取方法能够得到大规模应用的前提 田 件笛加 9n17n 卜 囝 2.2抽取规则的制定 抽取规则的制定是对面向开源社区的Web数据 抽取的核心.在对HTML文件中的页面元素进行抽取 时.我们是通过有效的抽取规则实现对文件中待抽取 页面元素的准确导航、定位和抽取的 2.3数据验证和处理 为了保证数据抽取的质量.尽量减少“脏数据”.抽 取到的数据还需要完成数据验证和处理的过程 在这 个过程中首先要确保的是抽取数据本身的正确性和完 整性.其次当从多个开源社区站点抽取并集成数据时. 不同的站点对于相同数据可能采取不同的命名规范和 不同的计量单位.因此需要将数据命名和和数据格式 统一化然后映射到一个标准数据库表中.从而改善抽 取数据的质量 l Web数据抽取框架业务流 罔 在框架搭建的过程中复用了一些成熟的开源软件 技术,例如MYBatist和xsoup,提高了开发的效率 MyBatis是一个支持普通SQL金询.存储过程和高级 映射的优秀持久层框架.它消除了JL乎所有的JDBC代 码和参数的手工设置以及结果集的检索 X㈨uD是基于 3 面向开源社区的Web数据抽取的技术路 线及实施方案 3.1数据采集 开源社区既包含如GitHub.OpenHub.SourceForge Jsoup开发的HTML抽取器.提供了XPath支持.Xsoup 具有解析时间和抽取时间快.XPath解析错误提示伞而 的优点。 等协同开发社区.又包含如StackoverflOW.ESDN,Slash— dot等知识共享社区.在对这些社区中的开源数据资源 进行抽取之前.首先我们需要通过网络爬虫来爬取这 些开源社区的Web页面.并以HTML文件的形式存入 3.3 XPath定位路径的选取 抽取规则是对应于待抽取数据的一个位置路径表 达式.通过这个路径表达式我们可以在HTML贞面中 定位到待抽取数据对其进行抽取..通过实验对比。我们 源数据库中.作为待抽取的原始数据。 3.2 Web数据抽取框架业务流程 经过实验研究.我们确定了面向开源社【)(的Web 选定XPa【h定位路径作为Web数据的抽取规则 XPath是可扩展路径语言XML Path Language的简称, 它是一个W3C标准.主要用于标识XML文档的各个 部分.它将一个XML文档看作一棵树.我f『】可以称之 数据抽取框架的业务流程:首先。页面下载模块从目标 站点源数据库中下载原始数据.即待抽取的HTML网 页.然后数据抽取模块根据待抽取页面的抽取规则对 HTML网页进行抽取.抽取到的数据经数据持久化模 块存储到数据库中.同时抽取出错的页面由错误处理 模块转存到抽取失败数据库中 该抽取框架具备通用 性和可移植性的特点 一方面能够实现对形态各异的 不同开源社区的数据抽取.另一方面该抽取框架提供 了一个通用的抽取模板.当对一个新的开源社区进行 抽取时.能够复用其他社区抽取程序的大部分代码,只 需要改动抽取模板中的部分抽取规则和变量名称即 可 为“节点树” XML文档中的元素、属性、文本、注释、处 理指令、命名空间等都是这棵树的节点.分别称为元素 节点、属性节点、文本节点、注释节点、处理指令节点、 命名空间节点 XPath可以使用简明的、基于字符串的 语法对XML文档的各个组成部分进行定位.这种语法 就是位置路径表达式.通过XPath.我们可以精确地查 找到XML元素节点的位置 3.4数据一致性与完整性验证 为了保证数据抽取的质量,抽取到的数据还需要 经过进一步的验证和处理 通过抽取规则的定位从不 同开源社区抽取到的数据信息.若其数据格式不符合 @ 现代计算机2017.02上 研究与开发 / 我们的存储格式规范.必须处理成规范的格式.才能存 4 结语 通过对面向开源社区的Web数据抽取方法研究. 我们构建了一个通用的.健壮的.可移植性良好的Web 数据抽取框架.实现了对不同开源社区中开源数据资 源的准确抽取.为下一步开展基于开源社区中海量 入到数据库中 另外一个开源社区的待抽取页面中通 常含有众多的待抽取元素.例如在协同开发社区 OpenHub中需要抽取的数据项有:项目源码、项目名 称、项目描述、项目标签、相似项目、活跃时间、最后提 交时间等几十项.对于抽取结果的完整性必须加以验 证 我们在面向开源社区的Web数据抽取框架中集成 Web数据的全面分析.科学评估.深度关联等相关研究 工作提供了强有力的数据支撑 了数据验证模块.实现了对抽取数据的一致性与完整 性的验证和处理 参考文献: 【1】吴共庆.基于标签路径特征融合的在线Web新闻内容抽取fJ].软件学报,2016,(3):714—727. [2】丁晓梅.Web信息抽取规则的设计和实现探讨[J].教育,2015,(33):247. [31W Wei,S Shi,Y Liu,H Wang.Extraction Rule Language for Web Information Extraction and Intergration.Web Information System& Application Conference,2013:65—70. 『41Y Kim,J Park,T Kim,J Choi.Web Information Extraction by HTML Tree Edit Distance Matching.ICCIT,2007:2455—2460. [5]Fei Sun,Dan-dan Song,Le-jian Liao.DOM Based Content Extraction Via Text Density Proceeding of the 34th International ACM SI- GIR conference on Research and Development in Information Retrieva1.201 1:245—254. [6]L S Zhang,P Shi.An Effective Wrapper for Web Data Extraction and Its Application.International Conference on Cumputer Sci— enee&Education.2009:1245-1250. 【7]Suhit Gupta,Gail Kaiser,David Neistadt,Peter Grimm.DOM-Based Content Extraction of HTML Documents Proceedings of the 12th International Conference on World Wide Web.207—214. [8】张丽娜,陈俊杰,赵丽欣.基于HTMLParser的BT种子网页信息抽/R[J].电脑开发及应用,1010,(03):59—61. [9]隋玉航.基于WebHarvest的中文财经新闻搜索引擎的设计与实现『D1.华中科技大学,2011. [10】欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法.清华大学学报(自然科学版),2005,45(S1):1743—1747. 作者简介: 张方(1990一),男,河南南阳人,硕士研究生。研究方向为数据挖掘 尹刚(1975一),男,博士,副研究员,研究方向为可信软件、分布式计算与信息安全 王涛(1984一),男,博士,助理研究员,研究方向为数据挖掘技术 余跃(1988一),男,博士。助理研究员,研究方向为软件工程 收稿日期:2016—12一O1 修稿日期:2017—01—20 (下转第39页) 现代计算机 2017.o2上@ Application and Consideration of Software Development Courses for Outstanding Engineers Training with Flipped Classroom ZHAO Ying,WANG Guan-jun,LIU Bai-long (Department of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221 1 16) Abstract: With information technology and related resources continue to complete,and the rapid development of“Internet+”,there are new 0ppor— tunities in the field of education,hopes and challenges.Software development courses are important part of computer engineer profession— al excellence theory course system and practical course system.Analyzes the teaching dififculties and the feasibility of implementing the’’ lfipped classroom”teaching method,and then proposes specific embodiments,which include pre—class preparation,class discussion,and other after—school summary,at last,analyzes the effect of flipped classroom teaching.The results indicate that the”flipped classroom” teaching mode in application of software development courses for outstanding engineers training with flipped classroom helps to enhance students autonomous learning,teamwork awareness,training to create innovative ability,to adapt to the needs of economic and social de— velopment of high-quality talent. Keywords: Outstanding Engineers;Flipped Classroom;Software Development Courses;Individualized Teaching (上接第29页) Research on the Method of Web Data Extraction frOm Open Source Communities ZHANG Fang,YIN Gang,WANG Tao,YU Yue (College of Computer Science,National University of Defense Technology,Changsha 410073) Abstract: Open sourlce community,which consists of collaborative development community and knowledge sharing community,assembles a huge amount of open—source data resources together.How to obtain these data precisely and eficifently from numerous open source communi— ties with various page structures is a prerequisite for comprehensive analysis and deep correlation.Describes the research process of web data extraction method and achieves the accurate extraction of Web data from open source communities. Keywords: 0Den Source Community;Web Data Extraction;Collaborative Development Community;Knowledge Sharing Community 现代计算机 2017.o2上④ 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务