您好,欢迎来到筏尚旅游网。
搜索
您的当前位置:首页Web数据自动采集及其应用研究

Web数据自动采集及其应用研究

来源:筏尚旅游网
维普资讯 http://www.cqvip.com

[摘要】如何在信息浩如烟海的互联网上准确获取并长期跟踪自己关注的内容,这个新的问题已经成为制 约网络使用的重要因素之一。而Web数据自动采集旨在解决这个问题。文章从理论研究和应用技术的 两个方面展开探讨。本文给出了一个自动采集的模型,设计了基于房地产业的自动采集系统,证明了自 动采集的可行性与优点。同时也指出了其存在的局限于不足。 [关键词】信息采集半结构化数据数据挖掘房地产 『Abstract1 It iS more and more dificult to ifnd and trace what one iS interested on the web,whose information iS overloaded.This problem has greatly affected the effective use of the Internet.And web data automation extraction makes signiifcant advances in solving this problem.This paper discussed it from two aspects including academic research and application techniques.And it has given a data automation extraction model,designed a web data automation extraction system based on real—estate industry,which has proved the feasibility and advantages of automation extraction.At the same time.it also points out the limits of the application. [Keywords】Data Extraction,Semi—structured Data,Data Minding,Real Estate Web数据自动采集及其应用研究 周自力 王仁武 1.web数据自动采集的理 自动采集涉及到Web数据挖掘(Web 则、规律、约束及可视化等形式)的非 论基础 Data Mining),Web信息检索(Web 凡过程。包括Web内容挖掘(Wet Web可以说是目前最大的信息系 Information Reviva1),信息提取 content mining),Web结构挖掘(Wet 统,其数据具有海量、多样、异构、动 (Information Extraction),搜索引擎 structure mining)和Web使用挖拥 态变化等特性。因此给人们要准确迅 (Search Engine)等概念和技术。Web (Web usage mining)l。 速的获得自己所需要的数据越来越难, 数据挖掘与这些概念密切相关,但又 (2)Web数据自动采集与搜索引掣 尽管目前有各种搜索引擎,但是搜索 有所区别。 Web数据自动采集与搜索引擎 引擎在数据的查全率考虑较多,而查 (1)Web数据自动采集与挖掘 许多相似之处,比如它们都利用了隹 准率不足,而且很难进一步挖掘深度 Web挖掘是一种特殊的数据挖掘, 息检索的技术。但是两者侧重点不同. 效据。因此人们开始研究如何更进一 到目前为止还没有一个统一的概念,我 搜索引擎主要由网络爬虫(W e l 步获取互联网上某一个特定范围的数 们可以借鉴数据挖掘的概念给出Web Scraper),索引数据库和查询服务三个韶 据,从信息搜索到知识发现。 挖掘的定义.所谓Web挖掘就是指从大 分组成。爬虫在网上的漫游是无目 1.1相关概念 量非结构化:异构的Web信息资源中发 性的,只是尽量发现比较多的内容。查 Web数据自动采集内涵和外延非 现有效的、新颖的、潜在可用的及最终 询服务尽可能多的返回结果,不关 C 常广泛,目前尚无明确定义。Web数据 可以理解的知识(包括概念、模式、规 结果是否符合用户的习惯专业背景等 S8 电子商务2006.4 维普资讯 http://www.cqvip.com

而Web数据自动采集主要针对某个具 体行业,提供面向领域,个性化的信息 挖掘服务。 1.2研究意义 (1)解决信息冗余下的信息迷航 随着互联息的急剧增长,网 是对某一个特定的个人或团体而言, 获取相关信息或服务,和关注的范围 只是很小的一部分。目前人们查找网 上信息的主要是通过搜索引擎,如 Google,Yahoo等。但这些搜索引擎涉 及大而广,检索智能度不高,查准率和 查全率的问题日益凸现。并且搜索引 Web数据自动采集与信息提取=信 上存在越来越多的对用户没有价值的 冗余信息,使人们无法及时准确捕捉 息提取(Information Extraction)是近 年来新兴的一个概念。信息提取是面 到自己所需要的内容,信息利用的效 率和效果大为降低。互联网上的信息 向不断增长和变化的,某个具体领域 的文献特定的查询,这种查询是长期 的或者持续的(IE problems are speciifed as long・standing or continuous queries in the face of a growing and changing corpus2)。与传统搜索引擎是基于关键 字查询的不同,信息提取基于查询。不 仅要包含关键字,还要匹配各个实体 之间的关系。信息提取是从技术上的 概念。,Web数据自动采集很大程度要 依赖于信息提取的技术,实现长期的, 动态的追踪。 (3)Web数据自动采集与Web信息 检索 信息检索即从大量的Web文献集 合C中,找到与给定查询q相关的,数 目相当的文献子集S.如果将q看作输 入,S看作输出,那么Web信息检索的 过程就是一个输入到输出的映像: 善:(C:q)一>S3 而Web数据自动采集不是直接将 Web文献集合的子集直接输出给用户, 还要进一步的分析处理,查重去噪,整 合数据等。尽量将半结构化甚至非结 构化的数据变为结构化的数据,然后 以统一的格式呈现给用户。 因此,Web数据自动采集是web数 据挖掘的一个重要组成部分,它利用 了Web数据检索,信息提取的技术,弥 补了搜索引擎缺乏针对性和专业性, 不能实现数据的动态跟踪与监测的缺 点,是一个非常有前景的领域。 冗余主要体现在信息的过载性,信息 擎难以针对不同的用户的不同需求, 的无关性。选择的复杂性等多个方面。 提供个性化服务。 因此,在当今高度信息化的社会 (3)节约人力物力成本 里,信息冗余信息过载已经成为互联 与传统的人工采集数据相比,自 网上一个急需解决的问题。而Web数据 动采集可以减少很多重复性工作,大 采集可以通过一系列方法,依据用户 大缩短采集时间,节约人力物力成本, 兴趣,自动搜取网上特定种类的信息, 提高效率。而且不会出现人工数据采 去除无关数据和垃圾数据,筛选虚假 集中的遗漏、偏差和错误。 数据和迟滞数据,过滤重复数据。用户 无需跟复杂的网页结构和五花八门的 2.web数据自动采集的应 超级链接打交道,直接将信息按照用 用研究 户的要求呈现给用户。可以大大减轻 2.1应用特点 用户的信息过载和信息迷失。 从上面的讨论可以看出,web数据 (2)解决搜索引擎的智能化不高 自动采集是面向特定领域或特定需求 虽然互联网上有海量的信息,但 的 因此.其应用的最大特征就是基于 电子商务2006.4 59 维普资讯 http://www.cqvip.com

领域,基于需求。不存在行之有效的, 采集诞生于实际应用的需要。除了针 Velocityscape公司的Web Scraper Plus+ 通用于所有领域的采集模型。Web数据 对个人的信息搜集服务外,在科研,政 软件5,加拿大Ficstar Software公司提 自动采集的原理研究是相通的,但是 治,军事和商业等中可以有广泛的应用。 供度身定做的采集服务6。除了这些在 在具体的应用和实现上必然是领域驱 比如应用于情报采集子系统,按照企业 市场上公开出售的商业产品外,有些 动的。比如科研人员对通过跟踪研究 各级部门的信息需求,构建企业信息 公司企业还有自己内部使用的自动采 所和期刊网站上某一主题的文章,了 资源目录,建设企业信息库、情报库、 集系统。所有的这些应用都是基于特 解所关心学科最新进展情况・可 知识库,对互联网、内部网、数据库、 定行业的。 以监测某个特定主题的人们的发 文件系统、信息系统等多种信息资源 3.Web数据自动采集模型 展动向,地域分布等。猎头公司监视一 中全面集成,实时地采集和监测各种 尽管Web数据自动采集是面向特 些企业网站的招聘来得到人才的需求 企业所需的情报信息。可以协助企业 定领域的,但时其采集的原理和过程 变化。零售商可以监测供应商网上商 建立外部环境的监测和采集系统,构 都是相似的。因此,本节将设计的一个 品目录和价格的变化情况等等。房产 建企业信息资源架构,对产业环境、市 Web数据自动采集系统的模型。 中介可以自动搜集网上房地产价格信 场需求、相关、突发事件、竞争 3.1采集模型框架 息来判断房地产行业的变化趋势,获 对手进行有效监控,帮助企业在第一 系统可依据功能的不同分为三大 取客户的信息来开展营销。 时间把握市场先机4。 模块:数据预处理模块,数据过滤模和 2.2应用产品 因此在市场上也开始有一些相关 数据输出模块。结构如下图所示。 Web数据自动采集Web数据自动 产品和服务的出售。如美国的 03.2数据预处理模块 6o 电子商务2006.4 维普资讯 http://www.cqvip.com

责程度可以依用户需求而定。基本功 能就是将数据以结构化方式,呈现给 用户。此外,还可添加报表图标等统计 功能。当数据量达到一定程度之后,可 以对数据建模,进行时间序列分析,相 关性分析,发现各个概念规则之间的 模式和关系,从而使数据得到最大效 度的利用。 4基于房地产行业自动采集系统设计 前面已经提出,Web数据采集必然 是领域驱动或者数据驱动的,因此本 节在第三章的理论基础上,给出一个 基于房产行业的Web自动采集系统的 设计。 4.1.研究目标 房地产是当今最活跃的行业之一, 有众多的信息供应者和需求者。无论 是,房产开发商,购房者,投资者 还是银行信贷部门等都希望能够了解 ……………………………一一 房产价格最新的走向。网上存在大量 圈1.Web采集模型框架 Figure 1.Web Extraction Model Framework 的信息提供者,但是用户不可能有时 间去浏览所有这些网页。即使是房产 数据预处理是数据采集过程中的一 可以考虑通过Web页面建模,数理统计 方面的信息,也存在地区性、时间性等 个重要环节。如果数据预处理的工作做 和机器学习等方法来对数据过滤和清 特点。 得好,数据质量高,数据采集的过程则更 洗7。 房产中介常在一些比较大的房产 加快捷和简便,最后得出的模式和规则更 Web页面主要由Tag标记和显示内 网站搜集房产价格和客户的数据。通 加有效和适用,得出的结果也越成功。由 容两部分构成。通过建立Web页面模 常的做法是人工浏览网站,看最近更 于数据源的类型很多,各种数据的特征属 型,数据过滤模块对Tag标记进行解 新的信息。然后再将之复制粘贴到数 性不一定满足主题的需要,因此数据预处 析,构造网页的标签树,可以分析出显 据库中去。这种做法不仅费时费力,而 理模块的主要功能是定义Web上的数据 示内容的结构。 且在查找的过程中可能还会遗漏,数 源、格式化数据源以及初步过滤数据 得到有Web网页结构之后,以内容 据转移的过程中会出错。针对这种情 源。该模块需要将网页中结构化,半结 块为单位进行数据的保留和朋除。最 况,本节将设计一个房产信息自动采 构化以及非结构化的数据及其类型映射 后得到数据在放人数据库建立索引之 集的系统。实现数据采集的高效化和 到目标数据库中。所以数据预处理是数 前要进行消重工作。 自动化。 据采集的基础和依据。 3.4数据输出模块 4.2.系统原理 3.3数据过滤模块 数据输出模块将目标数据库中的 自动采集系统以第3节的采集模型 数据过滤模块负责将采集到本地 数据加工处理后呈现给用户。该模块 框架为基础,笔者设计的数据自动采 的数据进一步过滤加工,存人数据库。 属于数据抓取的后续工作,模块的负 集系统采用B/S模式,开发平台为 电子商务2006.4 61 维普资讯 http://www.cqvip.com

Microsoft Visua1.Net 2003,在window 用户服务结构主要由计划任务, 要较长的等待时间。同时,数据采集在 2000 Professional操作系统下编译,开 查看数据和分析数据三块构成。在计 大数据量时会给被采集对象的服务器 发语言为C#+Asp.net,数据库服务器为 划任务中设置监视计划的名称,URL, 带来较大压力。因此,应当尽量让系统 SQL SERVER 2000。 执行的时间等。查看数据中,首先可以 在对方服务器空闲的时候自动运行。 (1)系统架构分析 看到特定监视计划下网站的新挖掘条 比如可以通过Windows控制面板中的 采集模型以组件的形式置于 数,以及上次采集时间。可以马上开始 添加计划任务,让采集系统每天凌晨 component目录下,以面向对象的方式 执行采集任务。进入详细页面后可以 开始搜寻最新网页更新内容,执行数 封装好类的方法,函数等,以供调用。后 看到采集的内容,采集的时间和是否 据采集工作。在WindOW S 2000 缀名为aspx以及htm的文件为直接与用 已阅读的标记。查看所有的记录数以 Professional以及更高版本,还可以将 户交互的文件。此类文件不关心采集模 后,是否已阅读的标记自动更改为是。 组件以Windows服务与应用程序启动。 型具体实现,只需要声明调用即可。 分析数据对数据进行二次加工,以发 采集系统与Windows Update一样将自 该结构的好处就是不用安装特定 现新知识等。可以进一步深化。 动开启执行。总之,采集系统可以依据 的软件,升级维护方便,可以直接通过 (3)运行方式分析 实际需要,选择各种灵活的运行方式, 浏览器来调用服务器后台的组件。一 系统可以采用多种运行方式。比 充分考虑到采集者和被采集者情况。 旦采集模型需要变动,直接修改组件 如用户操作。用户可以随时监测到网 4.3.局限性 下的CS文件即可。 页最新的变化情况。但是如果在数据 Web数据自动采集主要完成的是 (2)用户交互分析 量较大,网络较为繁忙的情况下会需 采集功能。它不是万能的,只是一个工 62 电子商务2006.4 维普资讯 http://www.cqvip.com

具。它不rtr能自动理解川r1的业务, 解数榴的意义。它I{足通过‘系列十生 术千腔帮劬八仃】匹仃妓 更深入的授 取昕需受的数据:它H敏-赶果壤毅槲. 于为仆幺蛭这样做则需要^上等睡 救,为r保证数槲采集结 的 价值,用r-必须 :准确性 I适川池ffill 寻求个叶£衙^ 一般l 吉,遗川范围 越广的采集横 ,果集到 常.冗余救 据的可能性l就越K 反之,准确率越高 的数槲采集楼 .适用范围相对而占 会降低。 】此l¨户必颁r样自己的数 据 虽然一些葬让可以学虑到数椭异 常情况的她理.但}L算法自己馓所fI这 决定避不州钾的 数槲采集 会 :缺乏指导的情况 下自动地发现横型。数据采集系统需 要牲I 户的帮助羊【【指导F完l髭指定 个模型:井瞳需要用J、反馈采嶷结粜 来进行进一少的优化 改善I:作.破 岳得¨j的模 也可能因为观囊牛浒的 改变而需婪变动 匈}l^兜,各冉侧单 但随着数据挖砌 技术的靛腱.智能搜索f;l擎的m观它 些不希嚷进行敲收嶷的f矗息如何进行 l匾自动采集也魁一十 簦磔题。 知姒经济时代.准能够f『技获取与 利啪妇¨【{,准就掌握r 竞争巾取畦的 戒器和工肄。Web数据自动采集作为一 种仃之前设的获取乖l:J利用知识的手段, 们旺丰H促进.子丁进一步触台的趋协一 柱实际 川巾.Web数据自动秉 t1埘¨前 联 卜怙忠过载.卫搿 刮仃杖利jil的状:兄.增惺了f 息的仕 }}I效率.提高凡仃】丁J=作技 簪.减轻r 经引起人们越来越多的秉槐和甍注 !有从数据巾提取信息,^^怙量【中发现 知 1.十能更好的为个人. 、№以盟国 家的思维决策f¨战略发展服务。 5、结求语 研究辛丽域中.Web数槲r1曲l采堆 T 作负担 利片I价值. 终济,军事卜郜何转大的 越求越多的J商涉址 址一个新 的.赫力臣太研究方向 它 与教据挖掘,信息转索.搜索0l擎披术 骓务和成J1. 仳足从曰+方向llJ J:商品ff『特.公司产- .个凡隐私等一 参考文献 l周诲李军.砧惠玲.Web数据挖掘技术研究lJ1.沮 范学院学报c[1然科学),2004.22:87 2S吣phenSo|erland.Leanfing hffom ̄ationExwaclionRulesforSemi structured and Free Tcxl .Besom ItJ,urorA ̄:adomk: P曲lishers.2∞1 3林杰斌,刘嘶德.陈{f}l敷掘挖掘 OLAP理论 j实务I .北京:清华久学出版社,2003,45 4橱建林.孙哦军.竞争情报收壤的自动f l_情报撞托2005 1:40—43 5 Volocityscape Products:Web Scraper Plus+hitp W velocityscape c0n1,、 ebScra 州IIs.aspx(Access 2006-H8 6 Fiesmr:Project-based ctt ̄,tolnization scn’ice http:/A ̄.ww.“cst.al ̄corn/product htm(Access 2906-1・18) 7林建勤.基于Web的数据挖搁应}¨模式研究 I.贽州师范太学学报1一然科学皈).2004.8:92-96 电子商务20064 63 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务