您好,欢迎来到筏尚旅游网。
搜索
您的当前位置:首页数据挖掘及在电子商务中的应用研究

数据挖掘及在电子商务中的应用研究

来源:筏尚旅游网
维普资讯 http://www.cqvip.com

第2O卷第2期 甘肃联合大学学报(自然科学版) Vol_20 No.Z 2006年4月 Journal of Gansu Lianhe University(Natural Sciences) Apt.2006 文章编号:1007-9912(2006)02-0030-05 数据挖掘及在电子商务中的应用研究 李恒杰 ,杨鼎新 (1.甘肃联合大学理工学院,甘肃兰州730000I2.甘肃联合大学经管学院,甘肃兰州730000) 摘要:企业的竞争优势并不取决于信息的拥有量,而是取决于信息的处理利用能力.如何化信息优势为竞争 优势,是企业制胜于市场的一个法宝.本文论述了一种信息处理利用的有效工具——数据挖掘的有关问题及其 在电子商务中的应用. 关键词:数据挖掘;电子商务;应用 中圈分类号:TP18 文献标识码:A 0 引言 究的热点和难点.现代社会的竞争趋势要求必须 对Web上的信息进行实时的和深层次的分析.因 信息社会里,面对浩如烟海的信息,人们才发 此,人们迫切需要一种新技术,以便从web海量 现信息已泛滥成灾,早已不再是一种稀缺资源,这 的数据中自动地、智能地抽取隐藏在这些数据中 些海量的信息已经严重地干扰了人们的决策.如 的知识,Web的数据挖掘技术产生了. 何快速有效地从筛选出有利于改善决策的信息, Web挖掘(KDW,Knowledge Discovery in 化信息优势为竞争优势,是必须解决的迫切问题. Web,从网络上获取知识)是从WWW上抽取知 但基于传统的数据库系统的信息管理系统无论是 识的过程.它是从与www相关的资源和行为中 查询、统计还是报表,其处理方式都是对指定的数 抽取感兴趣的有用的模式和隐含信息,也是将数 据进行简单的数字处理,而不能对这些数据所包 据挖掘技术和理论应用于WWW资源的一个新 含的深层的内在的信息进行提取,已无法满足人 兴研究领域.它也是二十世纪9O年代以来,随着 们的需求。随着信息量的增加和竞争的加剧,人们 网络技术的发展,特别是Internet的广泛应用,使 迫切需要一种能够提供更高层次的数据分析功能 得数据挖掘的对象从数据库中的数据延伸到网络 的信息处理技术,数据挖掘技术应运而生. 上的数据的必然结果.Web挖掘可以分为:Web 1数据挖掘及功能 内容挖掘、Web结构挖掘以及Web使用挖掘r副. 基于Web的数据挖掘技术的出现不仅为商 数据挖掘(KDD,Knowledge Discovery in 家做出正确的商业决策提供了强有力的工具,也 Database)一词是在1989年8月举行的第11届 为商家更加深入地了解客户需求信息和购物行为 国际联合人工智能学术会议上提出的,也称为数 特征提供了可能性。 据库中的知识发现,是从大量数据中提取出可信、 数据挖掘是一种综合了众多学科的信息处理 新颖、有效并能被人理解的模式的高级处理过程. 技术,其主要功能如下: 我们可以简单地理解为从大量数据中提取出隐藏 1_1 分类 在其中的有用信息,将机器学习应用于大型数据 按照被分析对象的属性、特征,建立不同的组 库的一种综合的信息处理技术r¨. 类来描述事物.例如:将网上的每一篇文章按关键 随着www的出现和飞速发展,www作为 字分为不同的类别. 互联网上主要的信息发布方式,已显现出巨大的 1.2聚类 商业价值和应用潜力.面对网上海量的数据资源, 识别出被分析对象的内在规则,按照这些规 如何从中快速、准确地发现知识,已经成为当今研 则把对象分成若干类.例如:对“顾客最喜欢什么 收稿日期:2005一O1—06. 作者简介:李恒杰(1965一),男,河南封丘人.甘肃联合大学理工学院副教授,硕士,主要从事电子商务、计算机网络、 数据挖掘的教学及研究工作. 维普资讯 http://www.cqvip.com

第2期 李恒杰等:数据挖掘覆在电子商务中的应用研究 31 样的促销方式”这样的问题,按照顾客的购买习惯 进行聚类,将购物习惯相近的顾客分在一起,不同 的类别表明不同的购买习惯,然后分别调查了解 每一类顾客最喜欢的促销方式. 1.3关联规则 2.4神经网络 模拟人的神经元功能,经过输入层、隐藏层、 输出层等,对数据进行调整、计算,最后得到结果, 用于分类和回归. 2.5遗传算法 基于自然进化理论,模拟基因联合、突变、选 择等过程的一种优化技术. 2.6关联规则挖掘算法 关联是某种事物发生时其他事物会发生的一 种联系.例如:每天购买牛奶的人也有可能购买面 包,其中买牛奶的人有多少一定要买面包,比重有 多大,这可以通过关联的支持度和可信度来描述. 1.4预测 有效的预测需要建立预测模型.预测目的是 把握分析对象发展的规律,对未来的趋势做出预 见.例如:对电子商务行业未来发展做出判断. 1.5偏差的检测 对分析对象的少数的、极端的特例的描述,揭 示内在的原因.例如:在银行的i00万笔交易中有 500例的欺诈行为,银行为了稳健经营,就要发现 这500例的内在因素,减小以后经营的风险. 需要注意的是:数据挖掘的各项功能不是独 立存在的,在数据挖掘中互相联系,相辅相成,共 同发挥作用. 2数据挖掘的方法及工具 数据挖掘是--t]数据处理的新兴技术,它有许 多明显的特征.首先,数据挖掘面对的是海量的数 据,这也是数据挖掘产生的原因.其次,数据可能是 不完全的、有噪声的、随机的,有复杂的数据结构, 维数大.最后,数据挖掘是许多学科的交叉,运用了 统计学、计算机、数学等学科的技术.目前应用最广 泛的数据挖掘算法和模型有下面几种[3]. 2.1传统统计方法 常见的如抽样技术,面对海量的需要处理的 数据,对所有的数据进行分析是不可能的,也是没 有必要的,这就要在理论的指导下进行合理的抽 样.然后进行例如多元统计分析,因素分析,聚类 分析,回归分析,时间序列分析等. 2.2可视化技术 用图表等方式把数据特征直观地表述出来, 如直方图等.可视化技术面对的一个难题是高维 数据的可视化. 2.3决策树 利用一系列规则划分,建立树状图,可用于分 类和预测.常用的算法有CART,CHAID,ID3, C4.5,C5.0等. 关联规则是描述数据之间存在关系的规则, 形式为“Al^A2^A3…An—Bl^B2^B3…Bn”. 一般分为两个步骤:第一步,求出大数据项集;第 二步,用大数据项集产生关联规则. 除了上述的常用方法外,还有粗集方法,模糊 集合方法,Bayesian Belief Netords,最邻近算法 (k-nearest neighbors method)等. 3数据挖掘应用步骤 数据挖掘应用可分为5个阶段:定义目标、源 数据收集、挖掘数据、实施和评估[钉.图示如下. 3.1定义目标 定义目标时,首先应该明确你的目的是什么, 下面列出了可能的数据挖掘目标: (1)确定顾客购买一种产品时可能购买的另一 种产品;(2)增加顾客浏览网站的频率;(3)减少顾客 交易前的考虑时间;(4)提高顾客访问网站的保持 率;(5)使潜在顾客参与到交易中;(6)增加顾客访问 网页的平均数量;(7)哪些顾客创造了最大的利润; (8)现有顾客的特点;(9)挽回流失的顾客;㈣其他. 不管你的目标是什么,都可以划分为两大类, 一是预测,二是描述.所谓预测就是计算未来活动 的值,比如预测某类顾客未来的消费额是多少;描 述就是创建规则,通过这些规则将对象归到描述 的类中,比如归类创利的顾客和不创利的顾客. 3.2源数据收集 在Web挖掘中,数据最直接的来源是Web 服务器,客户访问服务器就会在服务器上产生相 应的服务器数据,这些数据可以分为日志文件、查 维普资讯 http://www.cqvip.com

32 甘肃联舍大学学报(自然科学版) 第20卷 询数据和客户登记信息.日志文件又可分为serv— er logs,error logs,cookie logs,这些只用来记录 用户访问的基本情况.查询数据是用户查询自己 需要的信息时所产生的纪录,另外,服务器也同时 记录文件的有关信息,如:文件的创建者,修改时 间等.客户登记信息是指客户通过Web页在屏幕 上输入的要提交给服务器的相关信息,它在电子 商务中是十分重要的.在Web的数据挖掘中,客 所需的数据及进行数据挖掘的工具和专家,这里 的专家不应该是仅仅具备计算机知识的人,同时 应该对市场有一定的洞察力,因为数据挖掘是为 企业未来要实施的市场策略以及改进web站点 服务的,如果挖掘得来的数据无法与企业市场策 略联系起来,也就失去了数据挖掘的意义. 3.4.2采取行动 在进行完上一步骤后就应该 是数据挖掘的开展,并将取得的成果运用到实际 户登记信息必须和访问日志集成,以提高数据挖 掘的准确度,更进一步地了解客户. 3.3挖掘数据 挖掘数据又分为3个步骤:数据预处理、模式 发现、模式分析. (1)数据预处理.实际系统中的数据一般都具 有不完全性、冗余性和模糊性,要挖掘有效的指 示,就必须为它提供准确、简洁的数据.预处理主 要完成以下工作:对用户访问的数据源进行数据 过滤,消除不相关项,缩小被挖掘数据对象的范 围;通过分析用户方cookies和采用catch busting 技术,并且借助于其他一些信息来实现用户唯一 性识别;采用超时估计的方法将每个用户的访问 信息划分成若干个的会话进程来进行用户会 话识别;当出现路径信息不完整的时候采用合适 的方法完善访问路径;依据数据挖掘任务的需求 将事物分割或者合并处理,使其适合于数据挖掘 需求的分析,在对用户会话识别的基础上进行事 物识别等处理. (2)模式发现.模式发现阶段就是利用挖掘算 法挖掘出有效的、新颖的、潜在的、有用的以及最 终可以理解的信息和知识.可用于Web的挖掘技 术有路径选择、关联分析、分类规则、聚类分析、序 列分析、依赖性建模等等. (3)模式分析.模式分析是从模式发现阶段获 得的模式、规则中过滤掉不感兴趣的规则和模式. 通过模式分析,找到有用的信息,再通过联机分析 (OLAP)的验证,结合客户登记信息,找出有价值 的市场信息或发现潜在的市场. 3.4实施 3.4.1 分析财务状况及实施可行性首先,数据 挖掘无法避免财务问题,涉及人、财、物的投入,从 最初计划实施,以及实施过程直至最后的维护,都 应该考虑到财务问题,同时要考虑到进行挖掘所 消耗的成本与挖掘后进行网站或其他方面的改进 所带来的收益比.其次,是否具备web数据挖掘 中去. 3.5评估 数据挖掘的开展所取得的成效有哪些,应该 事先有一个预计的评估体系,是否达到了所定义 目标的要求,还有哪些改进措施等等. 4数据挖掘在电子商务中的应用 电子商务活动中数据挖掘研究的对象是客户. 它能发现客户的共性和个性的知识、必然和偶然的 知识、和关联的知识、现实和预测的知识等.所 有这些知识都可以在不同的概念层次上被发现,能 从微观到宏观进行分析,能对客户的消费行为如客 户消费的心理、能力、动机、需求、潜能等做出比较 客观的统计和正确的分析,为电子商务的管理者提 供决策依据,以更好地满足客户的需要L5]. 4.1数据挖掘方法的应用 4.4.1 分类与预测方法在电子商务中的应用 在电子商务活动中分类是一项非常重要的任务, 也是应用最多的技术.分类的目的是构造一个分 类函数或分类模型通常称作分类器,分类器的构 造方法通常有统计方法、机器学习方法、神经网络 方法等.这些方法能把数据库中的数据项映射到 给定类别中的某一个,以便用于预测,也就是利用 历史数据记录自动推导出对给定数据的推广描 述,从而能对未来数据进行预测. 4.1.2 聚类分析方法在电子商务中的应用 聚 类是把一组个体按照相似性原则归成若干类别. 对电子商务来说,客户聚类可以对市场细分理论 提供有力的支持.市场细分是通过不同的消费者 群体来对市场进行细分.它的目的是使得属于同 一类别的个体之间的距离尽可能小,而不同类别 上的个体间的距离尽可能大,通过对聚类的客户 特征的提取,电子商务网站可以为客户提供个性 化的服务.聚类方法包括统计方法、机器学习方 法、神经网络方法等方法. 4.1.3 数据抽取方法在电子商务中的应用 与 维普资讯 http://www.cqvip.com

第2期 李恒杰等:数据挖掘及在电子商务中的应用研究 33 传统商务活动相比,电子商务具有更多的虚拟和 不确定的因素:如客户购买的心理、动机、能力、欲 构,调整销售策略,提供个性化服务.对数据挖掘 功能进一步细分,我们可以得到以下应用:客户细 分、客户获得、客户保持、客户拓展、目标营销、交 叉销售、增量销售、购物分析、个性服务、信用评 估、欺诈检测、客户盈利能力分析、投资组合管理、 利润分析、销售预测、收入预测、需求预测、安全管 望等.数据挖掘要解决的任务就是如何从零散的 无规则的数据中找到有用的和有规则的数据.基 本方法之一是进行数据抽取,数据抽取的目的是 对数据进行浓缩,给出它的紧凑描述,如求和值、 平均值、方差值等统计值,或者用直方图、饼状图 理、资源优化、活动分析、业绩分析、商店选址、库 等图形方式表示.更主要是它从数据泛化的角度 来讨论数据总结.数据泛化是一种把最原始、基本 的信息数据从低层次抽象到高层次上的过程.可 采用数据分析方法和面向属性的归纳方法. 在电子商务活动中,采用数据分析方法进行 数据抽取,它针对的是电子商务活动中的客户数 据仓库.在数据分析中经常要用到诸如求和、总 计、平均、最大、最小等汇集操作,这类操作的计算 量特别大.可把汇集操作结果预先计算并存储起 来,以便于决策支持系统使用. (4)关联规则在电子商务中的应用 一则典型的关联规则的形式是,“在购买面包 和黄油的顾客中,有9O 的人同时也买了牛奶” (面包+黄油一牛奶).用于关联规则发现的主要 对象是事务型数据库,一个事务一般由事务处理 时间、顾客购买的物品、顾客标识号组成.其中针 对的应用则是售货数据.由于条形码技术的发展 和Web技术的逐步成熟,管理部门可以收集存储 大量的售货数据和客户资料.对这些历史事务数 据进行分析并发现关联规则,则可对网上顾客的 购买行为提供极有价值的信息,可以帮助管理者 规划市场,确定商品的种类、价格、质量等.通常关 联规则有两种:有意义的关联规则和泛化关联规 则.有意义的关联规则,是指满足最小支持度和最 小可信度的规则.最小支持度,它表示了一组对象 在统计意义上的需满足的最低程度,如电子商务 活动中的客户数量、客户消费能力、消费方式等. 后者即用户规定的关联规则必须满足的最小可信 度,它反映了关联规则的最低可靠度.第二是泛化 关联规则.这种规则更实用,因为研究对象间存在 一种层次关系,如面包、蛋糕属于西点类,而西点 又属于食品类.有了层次关系后,可以帮助发现更 多的有意义的规则. 4.2数据挖掘应用实务 通过数据挖掘,可进行电子商务海量商品信 息采集,辅助商家理解用户行为,从而改进站点结 存控制、质量控制、故障分析等等.下面主要介绍 以下几种应用: 4.2.1 客户聚类 随着“以客户为中心”的经营 理念不断深入人心,分析客户、了解客户并引导客 户的需求已成为企业经营的重要课题.通过对电 子商务系统收集的交易数据进行聚类分析,可以 按各种客户指标(如自然属性、收入贡献、交易额、 价值度等)对客户聚类,从而确定不同类型客户的 行为模式.以便采取相应的营销措施,促使企业利 润的最大化. 4.2.2提供个性化服务 根据客户的注册信息 和订单纪录,系统可以向客户显示那些可能引起 客户特殊兴趣的新商品.当客户注意到一件特殊 的商品时,系统会建议一些在购买中可以增加的 其它商品.普通的产品目录手册常常简单地按类 型对商品进行分组,以简化客户挑选商品的步骤. 然而对于在线商店,商品分组可能是完全不同的, 它常常以针对客户的商品补充条目为基础,不仅 考虑客户看到的条目,而且还考虑客户购物篮中 的商品,结果就会使推荐更加个性化. 4.2.3 资源优化节约成本是企业盈利的关键. 通过分析历史的财务数据、库存数据和交易数据, 可以发现企业资源消耗的关键点和主要活动的投 入产出比例,从而为企业资源优化配置提供决策 依据,例如降低库存、提高库存周转率、提高资金 使用率等. 4.2.4优化站点设计根据客户的访问路径,找 出顾客访问最频繁的路径.根据这个路径来设计 网站的结构和网页的链接,有助于节约客户的访 问时间,节约网站的开支.通过不断改进网站结 构,使之更加趋向合理,同时这样的设计也会帮助 招揽更多的客户.如果能够了解用户的期望位置, 在适当的位置建立导航链接,就能方便用户,提高 网站的访问效率. (下转第71页) 维普资讯 http://www.cqvip.com

第2期 游素碧等:半夏生物碱提取工艺的研宛 7l Study on Extraction Technique of Alkaloids from Pinellia Ternata YOU Su—bi 。HAN Zong—xian (1.Fuling Medicine Manufacturing Factory,Taiji Group,Fuling 408000.China, 2.Department of Life Science。Fuling Normal University。Fuling 408003,China) Abstract:The extraction technique of alkaloids from Pinellie ternata(Thunb.)Breit is studied by comparative method.The results show that the extraction rate of alkaloids from Pinellia ternata (Thunb.)Breit by using chloroform is not significantly different(t=2.109;df=10,P—O.061)from by using the ultrasonic cleaner.There is advantage with the weakness for each these two extraction techniques.Using chloroform to extract alkaloids,the extraction rate(O.0456土0.0003 ; 一6))is little higher and relatively constant(SD一0.0002944),but the extraction time is long.Using the ul— trasonic cleaner to extract alkaloids,the extraction time iS relatively shot,but the extraction rate (O.0451士0.0005 ; 一6)iS relatively lower and unsteady(SD—O.0005007). Key words:Pinellia ternata(Thunb.)breit;alkaloids;extraction technique (上接第33页) 4.2.5发现潜在客户群体 对于一个电子平台 阔的应用前景. 来讲,了解关注在册客户群体非常重要,从众多的 访问者中发现潜在的客户群体更为关键.如果发 参考文献: 现某些用户为潜在的客户群体,就可以对这类用 [1]郭崇慧.数据挖掘教程(tit界著名计算机教材精选) 户采用一定的策略,使他们尽快成为在册的客户 [M].北京:清华大学出版社,2005. 群体,促进电子商务商业效益的增加. [2][美]林那夫.Web数据挖掘 将客户数据转化为客户 价值[M].北京:电子工业出版社,2004. 5结束语 [3]闪四清译.数据挖掘——概念、模型、方法和算法 电子商务是现代信息技术发展的必然结果, [M].北京 清华大学出版社,2003. [43 Olivia Parr Rud.数据挖掘实践[M].北京:机械工业 也是未来商业运作模式的必然选择.利用数据仓 出版社,2003. 库和数据挖掘等现代信息技术,充分发挥企业的 Is]杨鼎新,恒杰,缑婷.电子商务教程[M].兰州:兰州大 独特优势,促进管理创新和技术创新,使企业在电 学出版社,2006. 子商务的潮流中立于不败之地.随着数据挖掘算 法的不断发展和成熟,数据挖掘一定会有更加广 Study on Data Mining and Its Application in E—business LI Heng-jie。,YANG Ding—xin。 (1_School of Science and Engineering,Gansu Lianhe University,Lanzhou 730000,China; 2.School of Economics and Management。Gansu Lianhe University,Lanzhou 730000,China) Abstract:In information society,the competitive adventage is determined by not only quantity of infor— mation it occupied,but also the ability to process and utilize them.How to turn information advantage into competitive advantage is a weapon to occupy market.This paper discusses the relating problems about data mining and its application in E—business. Key words:data mining;E business;application 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务