您好,欢迎来到筏尚旅游网。
搜索
您的当前位置:首页FP-Growth算法在电子商务中的应用

FP-Growth算法在电子商务中的应用

来源:筏尚旅游网
髻塞恩濂恭 FP-Growth算法在电子商务中的应用 1.肇庆学院计算机学院田庆’朱俊岭’刘永梅 广东肇庆526061 2.首都师范大学信息工程学院北京100048 I摘耍】针对电子商务推荐销售的需求ff.FP—Growth算法不产生候选 集的特性,提出利用FP—GP0wth算法,运用Vc++程序开发工具,对某一电商 k。 定义二:每个事务T是项集I的一个子集,flPT ̄I。每个事务有一个 卖家的数据进行频繁项集挖掘,针对挖掘得到的频繁K项集,指导卖家如何 唯一的标识符,记作TID。事务全体构成了事务数据库D。 组合商品销售。试验结果表明利用FP—Growth算法在电商组合销售中是有效 定义三:设项集x,有x T。关联规则是形如x等Y的蕴涵式,其中 的。 I关镶词l候选集;频繁项集;电子商务;FP--Growth FP—Tree xc I,Yc I,并且Xc ̄Y=z。表示项集X在某一交易中出现,则导致Y以 某一概率也会出现。用户关心的关联规则,可以用两个标准来衡量:支 持度(support)和可信度(confidence)。 FP-Growth Algorithm for Application in e-commerce 定义四:支持度是项集同时包含x和Y的项集个数与项集个数之 Tian Qing ,Zhu Junling ,Liu Yongmei 比。它是概率P(Xv Y)。可信度是指包含X和Y的项集个数与包含X的项 1.School of Computer Science,Zhao Qing University 集个数之比,它是条件概率P(YIX)。即 Guang Dong 526061。China support(X ̄Y)=P(xu Y) (1) 2.School of Computer Science,Zhao Qing University, confidence(X. ̄Y)=P(YIX) (2) Guang Dong 526061,China 定义五:设关联规则的最小支持度和最小可信度分别为sup—min 3.College of Information Engineering,Capital Normal  ̄0conf—min,支持度小于sup—minf ̄置信度小于conf—min的规则记作 University。Beijing 100048,China 强关联规则。关联规则挖掘的目的就是找出这种强关联规则。 Abstract According to the needs of e-commerce sales 定义六:支持度不小于sup—min的项集称为频繁集,长度为k的频 and FP—Growth algorithm does not produce a candidate set, 繁集称为k_频繁集。 this paper present using FP-Growth algorithm and VC++ 通过以上定义,我们知道关联规则挖掘的两个主要问题是: application development tools to to mine the frequent item (1)找出项集数据库中所有大干或者等于sup_min的频繁项集。 sets.In VieW of the frequent K—item set.guide online sellers (2)根据conf_min筛选出强关联规则。 recommended combination of sales to the buyer.The results 在这两个问题中,找出频繁集是比较困难,所以目前所有的关联规 showed that using of FP-Growth algorithm in e-commerce 则算法主要是针对第一个问题进行研究,而有了频繁集再生成强关联 sales is valid. 规则就相对容易了a Key words Candidate SetslFrequent Item Sets; 2.FP增长算法应用 e-commerceIFP—GrowthlFP—-Tre,e FP-Growth算法是一种不产生候选集的挖掘频繁项集算法。它 通过构造一个数据结构(FP-tree),高度压缩原来的事务数据库。FP- 引言 Growth的算法共扫描两次数据库0】:第1次扫描数据库,得到频繁卜项 在过去的数十年中,经济发展迅猛,信息化水平不断提高,网络购 集,第2次扫描数据库,利用频繁卜项集过滤数据库中的非频繁项,同 物成为人们购物的新趋势,各大电子商务平台方便快捷的收集了海量数 时生成FP_1、ree。最后通过这棵树生成关联规则。 据,利用好这些数据就可以为网络销售提供丰富的、有用的商业信息。 2.1建立原始样本数据库 频繁项集挖掘就是利用这些数据的一个典型算法,很早之前就开始应 设事务数据库中有5个事务,见下表l所示。 用到传统零售行业的购物篮分析 0 ,把这种数据挖掘算法应用在电子 表1样本数据库 商务中就是购物车分析 】。其核心思想是通过频繁项集的分析处理,发 编号 购买项 现买家“购物车”中所有商品之间的关联,获悉顾客的购买习惯。这种 100 {f,a,c,d,g,i,m,P} 关联的发现可以帮助电商卖家了解哪些商品会被顾客同时购买,帮助他 200 {a,b,C,f,1,m,o} 们设计更好的组合销售营销策略 例如,如果顾客在当当网购买点读笔 300 {b,f,h,j,0} 的同时,他们有多大可能也同时购买点读材料(以及何种点读材料),这 400 {b,C,k,S,P} 种信息可以帮助电商合理组合商品优惠,吸引消费者购买更多产品,从 500 {a,f,C,e,l,P,m,n} 而增加销售量。购物车分析的目标是在顾客的购买交易中分析出同时购 2.2建立频繁项集头表 买一类产品或一组产品的可能性(相互关联),从购物车分析中获得的知 假定最小事务支持计数为3(Hpmin—sup=3/5=60%)。扫描数据库 识是很有价值的。关联规则挖掘在数据挖掘是一个活跃的研究内容。其 一次,得到频繁卜项集,把项集按支持度递减排序,确定频繁项集头表 中比较常用的算法有早期的Apriorit51的算法,FP-Growth算法,以及 Head。它由具有最小支持度的候选卜项集组成,见表2所示。 这两种算法的各种改进版本。本文旨在为中小电商卖家(如淘宝、天猫 上的店铺)提供一些有效的数据分析,因此在算法上选择比较经典FP- 表2频薰 :项集头表 表头 Growth算法,这种算法主要通过FP—_Tree来构造频繁集。 项 频率 FP__1、ree是一个数据库里跟产生频繁项集有关的信的压缩表示。 C 4 在具体的实现中,我们通过了一系列的信息的从低到高的数据结构来实 f 4 现它,并进而实现整个算法。 a 3 1.关联规剿挖掘基本概念 b 3 FP—Growth算法的优点是节省时间和空间,对大规模数据采用 m 3 分治的办法以避免规模巨大难以接受。FP-Growth算法主要通过FP- p 3 Tree来构造频繁集。这里仅介绍与FP增长算法有关的基础概念。 2.3建立FP-Tree 定义一:设I={I1,1 2….,I n}是n个不同项的集合,称Ik 首先,创建树的根结点,用”NULL”标记。然后扫描数据库D,每 为一个项目,项目的集合I称为项集,其中元素的个数称为项集的长度 个事务中的项依据递减支持度计数排序,并对每个事务创建一个分枝。 148 L … 缎黎 如第一个事务”TIO0:f’a,a,d,g,i,m,P”按Head的次序包含五 我们随机的从淘宝某卖家的实验样本中抽取了_一部分数据(如表6 个项{c,f,a,m,p},导致构造树的第一个分枝<(c:1),(f:1),(a:1), 所示)模拟FP增长算法的过程。表格中的数据表示不同的顾客购买不 (m:1),(p:1)>。该分枝有五个结点,c是根结点的子链接,然后依次是f 同的商品种类,表格开头一列是顾客的编号,每一行表示的是顾客购物 链接c,a链接f,m链接a,p链接m。第--4"事务T200按Head的次序包 车中的商品名称编号,对这个原始购物车数据可以挖掘出商品间的关联 含项{c,f,a,b,m/,它导致一个分枝,然而,该分枝应当与T!O0已存 关系。 在的路径共享前缀<(c:1),(f:1),(at1)>。这样,我们将结点(c:1),(f:1), 表6原始购物车数据 (a:1)的计数增jJl ̄1,并创建一个新分支(b:1)和(m:1),其中m链接到b。该 顾客编号 商品1 商品2 商品3 商品22 分支作为(a:2)的子链接。以此类推下去,得到的新数据库以及FP-Tree 1 l0 l1 2l 127 如表3及图1所示。 TID 2 lO 20 2l 126 100 200 300 400 500 表3新数据库 购买项 f,a,c,d。g,i,m,P} {a,b,c,f,1,m,o} {b,f,h,j,o} {b,c,k,s,P} a,f,c,e,l,P,m,n} 3 lO lO 19 14 2l 22 126 126 有序的购买项 {c,f,a,m,P} {c,f,a,b,m} {f,b} {c,b,P} {c,f,a,m,P} 8124 t812tJ<1.■蚺蚋 ) l f7924】{i 日帅鲫 ) 4 t79t41 :i.呻0呻B) 4 C748B】‘i e鲫嘲0) 6[fiB121{1.卿鳓姻0) f5612】(1.蝴帅0舳) 4 tS1761《,. 0∞) 8 l 936】<1.嘲2【4748】《1.嘲蜘嘲) ●啪} l 8 【 92哇)‘秘.,75382) 4[46盘0:l‘1 蜘 猢j鼬 6 £ 6t】C1.日蚰∞矗) S【 08 l{ .qq日 I●I, 26 E哇2毋8)(1.B日■B嘲) 17【哇尊4扛1‘l。日目聃柏) 唾87【79i 】<日.9 41513 喀9l f7906j(0.997728 ̄ 4 8 £74 8】《日.921713) 住l E39G 1(1.日日期 ∞) 27[39l‘】(i,鲫 '。吲 S t3 ‘l‘1 聃讳半∞B> 4 34 f’2961<啊.9219t1) 嘻,l I 288】(0.9l9738} 7 36[6812】‘ .8385033' 1 36 f662B1《瞎 935噜37) 4 36[66D2 <0.83噜218} E3656)‘1.啪B晌) 4 36[6464】<B・863248 ̄ 4 68[415K1{辑 8t ̄937) ☆4 87 91 ‘n 34 ’【3528'(1.日日 H 0} 3 E3516 <t.9日驯a明> i【3376l(1. ∞∞ 4 ,秘l(36641<B-7B #B3) 噜哇4 b‘34口0 ‘87 9t b 瞄_坌r睁 4 126 1364 ̄J(目-783246} 日s【32^ J t1.卿目qB岫) 8 3 3 3 3 E31S2 J<1.n 25 E3 L∞ (1. 鼬 [35281(辑.?SO53B} 睁t 36 B’ 7 6 6 6 6 日i棘i[34W21‘曲.7B340{) 呻) 26 29[34 ̄S】<H.8n,88‘) 3 8} ,0 8 哇 l,缸哇36,t r{36 87 B7 f2776 1<1.0蜘 增日' l 7 7 l 譬 国l 2l[3184 ‘日.8B2419’ 26 1B1【31S2】<n.7哇98"f,V) i7 127 f284臂1<辑.7日4951) f 静4 36 87 褂4 36 34 4 36 91, 栩C2556 J‘1.哪鲴 瑚嗽) B f25l2】(1.8∞∞日) ;l哇哇9 3 3£7 6‘6 6 2 6 2 2 2 8 0 7 8 2 2 2 2 Cn.#9'F ̄95) (B.8i265喀, {B. 1519) 《甜. ’2B33'。 <B.7 2日33》 唾36 07 9i 3'4£6272】‘国.772833) 圈2频繁项每挖掘结果 圈1 FP-Tree . 图2中的结果是由FP增长算法计算所得,图中的数据表示频繁卜 2.4) ̄FP-Tree到条件模式库 项集、频繁2一项集、频繁3一项集、频繁4一项集以及频繁5一项集的挖掘 按每个频繁项的连接遍历FP-Tree,列出能够到达此项的所有前 结果。根据挖掘结果,尝试将94、36、87、34号商品组合销售,其销售效 缀路径,得到条件模式库,如表4所示。 果证明FP—Growth算法在电商的组合销售中是有效的。 2程序模块设计和代码实现 表4条件模式库 .Head item f a condition pattern base c:4 cfz3 3.2.1程序模块设计 原始数据 ! (((《(《<(b m cfa:1,cf:1,c:1 cfa:2,cfab:1 , 《( 处理数据 p cfam:2,cb.1 焉日● 砖鞠冉仔尊B融曰 ● ■ ■ ● ● ■ ● ■ ■ 07,日l 9,B 9 e 89 4 3 Z S 2l 3日B |,7 7 ,, I 诤,)2.5从条件模式库得到频繁项集 从条件模式库的P项开始,遍历其条件模式库中的每一项,列出公 共部分,包括单项及多项之间的组合,并进行相应的计数,得到条件FP— )l 0 6 8 3)):一一一・一一一-}一一一一一一一 e1 6 6 S 7 5 S 6 2i ))),) 6 0 8 S 0 5 4 7 0, : )…一 Tree,再将条件FP-Tree与相应的头表项进行连接,最终生成频繁项 集。如表5所示。 Head c口捌I埘帅 舭m FP.Tree ! ’ 条件模式库 Co ̄ion FP.1h Frequency Item ’ 条件FP—Tree cp:3 ……一 ……一 p 俩 曲 (c:3> 辩 eft2,eJob:l q:3垂3 3.唾3脚:3扫:3.触 b clef, ‘c:l <c:3> 口 删 | c:4 C 咖 cm:3,fm:J,am:J,e ̄.'3,cam:3drgme:J,efmm.'¥ eb.'3 %3缸3小:3 输出频繁项 < > (e:4> char str[255]l char cID澜I int i,j,m,readcnt,temp, 3.FP增长算法应用实例和程序实现 3.1应用实例 headerTableLink=(FPTreeNode*)malloc(sizeof(FPTreeNode) (> 下转第151页) 镳憨援 的11030m、105 ̄C测温的1600m,总计使用量为27910m,配置调制解调 (>>_上接第149页) . 器196套。根据感温电缆l5元/m,调制解调器1500元/套的价格估算,该 }numLarge[0]); 线型探测器部分约花费712650元。B工程施工图中(不包含脱硫区域) if(headerTableLink==NULL){ 光纤感温探测系统最终使用量为光纤分布式温度监测主机5套,配光纤 printf(”out of memory\n”); 48100m。根据感温光纤lO元/m、主机2O万/套的价格估算,该线型探 exit(1)} } 测部分约花费1481000万元。考虑到无论是线型感温电缆还是光纤感温 for(i=O;i<numLarge[0];i++) 探测都需要通过输入模块将信号传输给火灾报警系统主机,作者也对 headerTableLink[i】=NULLl 两个工程最终消耗的输入模块进行了统计。A工程为196套,B工程为97 root=(FPTreeN0de)malloc(sizeof(FPNode)); 套,两个工程间使用数量差距大约在100套,估值为20000元。在工程施 if(root==NULL){ 工阶段的经济数据对比中,BY_程该项费用要多出7O万左右(数据中未 printf(”out of memory\n”)I 比对人工费)。 exit(1); } 7.优化方案 root->numPath=1; 从光纤感温探测系统本身的特点可以看出,其整体设备的先进性 root->parent=NULL l 和灵敏性是传统感温电缆无法比拟的。从火灾报警系统监控掌握的角 root->children=NULLI 度出发,光纤感温探测系统测点灵活、区域设定简洁明了,更有利于值 root->hlink=NULL; 班人员对报警状态的及早发现。但该系统应用在电厂中也存在明显的缺 freqItemP=(int+)malloc(sizeof(int)・numItem)} 陷。由于电厂布局(尤其是燃煤机组)具有整体分散,局部集中的特点, if(freqItemP==NULL){ 光纤感温探测系统在全厂应用时测温距离大大增加,导致测温光纤浪 printf(”out of memory\n”)} 费严重、昂贵的主机利用率不高。结合多个工程的设计经验,作者提出 exit(1)I } 以下优化方案。充分利用输煤系统这个局部单一,总体跨度大的特点, indexList=(int )malloc(sizeof(int)+numItem), 采用光纤测温进行报警,并根据规模选配主机。在回路数或单根光纤 if(indexList=:NULL){ 长度富裕时,可涵盖保护桥架单一的区域。针对主厂房区域等桥架密集 printf(”out of memory\n”)l 区,可按工程机组划分探测点(太过密集增加标识难度,容易串分区)也 exit(1); } 可以根据实际情况酌情选用。其余偏远的辅助厂房建筑、厂区桥架等均 4,结柬语 考虑采用感温电缆的模式。 本文利用程序把以上分析的FP—Growth算法实现,并挑选了_一些 8.结论 中小电商卖家的销售数据进行实验。试验结果表明,这些挖掘算法在电 分布式光纤测温系统,是基于拉曼散射原理和光时域反射技术, 子商务的购物车分析中有相当大的优势,为电商卖家提供了非常有说服 以光纤测温主机和测温光纤为核心部件,能准确探测光纤沿线任意测 力的销售策略数据。但是当数据量巨大是,我们选择的挖掘算法就难以 量点的温度,分别配套针对不同应用场合而开发的监控系统。经过多年 顺利进行。因此需要针对大数据量背景下的挖掘算法改进,其中思路之 的努力,光纤感温探测系统作为一项新型的测温手段,在实质性应用阶 一就是利用Hadhoop框架实现并行化且负载均衡的FP-Growth算法, 段,已经形成了一定的应用规模。目前,国内有多家设备厂已不局限于进 以解决原有FP-Growth算法在内存和计算能力上的问题,为当当、京 口销售商的身份,走上了自主研发的道路。光纤感温探测系统的主机也 东、亚马逊等大型电商平台提供组合推荐销售的理论依据。 随着国产化的到来。价格全面下调,更具竞争优势。 参考文献 [1】李爱风.基于数据挖掘技术的购物篮模式研究【J】_计算机应用与软 件,201 I,za(12):156--158. 【2】方玮玮.基于关联规则的购物篮分析【J】.四川理工学院学 报,2010,25(4):430--434. [5]王江伟,郭民.关联规则在电子商务推荐系统中的应re[J].现代电子技 术,2011,54(19):179—182. [4】廖福蓉,王成良.基于有序FP—tree的最大长度频繁项集挖掘算法[J】. 计算机工程与应用,2012,48(3o):14 150. 参考文献 [5]刘华婷,郭仁祥,姜浩.关联规则挖掘Apriori算法的研究与改进【J].计 【1】Ifr华人民共和国建设部中华人民共和国国家质量监督检验检疫总 算机应用与软件,2009,26(1):146--149. 局GB50229--2006 《火力发电厂与变电所设计防火规范》 北京中国计 【6】刘双印.电子商务智能推荐系统中基于领域本体的案例检索算法【J】. 划出版社2007 计算机应用,201O,50(O5):I504--1308. 【2】国家质量技术监督局中华人民共和国建设部GB5Ol16-2015《火 【7】湛宁,宋文军.基于关联规则的电子商务推荐系统【J】.科技通 灾自动报警系统设计规范》北京中国计划出版社2015 报,2015,29( ̄):195—197. 【5】蒙明朝,刘颖.火灾报警中的分布式光纤温度传感系统设计.Fire 【8]z盈.基于关联规则的电子商务个・li,fe.,推荐模型研究【D】.辽宁:东北 Science and Technology.200;5.5.V0l 22.NO.5 财经大学,2012 [4】刘建胜,李铮,张其善.光纤完全分布式温度传感器系统研究进展. 【g] ̄ol锡玲.关联规则挖掘算法及其在购物篮分析中的应用研究[D].江 电子科技导报.1999(3):10-I5 苏:苏州大学信息学院,2009.’ 【5NI' ̄-,李伟良.分布式光纤温度传感检测技术及其应用.广东电力. 【1O】范明,孟小峰(if-).数据挖掘一概念与技术【M】.北京:机械工业出版 2002.V01.1 5.No.4 社,2008. 【6】王玉田等.光电子学与光纤传感器技术.国防工业出版社.2005 作者简介 【7】原荣.光纤通信.北京.电子工业出版社.2002 田庆(1979一),女,硕士研究生,讲师,研究领域为计算机应用和网络 作者简介 安全;朱傻岭(1980-),男,硕士研究生,讲师,研究领域为人工智能和计 谢颖(1982--),女,浙江杭州人,工程师,从事发电厂及电力系统设计 算机应用;刘永梅(1979-),女,硕士研究生,助理研究贞,研究方向:智能 及研究工作. 信息处理与嵌入式系统设计。 151 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务