科技信息 0 IT技术论坛0 SCIENCE&TECHNOLOGY INFORMATION 2008年第34期 图像数据挖掘技术研究与探讨 彭兴旺孙娟 (九江学院信息科学与技术学院江西九江332005) 【摘要】图像挖掘是目前国际上数据库、图形图像技术和信息决策领域最前沿的研究方向之一,是数据挖掘的一个新兴的富有挑战性的 领域,所以专门研究图像数据挖掘技术,具有较高的学术价值和广泛的应用前景。 【关键词】数据库;图像数据;挖掘技术 随着网络技术的发展和计算机性能的提高.数码相机、监视相机、 卫星遥感系统的应用越来越广泛,涌现出大量包含音频、视频、图像、 文本格式的多媒体数据。从数据的转化、同步、连续数据流的管理到多 媒体数据的检索及目前的多媒体数据挖掘一直是人们关注的热点。但 人们更关注的是图像、图形数据。图像挖掘和基于内容的图像检索相 互交迭,图像挖掘远不只是检索相关图像的问题,而是要在大量图像 集中发现有意义的图像模式。 1.图像预处理 由于现实世界的数据不可避免地存在着不完整性、误差、粗差、不 一致性等噪音,因此在数据处理之前应对数据进行清洗,以提高数据 的质量。图像数据不仅数据量大.信息丰富,而且原始图像无法直接应 用于数据挖掘.在使用挖掘工具之前,除了必要的数据清洗外.还要根 据挖掘工具的特点和挖掘目的对图像数据进行必要的预处理。预处理 主要包括可视特征提取、对象识别、数据规约、遥感数据离散化、图像 融合等。 (1)可视特征采用图像处理技术通过计算获得,主要包括颜色、纹 理、形状等。颜色是应用最广泛的可视特征。颜色直方图用于存放图像 对象中每种颜色的像素的比例,具有平移和旋转不变性,是最常用的 颜色描述。此外还有颜色矩和颜色集等。纹理刻画了颜色和密度分布 的均匀性,包含了表面结构和其与周围环境关系的重要信息.表示方 法主要有:共现矩阵法,小波变换法等。形状表示法主要有基于边界表 示的傅立叶描述法、基于区域表示的不变矩方法。 (2)对象识别即在图像中识别出对象及其空间关系,涉及到的技 术有图像分割、对象模型的表示及对象识别。 (3)数据规约主要包括维规约和数据压缩,是为了提高挖掘质量 和效率而进行的数据处理。 (4)为了更好地提取图像特征,有必要进行图像融合,获取一种新 型图像,其形态结构显示得更直观,可获取更详细、准确的特征。 (5)对于遥感图像,除以上的预处理外,若以波段作为事项.还要 进行量化数据的离散化,这是遥感数据特有的。 2.相似性搜索 图像挖掘需要从图像中提取用于模式发现的图像特征.因此需要 进行图像的相似性搜索。最早的图像检索是基于文本的图像检索.此 检索技术需要人工标引.因此耗时耗力.并且只能标引数量不大的图 像集,随着因特网上图像数量的急速膨胀,基于文本的图像检索已经 不能适应人们的检索需求,于是基于内容的图像检索应运而生.它通 过图像的低级特征如颜色、纹理、形状等的匹配实现相似性检索.著名 的图像检索系统QBIC(Query By hnage Content),就是采用此种技术。 但由于图像具有特征.并且不同的用户对同一幅图像可能有不同 甚至相反的观点,因此,基于内容的图像检索也不能很好地保证较高 的查准率。 3.目标识别 目标识别一直是图像处理领域中活跃的研究焦点。一个目标识别 系统用已知的目标模型从图像中发现真实的世界中的目标 这是图像 挖掘领域中的一个主要任务。自动的机器学习和有意义的信息抽取能 被实现仅仅在某些目标已经被机器识别的情况下。已知目标的模型通 常由人工输入作为先验知识。最近,JeremyS.DeBOnet,以在一组或一个 图像中定位一个特别的已知目标为目的,设计了一个系统.它将一幅 图像处理为一组“特征图像”。MichealC.Bud及其他人采用了一个通过 学习技术自动产生识别器的技术,这个领域的专家只是通过一组标签 例子隐含地获得。StephenGibson以及其它人探索在几个图像中发现通 用模式的可能性,这是图像挖掘的重要部分。StephenGibosn提出并检 验了一个基于FFr地马赛克优化算法,结果显示该算法在所有的图像 中工作良好 4.图像关联规则挖掘 关联规则挖掘是传统数据挖掘中常用的技术.主要根据图像中象 素的光谱特征,构成纹理图像的各个象素、各个纹理基元之间都具有 关联关系,这是关联规则挖掘能够用于图像的前提。要挖掘纹理图像 的关联规则,我们可以把每一个图像看作一个事务,从中找出不同图 像问出现频率高的模式。如果图像数据挖掘深人到象素级.则需要将 一个象素及其邻域看作一个事务,从中找出在图像中重复出现的模 式。在纹理图像中,这种模式实际上就是纹理基元。纹理基元有大小之 分,这就要求在多个层次上多分辨率情况下进行挖掘。 根据图像数据的矩阵表达方法,借助图像矩阵的事务数据模式化 的方法,我们界定一系列图像事务定义。 根象素:一个nX11邻域的根象素是这个邻域的中心象素,一个N X N的图像包含 一n+1)2个根象素。 项:所给定的根象素所在的邻域中每一个象素映射为一个项。通 过一个元组(x,Y,I)来定义,其中X和Y分别是邻域中相对于根象素 的偏移量。I是象素的灰度值。这样.一个具有C种灰度值的n Xn邻 域中,可能产生n2G个不同的项。 项集:一系列项的集合构成项集,实际上映射为图像中一系列相 关象素集合。 事务:同某一根象素相关的一系列项组成一个事务。确切地说,每 一个根象素对应一条事务,邻域中每个项都可能进人事务。针对每个 根象素,如果有K种偏移量情况,加之每个象素可以有C种可能的灰 度值,因此,统计相同的偏移量所构成的事务,会产生Gk条事务。 关联规则:一条关联规则表达了图像的局部结构.形式为 (x ,Y ,I)^…^(x ,Y ,1 —+(X + …Y ,I +-)八・・・^(x…Y… l )(s%,c%)。 例如,下面这条关联规则表示了在二值图像中,-一个象素宽的垂 直条带的右边通常为一个象素宽的白色条带。 (0,1,1)^(0,0,1)^(0,一1,1)— (1,0,o)^(1,l,0)^(1,一l,O)(s%,c%) 支持度和置信度表明了这种情况出现的可能性。 5.图像分类和聚类 基于内容的智能图像分类可通过将图像与不同的信息类别相关 联实现。图像分类是一种有监督学习方法,过程分3步:①建立图像表 示模型,对已进行类别标注的样本图像进行特征提取,建立每一图像 属性描述。②对每一类别的样本集进行学习,建立规则或公式。③使用 模型对未标注图像进行分类判决和标注。常用的分类方法有:判定树、 Bayes方法、神经网络方法,其它方法包括:K一最近邻分类、粗糙集分 类等。 图像聚类是依据没有先验知识图像的内容本身将给定的无标签 图像集合分为有含义的簇,常用于挖掘过程的早期阶段,其特征属性 是颜色,纹理和形状。目前已有许多可用的聚类算法:基于划分方法、 基于密度方法、基于网格方法等。图像聚类的一般过程包括:①图像表 示、特征抽取和特征选择;②建立适合于特定应用的图像相似度量;③ 图像聚类;④分组生成。图像聚类完成后.需要领域专家对每个聚簇的 图像进行检查,标注这个簇所形成的抽象概念。 结论:图像挖掘是目前国际上数据库、图形图像技术和信息决策 领域最前沿的研究方向之一,是数据挖掘的一个新兴的富有挑战性的 领域,具有较高的学术价值和广泛的应用前景。现阶段图像挖掘的理 论与技术有待继续研究和完善,所以专门研究图像数据挖掘技术具有 重要的意义。 。 【参考文献】 [1]李雄飞,任岩.图像数据挖掘模型与方法[J].吉林大学学报,2002,32(1). [2]薄华,马缚龙,焦李成.图像数据挖掘的模型和技术[J].西(下转第24页) 科技信息 0科教前沿0 SCIENCE&TECHNOLOGY INFORMATION 2008年第34期 (约81.9倍,芯柱底面积最大O.35*0.8、芯牲顶面积0.35*0.2),钢筋的 斜边可近似为直段钢筋计算。差值在参数中考虑。 钢筋计算1 层高节点高截面尺寸(b*h)全部纵筋插筋箍筋 1边柱1.7 300 C40 475*610 4C32 1C32 3C25 A10@1O¨0 5 3 2边柱8.19 300 C40 475*610 4C32 1C32 3C25 A10@100 5*3 3边柱7.54 300 C40 475*610 4C32 1C32 2C25 A10@100 4*3 4边柱3.19 300 C40 475*610 4C28 2C28 2C25 A1O@100 4*4 钢筋抽量是工程造价管理的重要内容,围绕这一内容,如何利用 计算机进行搜集、整理、计算、测算、钢筋基础数据,应是最基础的应 用:工程造价钢筋专业应用软件可以为工程造价管理人员完成钢筋抽 量中大量工作。 利用计算机从根本上解决工程量的计算问题,将会对工程造价管 理中产生巨大的影响。 在本案例中.倾斜尖劈柱四楞台体倾斜尖劈 柱钢筋箍筋复杂,每根倾斜尖劈柱箍筋300多样,并且所有柱子钢筋 箍筋不重样,工作量巨大,手工计算每天最多能抽4根柱子钢筋,完成 全部倾斜尖劈柱钢筋抽量,需用4个月时间,并且准确校对、复核非常 5边柱5.66 3o0 C40 475*610 4C25 2C25 2C25 Al0@100 4*4 6 (AC9—2组芯柱钢筋计算设置) 钢筋计算2 层高节点高截面尺寸(b*h)全部纵筋插筋箍筋 基础边柱O.8 30o C40 858*303 6B16 A10@20o 2*2 2 l边柱2.82 3oo C40 858*303 6Bl6 A1O@200 2*2 困难。利用工程钢筋软件,应用变通原理,采用设定参数,等体积代换, 由复杂形状换算成简单形状.再应用钢筋软件算量。探索出了“倾斜尖 劈柱”算量过程中计算、复核中的一个难点解决办法,得出结果与手工 计算对比一致,笔者用上述方法计算复核某学校体育馆424根不同样 式“倾斜尖劈柱”钢筋用量,共计1223吨。所用时间是手工算量的1/6. 提高了工作效率。 这就是笔者在某学校体育馆工程钢筋算量复核工程中遇到的实 际问题及自己探索解决的实例,愿与大家共同分享。笔者认为:钢筋软 件是工具,我们只有变通应用,才能解决钢筋工程算量过程中遇到的 些难题,达到快速准确算量、复核目的。科学进步本身就是一个无止 境的追求,要不断实践与探索,才会逐步走向理想前景。 一3 2边柱l1.76 3o0 C40 858*303 4B16+6B16 A10@200 2*2 4 3边柱7.29 3oo C4O 858*303 4B16+2B16 A10@200 2*2 5 注:节点高指环梁高度 (AC9—2组尖劈钢筋计算设置) 应用此方法换算成能应用钢筋软件的形状,就可快速计算出倾斜 尖劈柱纵筋、箍筋的钢筋用量。 【参考文献】 [1]北京广联达软件技术有限公司.钢筋平法实例算量和软件应用中国建材工 业出版社.2006 3.倾斜尖劈柱钢筋抽量方法探讨 建筑业的飞速发展使得建筑预算工作量越来越大。复杂的建筑物 造型,特殊的建筑构建、繁琐的预算细节,’紧迫的预算周期,常常会使 得预算人员力不从心。本实例是在一个复杂的工程中,用变通的方法. 把一个复杂的建筑构件利用特定条件转化成两个简单建筑构件进行 钢筋计算,取得了满意效果。… [2]李鸿飞,《平法钢筋软件在工程中的应用》,建筑工人,2007/12. [3]毛丽霞,《平法钢筋软件剪力墙柱节点标注与计算的实现》,科技情报开发与 经济,2007/34. [责任编辑:张艳芳] (上接第65页】在学习中的主动性和参与性,使被动学习变为积极主 分析问题和根据问题在网上搜集信息、对获取的信息加以分析判别的 动的学习,打破了传统的教学模式,教师由原来的讲授者变为学生学 能力,培养了学生对有用的信息进行归纳总结和综合分析利用等方面 习的帮助者和指导者。学生在搜索资料、参与讨论和攻克操作难点中 的能力,提高了学生的信息素养:同时通过和组员问在研究过程中的 掌握了技能技巧,学会了学习方法,提高了学习效率。 讨论、协作搜索资料等活动中,培养了学生的合作共事能力。 同时本院计算机文化基础资源库中也集中了学生的优秀作品展 示,激励学生充分挖掘自身的潜力,努力使自身的水平逐步提高。 2.课外资源库的建设不仅仅要有利于“教”,更要有利于“学” .【参考文献】 [1]庄秀丽知识管理与教育教学资源库建设.教育技术通讯. 2]汪琼.关于教育资源库建设的几点认识.http://www etc.edu.cn. 而且不仅仅是利用库中已有的课件和录像按照教师的安排来学.还应 f朱凌云、余胜泉教育资源库建设的观念与方法. 让学生根据自己的需要选择库中的素材进行创造性的学习。对于高职 [3]4]祝智庭.网络教育技术标准研究.电化教育研究,2001. 学校的学生来讲,仅仅靠课堂所学是远远不够的,因此资源库中提供 [的贯穿整个计算机文化基础课程的研究项目能使学生在网络环境下 进行自主学习,这是一种全新的学习方式。学生们分成若干小组,带着 [5]李烁,冯秀琪.关于教育资源库建设的几点思考.中国电化教育,2003,(1) [6]白梅.关于网络教育中资源建设的思考.电化教育研究,2001,(12). 研究项目上网,有目的的搜索有关信息,不同学习阶段的学生.利用资 源库和网络完成一定量的项目训练,可以有效地培养学生提出问题、 [责任编辑:翟成梁] {上接第66页)区域的覆盖层次,增加信道数和吸收话务的能力。由于 四、结束语 无线网络扩容的进度受到选点谈点难度、可供调配的基站数量、建设 PHS网络优化是一个长期和复杂的过程,由于运营市场策略的原 人力有限等方面的约束,不可能有非常高的进展速度;因此只能够先 因,PHS用户数和话务量还有可能继续迅猛增加,因此其中的“话务网 在最急需的区域内进行基站扩容,再按排列次序进行解决;这些区域 优”工作变得迫切和重要。根据本文介绍的方法可进行话务热点区域 的选取可以按照以上介绍的方法进行。 针对PA区,按照以上方法可以将存在超标问题的PA区进行轻 和超忙时段分析,指导此网优阶段的工作。霞 重缓急排列,决定需要进行扩容的先后顺序和这些PA区中的热点区 【参考文献】 域。 [1]《小灵通无线网络优化》,孙宇彤等,人民邮电出版社,2003 7 针对基站,解决无线资源不足的手段基本上包括对已有基站增加 组控和新增基站,目前首选是增加组控;为避免增加基站后带来的干 扰问题,还需调整相关基站的摆放,例如降低天线的高度,更换为下倾 角度更大的天线等。 [责任编辑:汤静] (上接第64页)安邮电学院学报,2004,9(3). [3]袁顺波.图像挖掘的模型与技术研究[J].情报科学,2006,24(11). [4]李曦焱.图像数据挖掘技术研究[J].甘肃科技,2006,22(5). [5]孙庆先,方涛,韩达志.图像数据挖掘中的关联规则[J].计算机工程.2006,32 [6]王佐成,薛丽霞,凌聪.遥感图像纹理关联规则挖掘[J].重庆邮电大学学报 2007,19(4). [责任编辑:韩铭] (5).