您好,欢迎来到筏尚旅游网。
搜索
您的当前位置:首页基于网络学习的智能答疑系统的设计与实现

基于网络学习的智能答疑系统的设计与实现

来源:筏尚旅游网
维普资讯 http://www.cqvip.com

第36卷第2期 2007年3月 内蒙古师范大学学报(自然科学汉文版) Journal of Inner Mongolia Normal University(Natural Science Edition) Vo1.36 No.2 MaT.2007 基于网络学习的智能答疑系统的设计与实现 张宏丽 ,田振清 ,夏 清 (1.内蒙古师范大学传媒学院,内蒙古呼和浩特010022; 2.内蒙古广播电视大学计算机系,内蒙古呼和浩特010010) 摘要:根据语义网络原理,构建了一个基于限定领域的智能答疑系统,给出智能答疑系统的实现方案,对 语义网络、自动分词等主要技术问题进行了分析和讨论. 关键词:远程教育;智能答疑;知识库;语义网络;自动分词 中图分类号:TP 319 文献标识码:A 文章编号:1001-8735(2o07)O2一O168一O4 在通过网络进行远程教学的过程中,师生之间在空间上是分离的,因此网上答疑系统是现代远程教育系 统中不可缺少的部分.Web平台上的教学与传统的教学方式不同,网络化教学可以充分采用交互式工具来 了解学生的学习情况,使教学系统能根据学生的学习情况和其他因素来组织教学内容和实施教学方法,从而 很好地发挥出探索式学习和协作式学习的巨大潜力.目前,一些网上答疑系统只能根据远程教育用户的输 入,对题库中的问题进行简单的关键词匹配,不能为用户提供一个良好的答疑界面.为此,根据语义网络原 理,我们构建了基于限定领域的智能答疑系统,为远程教育用户提供一个良好的答疑界面. 1 智能答疑系统模型 智能答疑系统模型的结构如图1所示. 用户 提问部件 Agent … 返 户 找到有用问题 数据库 图1智能答疑系统模型 2 智能答疑系统实现的关键技术问题 2.1知识库建设 知识库的建设在很大程度上决定了系统的有效性.本系统利用技术发展比较成熟的关系数据库来组织 知识库,管理各种信息资源.知识库的基本结构如图2所示. 2.2语义网络建设 系统的智能性主要涉及人工智能领域的知识表示和相应的推理机制.智能答疑系统中使用的超媒体与 AI智能领域的语义网络知识在表示形式上有类似之处,二者均是由节点和有向弧线组成的有向图 收稿日期t 2006—04—16 作者简介。 ̄(1974--),女,内蒙古赤峰市人,内蒙古师范大学讲师,主要从事计算机应用研究・ 维普资讯 http://www.cqvip.com

第2期 张宏丽等:基于网络学习的智能答疑系统的设计与实现 ・169・ 图2知识库的基本结构 (见图3),因此,可以将超媒体视作一种特殊的语义网络结构.基于这一事实,从语义网络的观点构造超媒体 就具有了实施的可能性.同时,语义网络自身所具有的结构性、联想性和自然性的优点也决定了从语义网络 的观点构造超媒体这一手段的必要性.根据认知心理学理论,知识信息主要以命题网络的形式储存在人脑 中,其中命题是意义或观念的单元.安德森等[1 认为,不论是言语还是非言语信息,大都是以抽象命题形式进 行编码,储存在人的长时记忆中.存于人脑中的命题及其相互之间的联系形成一种网络系统,这个网络系统 由结点(node)和链接(1inks)组成,结点是以概念为基础的陈述性知识,而链接则代表概念(陈述性知识)之 间的关系及概念特征之间的关系.通过链接,把上属与下属概念联系在一起,也把结点所包含的特征联系在 一起.所以,从语义网络观点出发对超媒体进行扩充,例如对超媒体概念进行结构化、嵌入过程性知识等,是 非常有效而又必然的,这样的组织结构符合认知心理学的观点,有利于用户在学习中理解和思考. 节 图3语义网络结构 在系统的具体实施中我们发现,教学中使用的教材,其内容的组织结构类似人工智能中的语义网络L2]. 通过对课本中纷繁复杂的内容进行章节的结构化划分,能把各个概念、主题之间的语义依赖性清晰地表示出 来.鉴于章节结构可以通过超媒体来表示及答案库中的问题之间没有很好的语义关联这两个事实,我们选择 借助相关课程课件的方法来构建语义网络.这些课件的组织与现实中教材的结构是基本对应的,要求每节内 容单独成页并按章节结构归人“知识点列表”.在“知识点列表”中,每个知识点都有唯一的编码,编码采用包 含上层知识点的树形层次结构,知识点的嵌套层数一般不超过5层.采用这种编码方式时,通过当前知识点 的编码就可以判断其所在课程和章节结构中的具体位置(通过逐渐分离当前知识的编号实现).例如,对于一 个编码为000100020004的知识点来说,我们可以很容易判定出当前知识点是处于课程1的章节24.同样的 方法也可用来构造“常用问题列表”.通过每一个问题的编码,该问题所属的知识点也就被确定下来.将进行 文本挖掘后得到的本节关键词向量和问题关键词向量分别归人“知识点关键词列表”和“问题关键词列表” 中,语义网络结构就基本建立起来了. 建立语义网络后,通过“知识点列表”构建的导航器可以指示出当前节点在整个知识网络中所处的位 置.系统通过给出该节点的一系列前趋节点与后继节点,引导读者由知识网络中的当前节点转向目标节点, 循序找到相关的问题. 维普资讯 http://www.cqvip.com

内蒙古师范大学学报(自然科学汉文版) 第36卷 2.3 自动分词的技术问题 系统结合使用基于字符串匹配的分词方法和基于统计的分词方法,先使用一部基本的分词词典(常用词 词典)进行串匹配分词,然后使用统计方法来识别一些新的词. (1)基于字符串匹配的分词方法.这种方法又叫机械分词方法,它是按照一定的策略将待分析的汉字串 与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词). 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况, 可以分为最大(最长)匹配和最小(最短)匹配.常用的机械分词方法有正向最大匹配和逆向最大匹配,还可以 将各种方法相互组合,如可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法.一般来 说,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少.本文采用逆向最大匹配法. (2)基于统计的分词方法.对语料中相邻共现的各个字的组合频度进行统计,计算它们的互现信息.互 现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便可认为此字组可能构成了一 个词.该方法不需要词典,不进行分词操作,依靠统计信息提取高频字串,其优点是能结合上下文识别生词、 自动消除歧义D].但这种方法也有一定的局限性,经常会抽出一些共现频度高、但并不是词的常用字组,例如 “这一”、“句话”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大. 2.3.1 分词系统中的主要数据结构 (1)切分标记表.包括绝对切分标记表和条件切分标记表两部分,分 别用数组存储.绝对切分标记是指语料中的段落分隔、标点符号及其他非汉字特殊符号等.条件切分标记是 指一些构词能力较弱的字,如“啊、吧、的、吗、么、也、又、在、有”等,都可以看作条件切分标记,它们在文章中 构成反映主题的关键词相当少,因而需要将这些字以及由其构成的非关键词予以剔除.为此,必须为这些切 分标记构成的有限的短语建立对应的特征短语表. (2)词典.包括系统词典和临时词典两部分,采用索引表的方式组织,均作为自动分词时的切分依据.系 统词典是为特定领域知识而建立的(本系统由智能答疑的相关科目建立),具有较好的专用性及歧义消解性. 临时词典用于为系统纳入新词,即在为该答疑系统添加新课件时,用串频统计方法识别出未登录的新词,并 存入该词典,然后定期对其中单词的使用进行统计,把在使用中逐步固定下来的词组存入系统词典,对系统 词典进行扩充和更新. 临时词典的建立使系统具有自适应性,即能够在处理数据源的过程中动态积累关于数据源的知识,并且 反过来利用这些知识处理后继数据源. (3)快表.为用户问题中的常用关键词建立快表,可以提高检索速度.因而需对近期得到的关键词做记 录,并根据其出现的频率和时间设定权值,即结合LFU、LRU算法对其做动态更新. 2.3.2分词流程 (1)预处理(标志切分).对输入文本进行第l遍扫描,利用切分标记表中的特殊标记将 输入的文本分割成较短的汉字串.其中,以绝对切分标记作为绝对断点,遇到条件切分标记则需调用相应的 特征短语表,看其是否组成短语(非关键词),并确定这些短语的左右边界,将其完全切分出去.例如,遇到 “啊、很、吗、也、又、我们、它们、其他、否则、什么”等与主题无关的字或词应该切分出去. (2)词典匹配分词.首先将预处理后得到的较短的汉字串与快表中的词语进行匹配,若命中,则识别出 一个词;若未命中,则需按索引查找算法,到临时词典和系统词典中进行检索.若对某一汉字串的分词方式 不唯一,则取使该汉字串的各个词语的组合权值最大的分词方式.例如,对汉字串“这样的人才能出众”可以 有如下几种分词方式:①这样的人才能出众;②这样的人才能出众;③这样的人才能出 众.具体采取哪种分词方式,需计算每种分词方式的组合权值.假如第k种分词方式的分词结果形式为A1Az …A (A ( —l,…,z)是一个词串),则其组合权值P 为wl+wz…+wr(w 是At的权值). 2.3.3 匹配相关问题客户端Agent[ 将用户的查询请求分解成若干关键词后,接下来的任务就是根据有 用的关键词对知识库里的问题进行匹配,挑出符合条件的信息返回给用户.对问题关键词的抽取是基于全文 检索,依据检索内容与用户输入问题关键词的相关程度的高低,把与该问题相关的若干个问题按一定方式排 序后呈现给用户,其相关程度由匹配的关键词在全文中权值的高低确定.关键词在全文中的权值由其在文章 中出现的位置以及频率等因素共同决定 .如果一个词在文章中出现的频率高或是出现在文章的标题、段 维普资讯 http://www.cqvip.com

第2期 张宏丽等:基于网络学习的智能答疑系统的设计与实现 首、段尾等重要位置,则根据人类语言的习惯,该词与文章的相关度就高.我们具体采用的匹配算法是: (1)将“问题关键词列表”中属于当前知识点的所有记录的关键词与用户问题的关键词进行比较,如果 两者存在串包含关系,就近似认为匹配成功. (2)依据与本记录匹配的关键词总数和匹配关键词的权值,计算出问题的相关度.如果有多个关键词相 匹配,则将多个关键词的权值的和作为本记录与问题匹配的相关程度. (3)把符合条件的记录进行排序,并到“常用问题库”中找到相应的记录后返回. 如果“常用问题库”中某一问题的题目与用户输入问题的题目的相似度达到一定程度时,贝 将其作为完 全匹配的问题呈现给用户. 3 结语 网上答疑系统是现代远程教育系统的重要组成部分,本文根据语义网络原理,建立了知识库与语义网络 的对应关系,构建了基于限定领域的智能答疑系统模型.系统采用ASP和Visual C++编程环境,为远程教 育用户提供了一个良好的答疑界面.智能答疑系统模型有利于对Agent远程教育模式进行更深入的理论研 究,具有广阔的应用前景. 参考文献: E13 柳泉波。黄荣怀.何克抗.智能答疑系统的设计与实现[J3.中国远程教育,2000(8):43—48. [23柳泉波,黄荣怀,何克抗.基于Web自动答疑[DB/OL].(2005—08—15)[2006—04—163.http,//etc.elec.bnu.edu. cn/applicati0n%2Oand%2Odevelopment/dayi.htm,2000. [3]王伟.~种基于EM非监督训练的自组织分词歧决方案EJ3.中文信息学报,2001(2):38—44. [4] 曲霖洁.刘培玉.基于Agent的网上教学系统的研究[D].济南:山东师范大学计算机科学系,2001. [5]韩客松.无词典高频字串快速提取和统计算法研究[J].中文信息学报.2001(2):23—3O. Design and Implementation of e—Learning—Based Intelligent Answer—question System ZHANG Hong-li ,TIAN Zhen-qing ,XIA Qing。 (1.College ofMedia,InnerMongolia Normal University,Huhhot 010022,China; 2.Department of Computer Science。Inner Mongolia Radio and TV University,Huhhot 010010,China) Abstract:According to semantic network theory,a intelligent answer—question system based a limited area waS construct.It gives a scheme of realized intelligent answer—question system,it analyses and discus— ses the primary techniques problems such as semantic network and automatic segment etc. Key words:remote education;intelligent answer-question;repository;semantic network;automatic segment 【责任编辑陈汉忠】 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务