(12)发明专利申请
(10)申请公布号 CN 109243561 A(43)申请公布日 2019.01.18
(21)申请号 201810911078.7(22)申请日 2018.08.10
(71)申请人 上海交通大学
地址 200240 上海市闵行区东川路800号 申请人 上海交通大学医学院附属瑞金医院(72)发明人 曹健 朱能军 沈坤炜 陈小松
朱思吉 (74)专利代理机构 上海汉声知识产权代理有限
公司 31236
代理人 庄文莉(51)Int.Cl.
G16H 20/00(2018.01)G16H 50/70(2018.01)G16H 10/60(2018.01)
权利要求书2页 说明书5页 附图3页
CN 109243561 A()发明名称
治疗方案推荐系统的模型优化方法及系统(57)摘要
本发明提供了一种治疗方案推荐系统的模型优化方法及系统,包括:对每一个待推荐治疗方案的病例,选定用于计算的属性,确定相应的机器学习算法以及优化算法,初始化所选定属性的属性权重;计算每一个历史病例的复杂程度;对训练集中的每个历史病例,基于当前属性权重,使用机器学习算法计算当前属性权重的结果,并对其中错误的结果进行类别划分;根据历史病例的复杂程度及对应的类别划分计算优化算法的目标函数,将目标函数代入机器学习算法中优化属性权重;循环进行权重结果计算划分以及目标函数计算至收敛,得到最优的属性权重。本发明能够充分使用医生决策结果来度量病例的复杂程度以优化推荐结果,同时能充分考虑不同错误类型对结果的影响。
CN 109243561 A
权 利 要 求 书
1/2页
1.一种治疗方案推荐系统的模型优化方法,其特征在于,包括:初始化步骤:对于每一个待推荐治疗方案的病例,选定用于计算的属性,确定相应的机器学习算法以及相应的优化算法,以及初始化所选定属性的属性权重;
复杂度计算步骤:计算每一个历史病例的复杂程度;权重结果计算划分步骤:对训练集中的每个历史病例,基于当前属性权重,使用所述机器学习算法计算当前属性权重的结果,并对其中错误的结果进行类别划分;
目标函数计算步骤:根据历史病例的复杂程度及对应的类别划分计算所述优化算法的目标函数,将所述目标函数代入所述权重结果划分步骤的机器学习算法中优化属性权重;
迭代步骤:循环进行权重结果计算划分以及目标函数计算,直至所述机器学习算法收敛,得到最优的属性权重。
2.根据权利要求1所述的治疗方案推荐系统的模型优化方法,其特征在于,所述属性由病例中病人的各种查体结果构成。
3.根据权利要求1所述的治疗方案推荐系统的模型优化方法,其特征在于,所述复杂度计算步骤包括:
根据每一个历史病例的投票结果或者专家讨论的意见的信息熵计算其讨论分歧度,所述讨论分歧度越大则复杂程度越大。
4.根据权利要求3所述的治疗方案推荐系统的模型优化方法,其特征在于,所述信息熵H(Vi)的计算包括:
其中C为该次投票中所有投票选项的集合,Pic为选项c在投票结果Vi中的比例。5.根据权利要求1所述的治疗方案推荐系统的模型优化方法,其特征在于,所述权重结果计算划分步骤还包括对不同类别的错误进行区分对待:
计算不同类别错误的累积次数,对不同类别的错误赋予不同的惩罚,并计算不同类别的错误的总惩罚。
6.一种治疗方案推荐系统的模型优化系统,其特征在于,包括:初始化模块:对于每一个待推荐治疗方案的病例,选定用于计算的属性,确定相应的机器学习算法以及相应的优化算法,以及初始化所选定属性的属性权重;
复杂度计算模块:计算每一个历史病例的复杂程度;权重结果计算划分模块:对训练集中的每个历史病例,基于当前属性权重,使用所述机器学习算法计算当前属性权重的结果,并对其中错误的结果进行类别划分;
目标函数计算模块:根据历史病例的复杂程度及对应的类别划分计算所述优化算法的目标函数,将所述目标函数代入所述权重结果划分模块的机器学习算法中优化属性权重;
迭代模块:循环进行权重结果计算划分以及目标函数计算,直至所述机器学习算法收敛,得到最优的属性权重。
7.根据权利要求6所述的治疗方案推荐系统的模型优化系统,其特征在于,所述属性由病例中病人的各种查体结果构成。
8.根据权利要求6所述的治疗方案推荐系统的模型优化系统,其特征在于,所述复杂度计算模块包括:
2
CN 109243561 A
权 利 要 求 书
2/2页
根据每一个历史病例的投票结果或者专家讨论的意见的信息熵计算其讨论分歧度,所述讨论分歧度越大则复杂程度越大。
9.根据权利要求8所述的治疗方案推荐系统的模型优化系统,其特征在于,所述信息熵H(Vi)的计算包括:
其中C为该次投票中所有投票选项的集合,Pic为选项c在投票结果Vi中的比例。10.根据权利要求6所述的治疗方案推荐系统的模型优化系统,其特征在于,所述权重结果计算划分模块还包括对不同类别的错误进行区分对待:
计算不同类别错误的累积次数,对不同类别的错误赋予不同的惩罚,并计算不同类别的错误的总惩罚。
3
CN 109243561 A
说 明 书
治疗方案推荐系统的模型优化方法及系统
1/5页
技术领域
[0001]本发明涉及医疗决策及机器学习技术领域,具体地,涉及一种综合考虑错误种类、样本复杂度的治疗方案推荐系统的模型优化方法及系统。
背景技术
[0002]在治疗方案的自动推荐系统中,不同的属性对于推荐的影响程度往往不同。研究人员通常为每个属性赋予一个权重来度量其重要性。关于权重的确定,最简单的方法便是量化专家的经验,但这种方法往往难以实行因为经验难以被准确量化。另一个方法则是用优化算法(例如遗传算法)在给定推荐方法(例如K近邻)的基础上直接优化目标函数(例如使用推荐的错误率作为目标函数)使其达到最小。但是上述训练方法主要存在以下两点缺陷:[0003]第一,对不同的推荐错误的惩罚相同:在治疗方案推荐领域,一些推荐错误可能比另一些错误更加令人难以接受。[0004]第二,没有考虑病例复杂程度与错误的可接受程度的关系:对于复杂程度不同的病例,其可容忍的错误的程度应该是有区别的。也就是说,在训练过程中,那些复杂的且推荐出错的结果应该对参数的改变应该有较小的影响,而那些简单的但推荐出错的结果应该对参数的改变应该有较大的影响。
发明内容
[0005]针对现有技术中的缺陷,本发明的目的是提供一种治疗方案推荐系统的模型优化方法及系统。
[0006]根据本发明提供的一种治疗方案推荐系统的模型优化方法,包括:[0007]初始化步骤:对于每一个待推荐治疗方案的病例,选定用于计算的属性,确定相应的机器学习算法以及相应的优化算法,以及初始化所选定属性的属性权重;[0008]复杂度计算步骤:计算每一个历史病例的复杂程度;[0009]权重结果计算划分步骤:对训练集中的每个历史病例,基于当前属性权重,使用所述机器学习算法计算当前属性权重的结果,并对其中错误的结果进行类别划分;[0010]目标函数计算步骤:根据历史病例的复杂程度及对应的类别划分计算所述优化算法的目标函数,将所述目标函数代入所述权重结果划分步骤的机器学习算法中优化属性权重;
[0011]迭代步骤:循环进行权重结果计算划分以及目标函数计算,直至所述机器学习算法收敛,得到最优的属性权重。[0012]较佳的,所述属性由病例中病人的各种查体结果构成。[0013]较佳的,所述复杂度计算步骤包括:
[0014]根据每一个历史病例的投票结果或者专家讨论的意见的信息熵计算其讨论分歧度,所述讨论分歧度越大则复杂程度越大。
4
CN 109243561 A[0015][0016]
说 明 书
2/5页
较佳的,所述信息熵H(Vi)的计算包括:
其中C为该次投票中所有投票选项的集合,Pic为选项c在投票结果Vi中的比例。
[0018]较佳的,所述权重结果计算划分步骤还包括对不同类别的错误进行区分对待:[0019]计算不同类别错误的累积次数,对不同类别的错误赋予不同的惩罚,并计算不同类别的错误的总惩罚。
[0020]根据本发明提供的一种治疗方案推荐系统的模型优化系统,包括:[0021]初始化模块:对于每一个待推荐治疗方案的病例,选定用于计算的属性,确定相应的机器学习算法以及相应的优化算法,以及初始化所选定属性的属性权重;[0022]复杂度计算模块:计算每一个历史病例的复杂程度;[0023]权重结果计算划分模块:对训练集中的每个历史病例,基于当前属性权重,使用所述机器学习算法计算当前属性权重的结果,并对其中错误的结果进行类别划分;[0024]目标函数计算模块:根据历史病例的复杂程度及对应的类别划分计算所述优化算法的目标函数,将所述目标函数代入所述权重结果划分模块的机器学习算法中优化属性权重;
[0025]迭代模块:循环进行权重结果计算划分以及目标函数计算,直至所述机器学习算法收敛,得到最优的属性权重。[0026]较佳的,所述属性由病例中病人的各种查体结果构成。[0027]较佳的,所述复杂度计算模块包括:
[0028]根据每一个历史病例的投票结果或者专家讨论的意见的信息熵计算其讨论分歧度,所述讨论分歧度越大则复杂程度越大。[0029]较佳的,所述信息熵H(Vi)的计算包括:
[0030]
[0017]
其中C为该次投票中所有投票选项的集合,Pic为选项c在投票结果Vi中的比例。[0032]较佳的,所述权重结果计算划分模块还包括对不同类别的错误进行区分对待:[0033]计算不同类别错误的累积次数,对不同类别的错误赋予不同的惩罚,并计算不同类别的错误的总惩罚。[0034]与现有技术相比,本发明具有如下的有益效果:
[0035]本发明能够充分使用医生决策结果来度量病例的复杂程度以优化推荐结果,同时能充分考虑不同错误类型对结果的影响。实验结果表明,使用综合考虑错误种类、样本复杂度的遗传算法训练得到的模型权重能够比使用不考虑错误种类、样本复杂度的遗传算法训练得到的权重能够在基本维持推荐结果的小类错误率的前提下更好地减少推荐结果的大类错误率。
附图说明
[0036]通过阅读参照以下附图对非性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
5
[0031]
CN 109243561 A[0037][0038][0039]
说 明 书
3/5页
图1为本发明的流程图;
图2为本发明实施例中所使用的属性示意图;
图3为本发明实施例中化疗方案种类和所述类别示意图。
具体实施方式
[0040]下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
[0041]如图1所示,根据本发明提供的一种治疗方案推荐系统的模型优化方法,包括:[0042]初始化步骤:对于每一个待推荐治疗方案的病例,选定用于计算的属性,确定相应的机器学习算法(如K邻近算法)以及相应的优化算法(遗传算法),以及初始化所选定属性的属性权重。该权重代表属性推荐结果的贡献程度,某属性的权重越高,说明该属性对于推荐结果的影响程度越大。[0043]复杂度计算步骤:计算每一个历史病例的复杂程度。在本发明中,采用根据每一个历史病例的投票结果或者专家讨论的意见的信息熵计算其讨论分歧度,讨论分歧度越大则复杂程度越大,反之亦然。
[0044]权重结果计算划分步骤:对训练集中的每个历史病例,基于当前属性权重,使用机器学习算法计算当前属性权重的结果,并对其中错误的结果进行类别划分,具体包括对不同类别的错误进行区分对待:计算不同类别错误的累积次数,对不同类别的错误赋予不同的惩罚,并计算不同类别的错误的总惩罚。[0045]目标函数计算步骤:根据历史病例的复杂程度及对应的类别划分计算优化算法的目标函数,将目标函数代入权重结果划分步骤的机器学习算法中优化属性权重。即不同的错误类别对目标函数数值的影响不应该一致,严重的错误应该有更为严重的惩罚,反之亦然;同时,复杂的病例应该有更小的惩罚,反之亦然。[0046]迭代步骤:循环进行权重结果计算划分以及目标函数计算,直至机器学习算法收敛,得到最优的属性权重。
[0047]根据上述一种治疗方案推荐系统的模型优化方法,本发明还提供一种治疗方案推荐系统的模型优化系统,包括:[0048]初始化模块:对于每一个待推荐治疗方案的病例,选定用于计算的属性,确定相应的机器学习算法(如K邻近算法)以及相应的优化算法(遗传算法),以及初始化所选定属性的属性权重。该权重代表属性推荐结果的贡献程度,某属性的权重越高,说明该属性对于推荐结果的影响程度越大。[0049]复杂度计算模块:计算每一个历史病例的复杂程度。在本发明中,采用根据每一个历史病例的投票结果或者专家讨论的意见的信息熵计算其讨论分歧度,讨论分歧度越大则复杂程度越大,反之亦然。
[0050]权重结果计算划分模块:对训练集中的每个历史病例,基于当前属性权重,使用机器学习算法计算当前属性权重的结果,并对其中错误的结果进行类别划分,具体包括对不同类别的错误进行区分对待:计算不同类别错误的累积次数,对不同类别的错误赋予不同
6
CN 109243561 A
说 明 书
4/5页
的惩罚,并计算不同类别的错误的总惩罚。[0051]目标函数计算模块:根据历史病例的复杂程度及对应的类别划分计算优化算法的目标函数,将目标函数代入权重结果划分模块的机器学习算法中优化属性权重。即不同的错误类别对目标函数数值的影响不应该一致,严重的错误应该有更为严重的惩罚,反之亦然;同时,复杂的病例应该有更小的惩罚,反之亦然。[0052]迭代模块:循环进行权重结果计算划分以及目标函数计算,直至机器学习算法收敛,得到最优的属性权重。[0053]以化疗方案为例:
[00]步骤1:预测病例的化疗方案,使用到的属性如附图2所示,显然这里的属性由病例中病人的各种查体结果构成。这里我们采取的机器学习算法是K近邻算法,使用到的优化算法是遗传算法。
[0055]步骤2:计算每个案例的复杂程度,即信息熵H(Vi):
[0056]
其中C为该次投票中所有投票选项的集合,Pic为选项c在这次投票结果Vi中的比例。假设有3人参与了某个病例的投票,其中2人投了A选项,1人投了B选项,则该投票结果的分歧度为:H=-(2/3*log(2/3)+1/3*log(1/3))。
[0058]步骤3:对训练数据集中每一个病例使用K近邻算法预测其治疗方案,并与实际结果相比对,如果结果与图3中第二列不一致,则记录为一次小类错误;如果结果与图2中第二列结果不一致,则记录为大类错误。[0059]步骤4:每次使用遗传算法确定一组系数,代入步骤3中进行模拟,多所有推荐结果使用如下公式计算相应的目标函数值:
[0060]
[0057]
其中,A是犯大错误的病例构成的集合,B是犯小错误的病例构成的集合;βi是病例
Di的复杂程度,即投票信息熵;#samples是指用于训练参数的总样本个数;α是一个参数,用来控制不同错误的惩罚程度,可以根据实际情况调整其值。计算出函数值后,带回至遗传算法中,进行属性权重的优化。[0062]步骤5:重复步骤3、4,直到遗传算法收敛,得到最优的一组属性权重。[0063]本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。[00]以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相
7
[0061]
CN 109243561 A
说 明 书
5/5页
互组合。
8
CN 109243561 A
说 明 书 附 图
1/3页
图1
9
CN 109243561 A
说 明 书 附 图
2/3页
图2
10
CN 109243561 A
说 明 书 附 图
3/3页
图3
11
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务