您的位置首页  散文评论

杜天宇(杜天宇的个人资料)学到了

文 / 中国人寿保险股份有限公司  张洪涛 唐辉 鞠芳 蔡佳妮保险业作为金融行业的一个重要行业分支,近些年经历了业务快速增长和蓬勃的发展后,积累

杜天宇(杜天宇的个人资料)学到了

 

文 / 中国人寿保险股份有限公司  张洪涛 唐辉 鞠芳 蔡佳妮

保险业作为金融行业的一个重要行业分支,近些年经历了业务快速增长和蓬勃的发展后,积累了大量的行业历史数据与此同时,机器学习和深度学习技术的快速发展,基于历史数据的分析预测技术变得更精准有效因此,保险业经营机构基于自身的数据优势,利用新型的机器学习和深度学习方法,训练各类智能预测模型,应用于保险经营的各业务环节,以提高保险经营质量和经营效率。

例如,智能核保和智能理赔反欺诈等依据机器学习等方法构建的预测模型的引入使用,将极大地提升保险经营机构的经营能力和智能化水平然而,在智能预测模型的推广应用过程中,也遇到了各种各样的障碍,其中最为突出的便是预测结果的解释性问题。

模型预测结果的解释性问题是指:基于机器学习和深度学习的智能预测模型只输出针对某个预测样本的预测结果(通常为特定场景某一事件发生的概率,例如理赔申请为保险欺诈行为的概率等),通常不能给出具体的预测依据和概率计算过程。

不难发现,智能预测模型解释性的缺失,会使无机器学习等技术背景的保险业务人员对模型的可信性和可靠性产生怀疑,致使模型的推广使用受到严重的影响此外,预测结果解释性的缺失,将不能给出业务场景下的下一步工作指导性策略(例如理赔反欺诈场景下,无法给出下一步反欺诈调查取证的调查方向线索等),因此智能模型的应用效果将受到严重的负面影响。

为使智能预测模型能够顺利的推广使用,并提升特定保险业务场景中智能预测模型的应用效果,必须解决模型的解释性问题模型解释方法分析1.模型解释性分类在机器学习领域,模型的解释性问题是一个重要的研究分支方向,在某些实际的模型应用场景中,模型的解释性比模型本身的准确性更加重要。

近些年随着模型训练数据的急剧增长,研究人员更倾向于训练结构更为复杂的模型(集成模型、梯度提升树、深度网络等)来增加模型预测的准确性然而,模型结构越复杂,模型的预测解释就越困难研究人员提出了各类方法用于解决模型的解释性问题,但相比于机器学习模型的快速迭代发展,模型的解释性研究发展显得较为缓慢。

并且研究发现,模型的解释性问题本质上是机器学习和深度学习模型技术的黑盒属性导致的,在应用过程中很难从根本上解决这一问题总体而言,现阶段的模型解释方法可分为两大类:一类为全局特征重要性度量,即模型全局解释;一类为局部特征贡献值度量,即模型局部解释。

首先是全局特征重要性的度量,即模型全局解释常见的全局解释度量指标为全局特征重要性特征重要性是指针对于模型整体,研究模型内部在进行预测时对各个特征的考察先后顺序或考察关注度的大小等例如:对于线性模型,各个特征的权重系数便是对模型全局特征重要性的一种度量,权重系数越大,与之相对应的特征重要性越强;对于树状模型,常见的全局特征重要性度量指标包括:一个特征在所有决策树中被用来划分数据的次数(Weight);一个特征在所有决策树中被用来划分数据的次数和每次划分涉及的样本个数得到的加权结果(Cover);一个特征被用于划分数据时所带来的训练损失减益的平均值(Gain)。

不难发现,全局特征重要性的度量更倾向于对模型本身进行整体分析解释另外一类是局部特征贡献值度量,局部特征贡献值度量是指分析计算模型的各个特征对某一个样本数据的预测结果贡献度的大小例如,对于二分类的预测问题而言,若某个数据样本被分类预测为正样本,则局部特征贡献值度量将会给出该数据样本的各个特征对于该正向分类结果贡献值,分类为负样本与此类似。

不难发现,局部特征贡献值度量方法更倾向于对模型的局部预测结果进行特定的解释现有的局部特征贡献值度量方法工具包括Lime、DeepLIFT、Layer-Wise Relevance Propagation、Shap等。

Lime是一种模型独立的解释工具,适用于所有类型的模型,Lime在某个预测样本的附近训练新的线性模型,对原有模型进行局部的近似模拟,并将训练的线性模型中各个特征的权重系数作为该样本数据各个特征的贡献值;

DeepLIFT方法首先需要人为选定每个特征的基准参考值,该基准参考值表示对预测结果无任何支持信息的特征数量值,之后考察每个特征相对于参考值的变化量对于预测值的变化量的影响程度,并量化一个系数C作为该特征对预测结果的贡献值;

Layer-Wise Relevance Propagation是一种适用于深度神经网络模型的方法,与DeepLIFT方法类似,也是考察每个特征相对于参考值的变化量对于预测值的变化量的影响程度,不同的是,参考值不是由人为确定,而是把所有神经元的零状态作为特征的参考值状态;

Shap方法是一种基于博弈论的统计计算方法,为每一个特征计算一个shap值作为贡献度值,shap值的计算过程中,将某一个特征与其他所有特征的子集进行博弈比较,计算特征相对于其他特征子集对于预测结果的影响程度,shap值本质上是一种条件概率,此外,采用了特征独立和模型可线性模拟的假设来简化计算过程。

2.解释性方法选择在实际保险业务开展过程中发现,智能预测模型使用场景中需要的解释性为模型的局部解释,即给出具体场景下,预测概率的预测依据,以增强模型预测结果的可信度,并为后续的业务开展提供指导策略为了能够选取最佳的模型解释方法对智能预测模型的预测结果进行解释,对现有的模型局部解释性方法进行了分析。

首先考虑到各种方法的适用性问题,DeepLIFT、Layer-Wise Relevance Propagation两种方法只适用于深度模型和神经网络模型,不具有广泛的通用性,因此对于这两种方法暂不考虑Lime和Shap方法均为与模型无关的实现方案,可适用于各种类型的模型。

此外,在实际生产系统运行过程中,系统的运行效率显得十分重要解释性功能需要有较高的时间运行效率,以减少对整个业务生产系统的运行时效压力然而,在实验过程中发现,Lime和Shap两种方法的运行效率存在着较大的差异:由于Lime计算过程中需要重新生成新的数据并训练新的解释模型,因此需要耗费较大的存储空间和计算时间,从而导致Lime整体的运行效率很低;相反,Shap中的大量计算在预测模型训练过程中进行了预先计算,因此对结果的解释效率相对较高,并且在一些常用的算法中已经集成了Shap的计算,例如Xgboosting算法等。

综合以上考虑,尝试采用Shap方法对模型的预测结果进行解释模型解释应用案例1.智能保险营销预测在保险销售业务场景中,研究开发了保险产品购买预测模型,模型计算出客户可能会购买某保险产品的概率值然而,由于购买预测模型并未给出具体的预测依据,因此保险销售员对预测的准确性产生质疑;此外,由于缺少具体的预测依据和预测结果的解释性分析,保险销售员也很难确定拜访销售预期并顺利展开客户拜访,最终会影响购买预测效果的发挥。

针对上述问题,对保险产品购买预测模型进行预测解释性的应用研究,以满足营销员的需求图1绘制了某条预测样本和预测结果Shap模型解释的相关输出,其中,红色部分表示对预测结果正向贡献的特征以及相应的贡献值,蓝色部分表示对预测结果负向贡献的特征以及相应的贡献值。

从图中不难发现,c_pl1003_max_diff_trace=2这一因素的取值,对保险购买的概率产生了最大的正向贡献,其次为max_inforce=0.1287等;蓝色的负向贡献与之类似保险销售人员根据特征含义和特征贡献的大小关系,结合业务经验知识对模型预测结果进行更加详细全面地理解,一方面既增强了对模型的可信度,另一方面也对后续销售工作的展开提供了数据支持,营销工作更加具有针对性,有利于更好地满足客户的真实需求。

图1 预测结果解释输出样例2.智能理赔欺诈预测在保险重疾险理赔场景中,智能理赔反欺诈模型基于理赔申请信息及客户的既往历史信息对此次理赔申请的欺诈风险进行评估,计算出欺诈风险的概率值然而,在实际应用过程中,理赔作业人员提出,模型应当对预测结果进行解释,给出预测的依据及依据特征的贡献大小,从而给案件调查人员提供相应的调查方向和调查线索参考。

模型推广过程中也发现,单纯的预测评分,很难引起作业人员的注意和信任,影响模型的推广应用效果针对上述问题,对保险产品购买预测模型进行预测解释性的应用研究,以满足营销员的需求图2展示了Shap模型解释性在理赔反欺诈模型的应用方式和效果。

模型计算理赔欺诈风险概率F值的同时,一同计算各个特征对于F值的贡献值(即Shap值),之后筛选出贡献值为正(即对风险概率F值计算具有正向贡献)的特征及其取值,与调查建议规则和解释话术规则进行逐一的碰撞比对,若命中某一规则,则将该条规则对应的调查建议话术或解释话术显示到系统前端,供理赔作业人员参考使用。

图2 预测结果特征解释调查建议规则和解释话术规则知识库建立方式为:首先基于历史理赔案件预测Shap值统计分析初选出重点关注特征,再由经验丰富的理赔调查作业人员依据重点关注特征初步总结整理,最后依据理赔案件进行实例校验并进一步丰富后确定。

上线运行后,在业务系统中基于实际业务开展情况进行及时配置和调整,不断满足理赔调查作业人员的使用需求在此,简要列出了部分调查建议规则和解释话术规则如下:解释话术规则:(n)累计保费

……(2)累计保费

……(n)F值>0.6:高风险,建议仔细审查案情模型解释应用前景展望在保险经营管理过程中,越来越多的经营环节引入基于机器学习和深度学习的智能预测模型,用以辅助相关环节的经营决策与保障型保险产品购买预测模型和理赔反欺诈模型的推广应用场景类似,各种场景下的预测结果也同样需要对预测结果进行解释。

例如,智能核保场景下,应当给出具体的解释,包括拒保情况下的拒保原因,或者有条件承保情况下的承保条件等目前解释性的输出只是单纯输出了模型中各个特征的贡献值,并加以简单的解释输出,未能与具体的业务场景深度结合给出更为详尽的语义解释。

这方面可使用自然语言处理技术,结合具体场景的文本资料库,训练文本生成模型,将现阶段较为固定的解释性输出转化为更为人性化的文字解释输出,方便业务人员使用此外,基于图数据库和图挖掘算法的知识图谱技术在金融行业的反洗钱和反欺诈场景中取得了较好的应用效果。

知识图谱技术具有天然的可解释性的优势,基于机器学习和深度学习的预测模型可与知识图谱技术相结合,充分发挥模型预测结果的精准性和图谱的可解释性,使其更好地在业务场景中发挥作用参考资料[1]贾延延、冯键:《机器学习算法保险场景应用》,载《合作经济与科技》,2020,(009)132~133页

[2]纪守领、李进锋、杜天宇:《机器学习模型可解释性方法、应用与安全研究综述》,载《计算机研究与发展》,2019(56)[3]化盈盈、张岱墀、葛仕明:《深度学习模型可解释性的研究进展》,载《信息安全学报》,2020(3)

(栏目编辑:郑艺)

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186