Ｃ４５基于决策树算法的大数据保险业模型研究

李飞，齐林１０００８０）（北京信息科技大学经济管理学院，北京

2017-01-18 - 李飞齐林

［关键词］ＤＯＩ１０１３９３９／ｊｃｎｋｉｚｇｓｃ２０１７０２０７１［］

１引言

随我国经济快速增长，人民收入不断增加，保险业也呈现出高速发展的趋势，自国内恢复业务以来，保险业相比金融领域的其他行业，取得了不小的成绩。新时代背景下的保险业所呈现出的信息多元化、海量化等特点，使得大量用户信息以指数级增长趋势存在于保险行业，多元化的媒体介质输入导致数据预处理难度加大，用户的兴趣迁移导致构造用户画像模糊，而保险行业竞争日趋激烈，高风险性条件情况下保持客户黏性，降低流失率对企业竞争就显得尤为重要。

传统的商业情报分析往往结合数据挖掘技术对历史数据和已有的用户信息进行挖掘，发现潜在的未知的具有一定商业价值的信息，但由于以往的客户数据信息量较小，信息量更换慢，现有的保险业使用的传统的运营环境和模型难以适应海量数据，以及传统模型运行速度慢，运行代价高，准确率低，挖掘深度不够等都是不容忽视的弊端。近些年，随着大数据技术、人工智能、机器学习在工程和学术界的火热发展，相关的数据模型都发展得十分完善充分，而决策树其良好的鲁棒性，全样本挖掘性，准确度高，实施快捷，运行速度快，实现成本小都是它的优势所在。

故本文首先引入“数据湖”的概念以缓解传统数据处理处理异质数据问题，适应不同数据源存储介质的需求，引入使用可扩展性大数据分析模型获取用户的兴趣迁移特征，

ＣＡＲＴ应用算法基于决策树算法模型并以某保险公司具体用

户数据为实例构建应用场景进行模型训练和数据预测，并创新性地引入价值率对用户进行分类解决ｋ公司所面临的处理用户海量数据时间较长、效率较低、准确度不高等问题。

２Ｃ４５基于决策树算法的数据模型

２１模型生成描述数据基本处理：原始用户数据录入，形成基础数据湖，ＨｂａｓｅＯｒａｃｌｅ并将数据导入和数据库中，对数据选取加工预处理并对数据进行选表、选键、连接器层选择以匹配数据模型，通过数据表的前期基本处理清洗筛选形成基础宽表，在形成宽表基础上再对数据清洗机进行标准化处理，对样本数据做简单的描述统计、缺失值处理以及标准化（分层处理）工作。ＡｐａｃｈｅｓｐａｒｋＭｌｌｉｂ模型生成：调用中的决策树中的类库，根据样本数据和用户情景生成初始模型，对生成的模型７／３进行训练集和验证机选取，我们此处以原则进行选取，Ｏｒａｃｌｅ对大数据模型进行训练，将数据抽样导出到数据中介ＳＡＳＪＡＲ中，将传统的数据挖掘模型训练导入中以便对比，至此基本的模型池生成，经训练测试后的用户反馈信息对模型的各个参数进行调试，并对外发布服务模型，模型中所设１计重要参数如表所示。数据预测：根据服务模型和用户输入的基本信息属性进行加工，并对模型的预测产生结果集，再根据结果集进行场景信息预测并生成用户画像。２２Ｃ４５决策树算法Ｃ４５决策树算法是由：决策树生成和剪枝处理两个阶Ｇａｉｎｒａｔｉｏｎ）段构成，此处我们 “增益率” （来减少信息增Ｃ４５益所带来的偏好误差，算法的其中特性之一是通过使用增益率来进行属性划分并起到优化的效果，其定义为，Ｇａｉｎ（ｄ，ａ）Ｇａｉｎ＿ｒａｔｉｏ（ｄ，ａ）＝ＩＶ（Ａ），｜Ｄｖ｜｜Ｄｖ｜  ＶＩＶ（Ａ）＝－ｌｏｇ２｜Ｄ｜｜Ｄ｜，其中：称为属性的 “固ｖ＝１ＩＶ（Ａ）ａ定值”。此处不的值一般会随着属性的变化而变ａＩＶ（Ａ）化，即可选数目的数量会成正向影响的值。２３决策树模型算法ＣＡＲＴ此处我们采用决策树的概念，引入基尼值来检测  ｜ｙ｜｜ｙ｜ＴＧｉｎｉ（ｔ）＝ｐｋｐｋ＇＝１－ｐ２数据集的纯度，ｋ，从数ｋ＝１＇＝ｋｋ＝１Ｔ据集中所抽取的训练集和测试集两个数据样本，可以通过基尼值来体现出类别标志各自的概率与异同，高纯度的数据集意味着基尼值比较小。２４价值率Ｖａｌｕｅｒａｔｅ），价值率（原先隶属于价值理论体系重要参量，本文通过引入“价值率”这个概念对客户的个人信息进行归类，细化用户画像，由于场景需求此处不引入客户时ＱｏｕｔＰＰ＝Ｑｉｎ ×Ｔ间维度，此处将价值率用来表示，即式中，ＱｏｕｔＱｉｎ为公司客户可输出价值量，为公司客户投入价值量，并通过计算公司客户的价值率，基本将客户分为五个等级，

［摘要］如今大数据背景下客户信息数据呈现指数级增长趋势，盈利企业亟须通过大数据分析发现客户更深层次的潜在信息从而降低客户流失率，尤其是流动率高的保险行业性质企业。保险公司力求稳定增长的市场占有率和经济效益就需要通过数据挖掘来不断发现潜在客户价值，此时数据的多元性和数据量成为有效快速挖掘用户信息的瓶颈。文章引入 “数据ＨＤＦＳ湖”的概念结合构建集群式的大数据模型，并引入价值率来对客户进行分析，构建用户画像，帮助公司深度理解客户特征降低客户流失率。大数据；决策树；价值率；保险

０，０～０１９，０１９～０２９，０２９～０３９，０３９，大于分别对０～４应五个级别，数字越大价值率越大。

３实证研究

３１实验数据

基于某保险公司的用户数据，由于数据本身来源差异和获取方式的不同，导致“数据湖”中本身存在大量的不完整、不一致、含噪声和冗余数据，所以需要对数据进行一个简单的处理分析工作，其一，减少数据集变量间的冗余，方便模型挖掘数据的效率和输出预测信息的简洁；其二，提高３２分析工具和平台Ｈａｄｏｏｐ本模型运行平台基于分布式文件系统，其良好的高容错性和高吞吐数据访问比较适合大规模数据集的应ＨＤＦＳ用，本模型应用的环境基于的基本运行环境，使用ＰｙｔｈｏｎＣｅｎｔｏｓｒｅｌｅａｓｅ６５数据处理语言，操作系统版本：Ｆｉｎａｌ），６Ｉｎｔｅｌ（ｒ），（搭建集群台，各个设备相关信息：Ｅ５６０６，＠２１３ｇｈｚ，２１２８０００ｍｈｚ，ｃａｃｈｅｓｉｚｅ：８１９２ｋｂ。３３模式评估与应用算法模型的运行结果展示出哪些因素影响客户流失的决Ｆ１＿ｓｃｏｒｅ，经结果发现这里采用准确率、召回率以及抽取用户的预测值与评分值进行模型检验，得到值均在合理２３２０３４ｓ，ＳＡＳ值范围，模型运行时间较传统的跑出的３４ｍｉｎ２３ｓ，较为高效，据此此模型可以投入运用。

４结论与展望

论文借助“数据湖”挖掘模型实现了保险业的用户流

ＨＤＦＳ失率检测，取得了以下结论。第一，论文建立在运行环境中，一方面，通过对决策树基本特点的研究，找到了决策树与保险业用户流失率的结合点，建立了基于用户数据湖

ＨＤＦＳ的大数据模型；另一方面，模型基于开源环境中，具有良好的可扩展性。第二，根据信息论的相关理论概念引入信息熵和客户价值率，提高对客户数据属性分类的准确性，本文最后结合实例对所提出的模型进行验证，证明数据模型的可靠性。数据属性列间的相关性，去掉关联性较高的数据属性列，如保险缴费与收入属性具高相关性；其三，由于决策树模型运行时离散型数据进行处理速率较快，故多连续性数据进行离散化处理。数据选取基本上对宽表的行列维度数据进行处理，由于

２０在实际过程中对数据生成一个大约个属性列的宽表，数据选择可以避免数据处理时发生高维数据灾难，并且在数据处理过程中进行部分数据归一化处理，以适应模型的匹配

１度。见表。策，通过评估可以得到更为有价值的客户信息，评估方法有Ｆ１－ｓｃｏｒｅ，ＰＲ，ＲＯＣ准确率，召回率，等，其中，真正ＴＰ：样本类型被数据模型正确归类预测命中正确类的数量；ＦＮ：假负样本类型被数据模型误判为其他类型的数量；假ＦＰ：正样本不属于正确类别被数据模型误判为正确类别的ＴＮ：数量；真负样本类型属于正确类别被数据模型误判为其他类型的数量。２全样本数据运行模型的结果展示见表。

本文引入“数据湖”的概念以缓解传统数据处理异质数据问题，极好地适应不同数据源存储介质的需求，并引入使用可扩展性大数据分析模型以便适应用户的兴趣迁移，通过数据挖掘技术提高销售净利率，扩大企业市场所占份额，识别客户等级，诚信度和价值率，降低企业风险，预测预警以及制订相应的决策计划，降低用户流失率提高忠诚度，本

ＣＡＲＴ文基于算法模型以某保险公司用户数据具体数据为实例构建应用场景进行模型训练和数据预测，并创新性地引入价值率对用户进行分类解决公司所面临的处理用户海量数据时间较长效率较低准确度不高等问题。

由于时间和硬件环境的制约，本文仍存在一些有待进一步改进和深入研究的地方。第一，论文对于数据挖掘算法采用较为经典的决策树方法，在数据处理时采用常规处理方法难免会导致部分数据的缺失和预测准确率的下降；第二，本文研究中数据均居于有限的数据集，随传输媒介的变化，用

户的时间维度并未良好地考虑进去，对用户仍旧缺乏较时间维度及其用户标签等级的良好划分。参考文献：１  Ｊ．［］孟小峰，慈祥大数据管理：概念、技术与挑战［］计２０１３（１）：１４６－１６９算机研究与发展，２  Ｄ．［］王艳中国保险公司制度变迁与创新研究［］长春：吉２０１４林大学，３  Ｊ．［］丁兆云，贾焰，周斌微博数据挖掘研究综述［］计算２０１４（４）：６９１－７０６机研究与发展，４Ｑｕｉｎｌａｎｊｒｃ４５ｐｒｏｇｒａｍｓｆｏｒｍａｃｈｉｎｅｌｅａｒｎｉｎｇＭ．Ｃａｌｉ ［］［］

Ｐ５５）（上接情况下被蹂躏。２４版权所有多样，权力小国内数字出版的版权所有者的权力很小。数字出版的发展，不仅使得出版流程及传播方式进一步优化，更是将出版成本以及对出版行业的要求降低了很多。在数字出版的发展中，作者自身就能对自己的作品进行出版发行，这种现象使数字出版的版权所有者不再是传统出版商或者需要通过传统出版商才能进行出版。数字出版的营销活动者，现在的版权所有者可以是出版商，也可以是作者个人，但不管是哪一方，其在数字出版行业中所拥有的权力都是很小的，并且其版权贸易的营收也相对的低，不能受自己的主观控制。

１９９８ “避风港”原则。由美国在年推出的《数字千年版权法案》所创立。该法案中创造性地提出： “在发生著作权侵权案件时，当网络服务提供商只提供空间服务，并不制作网页内容时，被告知侵权，应当立即删除，否则就被视为侵权。如果侵权内容既不在网络服务提供商的服务器上存储，又没有被告知哪些内容应该删除，则网络服务提供商不承担２［］侵权责任。” ２０１２９１７

年月日，北京市海淀区法院对韩寒、郝群（笔名慕容雪村）、韩瑷莲（笔名何马）起诉百度公司关于

１４百度文库侵犯著作权纠纷的起案件进行了集中宣判，认定百度公司经营的百度文库上传韩寒、郝群的《像少年啦ｆｏｒｎｉａ：ｍｏｒｇａｎｋａｕｆｍａｎｎ，ｓａｎｍａｔｅｏ，１９９３ ５  ［］赵强利，蒋艳凰，卢宇彤具有回忆和遗忘机制的数据流Ｊ．２０１５（１０）：２５６７－２５８０挖掘模型与算法［］软件学报，６  Ｃ４５Ｊ．［］徐鹏，林森基于决策树的流量分类方法［］软件２００９（１０）：２６９２－２７０４学报，７  Ｍ．［］陈文伟数据挖掘技术［］北京：北京工业大学出版２００２社，檶檶檶檶檶檶檶檶檶［基金项目］本论文受北京信息科技大学北京市哲学社会科学研究基地———北京知识管理研究基地项目资助（项目编号：７１Ｆ１６１０９０７）。

飞驰》《成都，今夜请将我遗忘》等代表性畅销作品并向其他网络用户提供在线浏览和下载的行为，存在主观过错，应承担相应侵权责任，判决百度共赔偿经济损失及合理开支１７３

万元，对韩寒等作家提出的关闭百度文库、赔礼道歉等诉讼请求未予支持。

百度文库侵权案的成功，是值得深思的。首先， “避风港”原则已经不能对复杂多样的数字版权问题进行解决了，也不能维护众多数字版权拥有者的利益了，制定详细、行之有效的规章制度迫在眉睫；其次，即便是对百度的起诉获得成功，但是版权拥有者获得赔偿是很低的，这说明人们对数字版权的保护和重视还远远不够，甚至可以说，对于数字版权的保护力度轻得可怜。

３结论

数字版权保护还需要一个过程，甚至对于数字版权管理规章的订立也需要一个过程，同时也还有很多潜在的版权问题没有暴露。所以，推进数字出版的发展是首要的，在发展中探索和寻求国内数字出版的盈利模式，搭建良好的数字出版平台，在实践中完善对于数字版权的管理和保护。只有形成系统规范、切实有效的数字版权管理规范，才能进一步引导数字出版生产、传播、赢利整个生态的健康发展，才能真正推动数字出版行业的快速变革，这将是个不断在摸索改进中进步的过程。参考文献：１  ［］谢晶晶网络环境下的数字版权保护研究［］法制与社２０１４（３０） 会，２  ［］朱远慧，王曾，曾璐 “避风港”规则下视频分享网站的Ｊ．２０１０（４） 版权侵权责任认定［］金卡工程，３  Ｊ．［］吴琦，苏蕾方兴未艾的英国数字出版业［］编辑之２０１２（８） 友，

Ｃ４５基于决策树算法的大数据保险业模型研究

李飞，齐林１０００８０）（北京信息科技大学经济管理学院，北京

Newspapers in Chinese (Simplified)

Newspapers from China

Ｃ４５基于决策树 算法的大数据保险业模­型研究

李 飞，齐 林１０００８０） （北京信息科技大学 经济管理学院，北京

Newspapers in Chinese (Simplified)

Newspapers from China

Ｃ４５基于决策树算法的大数据保险业模型研究

李飞，齐林１０００８０）（北京信息科技大学经济管理学院，北京