C45基于决策树 算法的大数据保险业模型研究
李 飞,齐 林100080) (北京信息科技大学 经济管理学院,北京
[关键词] DOI 1013939/jcnkizgsc201702071 []
1 引言
随我国经济快速增长,人民收入不断增加,保险业也呈现出高速发展的趋势,自国内恢复业务以来,保险业相比金融领域的其他行业,取得了不小的成绩。新时代背景下的保险业所呈现出的信息多元化、海量化等特点,使得大量用户信息以指数级增长趋势存在于保险行业,多元化的媒体介质输入导致数据预处理难度加大,用户的兴趣迁移导致构造用户画像模糊,而保险行业竞争日趋激烈,高风险性条件情况下保持客户黏性,降低流失率对企业竞争就显得尤为重要。
传统的商业情报分析往往结合数据挖掘技术对历史数据和已有的用户信息进行挖掘,发现潜在的未知的具有一定商业价值的信息,但由于以往的客户数据信息量较小,信息量更换慢,现有的保险业使用的传统的运营环境和模型难以适应海量数据,以及传统模型运行速度慢,运行代价高,准确率低,挖掘深度不够等都是不容忽视的弊端。近些年,随着大数据技术、人工智能、机器学习在工程和学术界的火热发展,相关的数据模型都发展得十分完善充分,而决策树其良好的鲁棒性,全样本挖掘性,准确度高,实施快捷,运行速度快,实现成本小都是它的优势所在。
故本文首先引入“数据湖”的概念以缓解传统数据处理处理异质数据问题,适应不同数据源存储介质的需求,引入使用可扩展性大数据分析模型获取用户的兴趣迁移特征,
CART应用算法基于 决策树算法模型并以某保险公司具体用
户数据为实例构建应用场景进行模型训练和数据预测,并创新性地引入价值率对用户进行分类解决k公司所面临的处理用户海量数据时间较长、效率较低、准确度不高等问题。
2 C45基于决策树 算法的数据模型
21 模型生成描述数据基本处理:原始用户数据录入,形成基础数据湖, Hbase Oracle并将数据导入 和 数据库中,对数据选取加工预处理并对数据进行选表、选键、连接器层选择以匹配数据模型,通过数据表的前期基本处理清洗筛选形成基础宽表,在形成宽表基础上再对数据清洗机进行标准化处理,对样本数据做简单的描述统计、缺失值处理以及标准化 (分层处理)工作。 Apachespark Mllib模型生成:调用 中的 决策树中的类库,根据样本数据和用户情景生成初始模型,对生成的模型7/3进行训练集和验证机选取,我们此处以 原则进行选取, Oracle对大数据模型进行训练,将数据抽样导出到数据中介SAS JAR中,将传统的 数据挖掘模型训练导入 中以便对比,至此基本的模型池生成,经训练测试后的用户反馈信息对模型的各个参数进行调试,并对外发布服务模型,模型中所设1计重要参数如表 所示。数据预测:根据服务模型和用户输入的基本信息属性进行加工,并对模型的预测产生结果集,再根据结果集进行场景信息预测并生成用户画像。22 C45决策树 算法C45决策树 算法是由:决策树生成和剪枝处理两个阶Gainration)段构成,此处我们 “增益率” ( 来减少信息增C45益所带来的偏好误差, 算法的其中特性之一是通过使用增益率来进行属性划分并起到优化的效果,其定义为, Gain(d,a) Gain_ratio(d,a)= IV(A) , |Dv| |Dv| V IV(A)=- log2 |D| |D|,其中: 称为属性的 “固v=1 IV(A) a定值”。此处不 的值一般会随着属性 的变化而变a IV(A)化,即 可选数目的数量会成正向影响 的值。23 决策树模型算法CART此处我们采用 决策树的概念,引入基尼值来检测 |y| |y| T Gini(t)= pkpk'= 1- p2数据集 的纯度, k,从数k= 1 '= k k=1 T据集 中所抽取的训练集和测试集两个数据样本,可以通过基尼值来体现出类别标志各自的概率与异同,高纯度的数据集意味着基尼值比较小。24 价值率Valuerate),价值率 ( 原先隶属于价值理论体系重要参量,本文通过引入“价值率”这个概念对客户的个人信息进行归类,细化用户画像,由于场景需求此处不引入客户时Qout P P= Qin ×T间维度,此处将价值率用 来表示,即 式中, Qout Qin为公司客户可输出价值量,为公司客户投入价值量,并通过计算公司客户的价值率,基本将客户分为五个等级,
[摘 要]如今大数据背景下客户信息数据呈现指数级增长趋势,盈利企业亟须通过大数据分析发现客户更深层次的潜在信息从而降低客户流失率,尤其是流动率高的保险行业性质企业。保险公司力求稳定增长的市场占有率和经济效益就需要通过数据挖掘来不断发现潜在客户价值,此时数据的多元性和数据量成为有效快速挖掘用户信息的瓶颈。文章引入 “数据HDFS湖”的概念结合 构建集群式的大数据模型,并引入价值率来对客户进行分析,构建用户画像,帮助公司深度理解客户特征降低客户流失率。大数据;决策树;价值率;保险
0,0~019,019~029,029~039, 039,大于 分别对0~4应 五个级别,数字越大价值率越大。
3 实证研究
31 实验数据
基于某保险公司的用户数据,由于数据本身来源差异和获取方式的不同,导致“数据湖”中本身存在大量的不完整、不一致、含噪声和冗余数据,所以需要对数据进行一个简单的处理分析工作,其一,减少数据集变量间的冗余,方便模型挖掘数据的效率和输出预测信息的简洁;其二,提高 32 分析工具和平台Hadoop本模型运行平台基于 分布式文件系统,其良好的高容错性和高吞吐数据访问比较适合大规模数据集的应HDFS用,本模型应用的环境基于 的基本运行环境,使用Python Centosrelease65数据处理语言,操作系统版本: Final), 6 Intel(r), ( 搭建集群 台,各个设备相关信息: E5606,@213ghz,2128000mhz,cachesize:8192kb。33 模式评估与应用算法模型的运行结果展示出哪些因素影响客户流失的决 F1_ score,经结果发现这里采用准确率、召回率以及抽取用户的预测值与评分值进行模型检验,得到值均在合理232034s, SAS值范围,模型运行时间 较传统的 跑出的34min23s,较为高效,据此此模型可以投入运用。
4 结论与展望
论文借助“数据湖”挖掘模型实现了保险业的用户流
HDFS失率检测,取得了以下结论。第一,论文建立在 运行环境中,一方面,通过对决策树基本特点的研究,找到了决策树与保险业用户流失率的结合点,建立了基于用户数据湖
HDFS的大数据模型;另一方面,模型基于开源 环境中,具有良好的可扩展性。第二,根据信息论的相关理论概念引入信息熵和客户价值率,提高对客户数据属性分类的准确性,本文最后结合实例对所提出的模型进行验证,证明数据模型的可靠性。 数据属性列间的相关性,去掉关联性较高的数据属性列,如保险缴费与收入属性具高相关性;其三,由于决策树模型运行时离散型数据进行处理速率较快,故多连续性数据进行离散化处理。数据选取基本上对宽表的行列维度数据进行处理,由于
20在实际过程中对数据生成一个大约 个属性列的宽表,数据选择可以避免数据处理时发生高维数据灾难,并且在数据处理过程中进行部分数据归一化处理,以适应模型的匹配
1度。见表 。 策,通过评估可以得到更为有价值的客户信息,评估方法有F1-score, PR, ROC准确率,召回率, 等,其中,真正TP:样本类型被数据模型正确归类预测命中正确类的数量; FN:假负 样本类型被数据模型误判为其他类型的数量;假FP:正 样本不属于正确类别被数据模型误判为正确类别的TN:数量;真负 样本类型属于正确类别被数据模型误判为其他类型的数量。2全样本数据运行模型的结果展示见表 。
本文引入“数据湖”的概念以缓解传统数据处理异质数据问题,极好地适应不同数据源存储介质的需求,并引入使用可扩展性大数据分析模型以便适应用户的兴趣迁移,通过数据挖掘技术提高销售净利率,扩大企业市场所占份额,识别客户等级,诚信度和价值率,降低企业风险,预测预警以及制订相应的决策计划,降低用户流失率提高忠诚度,本
CART文基于 算法模型以某保险公司用户数据具体数据为实例构建应用场景进行模型训练和数据预测,并创新性地引入价值率对用户进行分类解决公司所面临的处理用户海量数据时间较长效率较低准确度不高等问题。
由于时间和硬件环境的制约,本文仍存在一些有待进一步改进和深入研究的地方。第一,论文对于数据挖掘算法采用较为经典的决策树方法,在数据处理时采用常规处理方法难免会导致部分数据的缺失和预测准确率的下降;第二,本文研究中数据均居于有限的数据集,随传输媒介的变化,用
户的时间维度并未良好地考虑进去,对用户仍旧缺乏较时间维度及其用户标签等级的良好划分。 参考文献: 1 J. [ ]孟小峰,慈祥 大数据管理:概念、技术与挑战 [ ] 计2013(1):146-169算机研究与发展, 2 D. [ ]王艳 中国保险公司制度变迁与创新研究 [ ] 长春:吉2014林大学, 3 J. [ ]丁兆云,贾焰,周斌 微博数据挖掘研究综述 [] 计算2014(4):691-706机研究与发展, 4 Quinlanjrc45programsformachinelearning M .Cali [] []
P55) (上接 情况下被蹂躏。24 版权所有多样,权力小国内数字出版的版权所有者的权力很小。数字出版的发展,不仅使得出版流程及传播方式进一步优化,更是将出版成本以及对出版行业的要求降低了很多。在数字出版的发展中,作者自身就能对自己的作品进行出版发行,这种现象使数字出版的版权所有者不再是传统出版商或者需要通过传统出版商才能进行出版。数字出版的营销活动者,现在的版权所有者可以是出版商,也可以是作者个人,但不管是哪一方,其在数字出版行业中所拥有的权力都是很小的,并且其版权贸易的营收也相对的低,不能受自己的主观控制。
国内有望整合数字出版的就是拥有技术和网络的,像移动、电信、联通这样的营销平台,但是这就使得数字出版物的收费权和定价权都不在版权所有者的手上,版权所有者只能提供内容,至于如何进行定价,如何进行收费,营收应该给予版权所有者多少,这样的问题都不是版权所有者能够主观决定的,甚至版权所有者还有失去参与权的可能。25 法律法规的不齐备在提及数字版权相关问题的时候,必须要提到的就是
1998 “避风港”原则。由美国在 年推出的 《数字千年版权法案》所创立。该法案中创造性地提出: “在发生著作权侵权案件时,当网络服务提供商只提供空间服务,并不制作网页内容时,被告知侵权,应当立即删除,否则就被视为侵权。如果侵权内容既不在网络服务提供商的服务器上存储,又没有被告知哪些内容应该删除,则网络服务提供商不承担2 []侵权责任。” 2012 9 17
年 月 日,北京市海淀区法院对韩寒、郝群(笔名慕容雪村)、韩瑷莲 (笔名何马)起诉百度公司关于
14百度文库侵犯著作权纠纷的 起案件进行了集中宣判,认定百度公司经营的百度文库上传韩寒、郝群的 《像少年啦 fornia:morgankaufmann,sanmateo,1993 5 [ ]赵强利,蒋艳凰,卢宇彤 具有回忆和遗忘机制的数据流J. 2015(10):2567-2580挖掘模型与算法 [] 软件学报, 6 C45 J. [ ]徐鹏,林森 基于 决策树的流量分类方法 [] 软件2009(10):2692-2704学报, 7 M. [ ]陈文伟 数据挖掘技术 [ ] 北京:北京工业大学出版2002社,檶檶檶檶檶檶檶檶檶[基金项目]本论文受北京信息科技大学北京市哲学社会科学研究基地———北京知识管理研究基地项目资助 (项目编号: 71F1610907 )。
飞驰》《成都,今夜请将我遗忘》等代表性畅销作品并向其他网络用户提供在线浏览和下载的行为,存在主观过错,应承担相应侵权责任,判决百度共赔偿经济损失及合理开支173
万元,对韩寒等作家提出的关闭百度文库、赔礼道歉等诉讼请求未予支持。
百度文库侵权案的成功,是值得深思的。首先, “避风港”原则已经不能对复杂多样的数字版权问题进行解决了,也不能维护众多数字版权拥有者的利益了,制定详细、行之有效的规章制度迫在眉睫;其次,即便是对百度的起诉获得成功,但是版权拥有者获得赔偿是很低的,这说明人们对数字版权的保护和重视还远远不够,甚至可以说,对于数字版权的保护力度轻得可怜。
3 结论
数字版权保护还需要一个过程,甚至对于数字版权管理规章的订立也需要一个过程,同时也还有很多潜在的版权问题没有暴露。所以,推进数字出版的发展是首要的,在发展中探索和寻求国内数字出版的盈利模式,搭建良好的数字出版平台,在实践中完善对于数字版权的管理和保护。只有形成系统规范、切实有效的数字版权管理规范,才能进一步引导数字出版生产、传播、赢利整个生态的健康发展,才能真正推动数字出版行业的快速变革,这将是个不断在摸索改进中进步的过程。 参考文献: 1 [ ]谢晶晶 网络环境下的数字版权保护研究 [ ]法制与社2014(30) 会, 2 [ ]朱远慧,王曾,曾璐 “避风港”规则下视频分享网站的J. 2010(4) 版权侵权责任认定 [] 金卡工程, 3 J. []吴琦,苏蕾方兴未艾的英国数字出版业 [ ] 编辑之2012(8) 友,