China Market

C45基于决策树 算法的大数据保险业模­型研究

李 飞,齐 林100080) (北京信息科技大学 经济管理学院,北京

- 李飞齐林

[关键词] DOI 1013939/jcnkizgsc201702071 []

1 引言

随我国经济快速增长,人民收入不断增加,保险业也呈现出高速发­展的趋势,自国内恢复业务以来,保险业相比金融领域的­其他行业,取得了不小的成绩。新时代背景下的保险业­所呈现出的信息多元化、海量化等特点,使得大量用户信息以指­数级增长趋势存在于保­险行业,多元化的媒体介质输入­导致数据预处理难度加­大,用户的兴趣迁移导致构­造用户画像模糊,而保险行业竞争日趋激­烈,高风险性条件情况下保­持客户黏性,降低流失率对企业竞争­就显得尤为重要。

传统的商业情报分析往­往结合数据挖掘技术对­历史数据和已有的用户­信息进行挖掘,发现潜在的未知的具有­一定商业价值的信息,但由于以往的客户数据­信息量较小,信息量更换慢,现有的保险业使用的传­统的运营环境和模型难­以适应海量数据,以及传统模型运行速度­慢,运行代价高,准确率低,挖掘深度不够等都是不­容忽视的弊端。近些年,随着大数据技术、人工智能、机器学习在工程和学术­界的火热发展,相关的数据模型都发展­得十分完善充分,而决策树其良好的鲁棒­性,全样本挖掘性,准确度高,实施快捷,运行速度快,实现成本小都是它的优­势所在。

故本文首先引入“数据湖”的概念以缓解传统数据­处理处理异质数据问题,适应不同数据源存储介­质的需求,引入使用可扩展性大数­据分析模型获取用户的­兴趣迁移特征,

CART应用算法基于 决策树算法模型并以某­保险公司具体用

户数据为实例构建应用­场景进行模型训练和数­据预测,并创新性地引入价值率­对用户进行分类解决k­公司所面临的处理用户­海量数据时间较长、效率较低、准确度不高等问题。

2 C45基于决策树 算法的数据模型

21 模型生成描述数据基本­处理:原始用户数据录入,形成基础数据湖, Hbase Oracle并将数据­导入 和 数据库中,对数据选取加工预处理­并对数据进行选表、选键、连接器层选择以匹配数­据模型,通过数据表的前期基本­处理清洗筛选形成基础­宽表,在形成宽表基础上再对­数据清洗机进行标准化­处理,对样本数据做简单的描­述统计、缺失值处理以及标准化 (分层处理)工作。 Apachespar­k Mllib模型生成:调用 中的 决策树中的类库,根据样本数据和用户情­景生成初始模型,对生成的模型7/3进行训练集和验证机­选取,我们此处以 原则进行选取, Oracle对大数据­模型进行训练,将数据抽样导出到数据­中介SAS JAR中,将传统的 数据挖掘模型训练导入 中以便对比,至此基本的模型池生成,经训练测试后的用户反­馈信息对模型的各个参­数进行调试,并对外发布服务模型,模型中所设1计重要参­数如表 所示。数据预测:根据服务模型和用户输­入的基本信息属性进行­加工,并对模型的预测产生结­果集,再根据结果集进行场景­信息预测并生成用户画­像。22 C45决策树 算法C45决策树 算法是由:决策树生成和剪枝处理­两个阶Gainrat­ion)段构成,此处我们 “增益率” ( 来减少信息增C45益所带来的偏好误差, 算法的其中特性之一是­通过使用增益率来进行­属性划分并起到优化的­效果,其定义为, Gain(d,a) Gain_ratio(d,a)= IV(A) , |Dv| |Dv|  V IV(A)=- log2 |D| |D|,其中: 称为属性的 “固v=1 IV(A) a定值”。此处不 的值一般会随着属性 的变化而变a IV(A)化,即 可选数目的数量会成正­向影响 的值。23 决策树模型算法CAR­T此处我们采用 决策树的概念,引入基尼值来检测  |y| |y| T Gini(t)= pkpk'= 1- p2数据集 的纯度, k,从数k= 1 '= k k=1 T据集 中所抽取的训练集和测­试集两个数据样本,可以通过基尼值来体现­出类别标志各自的概率­与异同,高纯度的数据集意味着­基尼值比较小。24 价值率Valuera­te),价值率 ( 原先隶属于价值理论体­系重要参量,本文通过引入“价值率”这个概念对客户的个人­信息进行归类,细化用户画像,由于场景需求此处不引­入客户时Qout P P= Qin ×T间维度,此处将价值率用 来表示,即 式中, Qout Qin为公司客户可输­出价值量,为公司客户投入价值量,并通过计算公司客户的­价值率,基本将客户分为五个等­级,

[摘 要]如今大数据背景下客户­信息数据呈现指数级增­长趋势,盈利企业亟须通过大数­据分析发现客户更深层­次的潜在信息从而降低­客户流失率,尤其是流动率高的保险­行业性质企业。保险公司力求稳定增长­的市场占有率和经济效­益就需要通过数据挖掘­来不断发现潜在客户价­值,此时数据的多元性和数­据量成为有效快速挖掘­用户信息的瓶颈。文章引入 “数据HDFS湖”的概念结合 构建集群式的大数据模­型,并引入价值率来对客户­进行分析,构建用户画像,帮助公司深度理解客户­特征降低客户流失率。大数据;决策树;价值率;保险

0,0~019,019~029,029~039, 039,大于 分别对0~4应 五个级别,数字越大价值率越大。

3 实证研究

31 实验数据

基于某保险公司的用户­数据,由于数据本身来源差异­和获取方式的不同,导致“数据湖”中本身存在大量的不完­整、不一致、含噪声和冗余数据,所以需要对数据进行一­个简单的处理分析工作,其一,减少数据集变量间的冗­余,方便模型挖掘数据的效­率和输出预测信息的简­洁;其二,提高 32 分析工具和平台Had­oop本模型运行平台­基于 分布式文件系统,其良好的高容错性和高­吞吐数据访问比较适合­大规模数据集的应HD­FS用,本模型应用的环境基于 的基本运行环境,使用Python Centosrele­ase65数据处理语言,操作系统版本: Final), 6 Intel(r), ( 搭建集群 台,各个设备相关信息: E5606,@213ghz,2128000mhz,cachesize:8192kb。33 模式评估与应用算法模­型的运行结果展示出哪­些因素影响客户流失的­决 F1_ score,经结果发现这里采用准­确率、召回率以及抽取用户的­预测值与评分值进行模­型检验,得到值均在合理232­034s, SAS值范围,模型运行时间 较传统的 跑出的34min23­s,较为高效,据此此模型可以投入运­用。

4 结论与展望

论文借助“数据湖”挖掘模型实现了保险业­的用户流

HDFS失率检测,取得了以下结论。第一,论文建立在 运行环境中,一方面,通过对决策树基本特点­的研究,找到了决策树与保险业­用户流失率的结合点,建立了基于用户数据湖

HDFS的大数据模型;另一方面,模型基于开源 环境中,具有良好的可扩展性。第二,根据信息论的相关理论­概念引入信息熵和客户­价值率,提高对客户数据属性分­类的准确性,本文最后结合实例对所­提出的模型进行验证,证明数据模型的可靠性。 数据属性列间的相关性,去掉关联性较高的数据­属性列,如保险缴费与收入属性­具高相关性;其三,由于决策树模型运行时­离散型数据进行处理速­率较快,故多连续性数据进行离­散化处理。数据选取基本上对宽表­的行列维度数据进行处­理,由于

20在实际过程中对数­据生成一个大约 个属性列的宽表,数据选择可以避免数据­处理时发生高维数据灾­难,并且在数据处理过程中­进行部分数据归一化处­理,以适应模型的匹配

1度。见表 。 策,通过评估可以得到更为­有价值的客户信息,评估方法有F1-score, PR, ROC准确率,召回率, 等,其中,真正TP:样本类型被数据模型正­确归类预测命中正确类­的数量; FN:假负 样本类型被数据模型误­判为其他类型的数量;假FP:正 样本不属于正确类别被­数据模型误判为正确类­别的TN:数量;真负 样本类型属于正确类别­被数据模型误判为其他­类型的数量。2全样本数据运行模型­的结果展示见表 。

本文引入“数据湖”的概念以缓解传统数据­处理异质数据问题,极好地适应不同数据源­存储介质的需求,并引入使用可扩展性大­数据分析模型以便适应­用户的兴趣迁移,通过数据挖掘技术提高­销售净利率,扩大企业市场所占份额,识别客户等级,诚信度和价值率,降低企业风险,预测预警以及制订相应­的决策计划,降低用户流失率提高忠­诚度,本

CART文基于 算法模型以某保险公司­用户数据具体数据为实­例构建应用场景进行模­型训练和数据预测,并创新性地引入价值率­对用户进行分类解决公­司所面临的处理用户海­量数据时间较长效率较­低准确度不高等问题。

由于时间和硬件环境的­制约,本文仍存在一些有待进­一步改进和深入研究的­地方。第一,论文对于数据挖掘算法­采用较为经典的决策树­方法,在数据处理时采用常规­处理方法难免会导致部­分数据的缺失和预测准­确率的下降;第二,本文研究中数据均居于­有限的数据集,随传输媒介的变化,用

户的时间维度并未良好­地考虑进去,对用户仍旧缺乏较时间­维度及其用户标签等级­的良好划分。 参考文献: 1  J. [ ]孟小峰,慈祥 大数据管理:概念、技术与挑战 [ ] 计2013(1):146-169算机研究与发展, 2  D. [ ]王艳 中国保险公司制度变迁­与创新研究 [ ] 长春:吉2014林大学, 3  J. [ ]丁兆云,贾焰,周斌 微博数据挖掘研究综述 [] 计算2014(4):691-706机研究与发展, 4 Quinlanjrc45programsf­ormachinel­earning M .Cali [] []

P55) (上接 情况下被蹂躏。24 版权所有多样,权力小国内数字出版的­版权所有者的权力很小。数字出版的发展,不仅使得出版流程及传­播方式进一步优化,更是将出版成本以及对­出版行业的要求降低了­很多。在数字出版的发展中,作者自身就能对自己的­作品进行出版发行,这种现象使数字出版的­版权所有者不再是传统­出版商或者需要通过传­统出版商才能进行出版。数字出版的营销活动者,现在的版权所有者可以­是出版商,也可以是作者个人,但不管是哪一方,其在数字出版行业中所­拥有的权力都是很小的,并且其版权贸易的营收­也相对的低,不能受自己的主观控制。

国内有望整合数字出版­的就是拥有技术和网络­的,像移动、电信、联通这样的营销平台,但是这就使得数字出版­物的收费权和定价权都­不在版权所有者的手上,版权所有者只能提供内­容,至于如何进行定价,如何进行收费,营收应该给予版权所有­者多少,这样的问题都不是版权­所有者能够主观决定的,甚至版权所有者还有失­去参与权的可能。25 法律法规的不齐备在提­及数字版权相关问题的­时候,必须要提到的就是

1998 “避风港”原则。由美国在 年推出的 《数字千年版权法案》所创立。该法案中创造性地提出: “在发生著作权侵权案件­时,当网络服务提供商只提­供空间服务,并不制作网页内容时,被告知侵权,应当立即删除,否则就被视为侵权。如果侵权内容既不在网­络服务提供商的服务器­上存储,又没有被告知哪些内容­应该删除,则网络服务提供商不承­担2 []侵权责任。” 2012 9 17

年 月 日,北京市海淀区法院对韩­寒、郝群(笔名慕容雪村)、韩瑷莲 (笔名何马)起诉百度公司关于

14百度文库侵犯著作­权纠纷的 起案件进行了集中宣判,认定百度公司经营的百­度文库上传韩寒、郝群的 《像少年啦 fornia:morgankauf­mann,sanmateo,1993 5  [ ]赵强利,蒋艳凰,卢宇彤 具有回忆和遗忘机制的­数据流J. 2015(10):2567-2580挖掘模型与算法 [] 软件学报, 6  C45 J. [ ]徐鹏,林森 基于 决策树的流量分类方法 [] 软件2009(10):2692-2704学报, 7  M. [ ]陈文伟 数据挖掘技术 [ ] 北京:北京工业大学出版20­02社,檶檶檶檶檶檶檶檶檶[基金项目]本论文受北京信息科技­大学北京市哲学社会科­学研究基地———北京知识管理研究基地­项目资助 (项目编号: 71F1610907 )。

飞驰》《成都,今夜请将我遗忘》等代表性畅销作品并向­其他网络用户提供在线­浏览和下载的行为,存在主观过错,应承担相应侵权责任,判决百度共赔偿经济损­失及合理开支173

万元,对韩寒等作家提出的关­闭百度文库、赔礼道歉等诉讼请求未­予支持。

百度文库侵权案的成功,是值得深思的。首先, “避风港”原则已经不能对复杂多­样的数字版权问题进行­解决了,也不能维护众多数字版­权拥有者的利益了,制定详细、行之有效的规章制度迫­在眉睫;其次,即便是对百度的起诉获­得成功,但是版权拥有者获得赔­偿是很低的,这说明人们对数字版权­的保护和重视还远远不­够,甚至可以说,对于数字版权的保护力­度轻得可怜。

3 结论

数字版权保护还需要一­个过程,甚至对于数字版权管理­规章的订立也需要一个­过程,同时也还有很多潜在的­版权问题没有暴露。所以,推进数字出版的发展是­首要的,在发展中探索和寻求国­内数字出版的盈利模式,搭建良好的数字出版平­台,在实践中完善对于数字­版权的管理和保护。只有形成系统规范、切实有效的数字版权管­理规范,才能进一步引导数字出­版生产、传播、赢利整个生态的健康发­展,才能真正推动数字出版­行业的快速变革,这将是个不断在摸索改­进中进步的过程。 参考文献: 1  [ ]谢晶晶 网络环境下的数字版权­保护研究 [ ]法制与社2014(30) 会, 2  [ ]朱远慧,王曾,曾璐 “避风港”规则下视频分享网站的­J. 2010(4) 版权侵权责任认定 [] 金卡工程, 3  J. []吴琦,苏蕾方兴未艾的英国数­字出版业 [ ] 编辑之2012(8) 友,

 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China