基于 Hadoop 环境 BP改进算法的脉象识别应用研究

CJI (Traditional Chinese Medicine) - - News -

盛雅兰,王珍,佘侃侃南京中医药大学信息技术学院,江苏 南京 210023

摘要:目的 分析脉象识别误差大小的影响因素,提高对海量脉诊数据的处理速度,探索减小脉象主观识别误差的方法。方法 运用基于 Hadoop 环境的 MapReduce 分布式计算方法改进BP算法,采用改进的BP 算法对脉诊样本数据进行自学习,从而减小拟和误差。将中医电子脉诊仪采集的脉诊数据作为神经网络输入层,采用动量-学习率自适应调整快速BP算法对神经网络进行训练。结果 在训练集(75%)768 M共 35 890 条数据中,单机模式正确预测29 150 条,正确率为 81.22%;MapRedece 并行改进的BP算法模式正确预测35 841条,正确率为 99.86%。结论 与传统 BP 算法相比,基于 Hadoop 环境的 MapReduce 分布式计算方法改进的BP算法模型拟合度误差更小,精确度更高。

关键词:Hadoop;MapReduce;BP 算法;脉象识别

DOI:10.3969/j.issn.1005-5304.2018.03.023

中图分类号:R2-05;R241.1 文献标识码:A 文章编号:1005-5304(2018)03-0102-05

Application Research on BP Algorithm in Pulse Recognition Based on Hadoop Environment

SHENG Ya-lan, WANG Zhen, SHE Kan-kan

Institute of Information Technology, Nanjing University of Chinese Medicine, Nanjing 210023, China Abstract: Objective To analyze the factors of errors in the pulse recognition; To improve the speed of processing massive data; To explore the method of reducing the subjective errors in pulse recognition. Methods BP algorithm based on distributed MapReduce in Hadoop environment was optimized. Optimized BP algorithm was used to self-learn pulse-sequence data to reduce fitting errors. The pulse-counting data collected by TCM electronic pulse diagnosis instrument were used as input layer of neural network. Momentum-learning rate adaptive fast BP algorithm was adopted to train neural network. Results In the training set (75%) of 768 M, a total of 35 890 data were collected, and 29 150 items were correctly predicted in stand-alone mode, with the correct rate of 81.22%. MapRedece parallel improved BP algorithm model correctly predicted 35 841 items, with the correct rate of 99.86%. Conclusion Compared with traditional BP algorithm, BP algorithm based on distributed MapReduce in Hadoop environment has smaller fitting errors, with higher accuracy.

Keywords: Hadoop; MapReduce; BP algorithm; pulse recognition

③数据聚合:在把经过 Map 处理过的数据传递给 Reduce 前,MapReduce 机制会将每个节点上神经网络的所有权值归为1个权值组,聚合所有节点上的权值组,传入 Reduce 进行下一步运算。

④Reduce 处理:Reduce 函数接收到权值组后,使用 HDFS 中的标准值对其进行输出测试,并对结果进行误差精度分析和排序,选择误差精度最高的1/6 置于下一次的 MapReduce 循环当中。伪代码如下:

Reduce ()

{

使用测试集测试神经网络的误差while (误差不在规定范围内)

{

取误差较小的 1/6 组将权重返回给map过程迭代训练

}

神经网络训练完成保存计算结果

}

实现 BP算法的 MapReduce 化的流程图见图3。

2 Hadoop 环境 BP算法脉象识别2.1 实验环境

采用 7 台普通台式机,单机配置为:CPU 型号Intel® Core™ i5-7400;CPU 最高频率 3.50 GHz;CPU缓存 6 Mb;内存 8 G,DDR4;硬盘 1 TB。Hadoop

集群配置为:1 台设置为主节点,配置 JobTracjerhe和 NameNode ,其余 6 台设置为从节点,配置TaskTracker 和 DataNode。Hadoop 集群主要软件的安装版本为 JDK1.8,Hadoop2.7.3。

2.2 实验数据采用食指、中指、无名指3根手指在腕动脉寸、关、尺3个部分进行举、按、寻操作,通过脉搏波动

频率反馈的信息判断人体的机能状态[12],采用吕炳奎

发明的中医电子脉诊仪来测出辨识指标[13]。Xi={X1,

X2,X3,X4,X5,X6,X7,X8},X1~X8分别表示左寸脉、左关脉、左尺脉、右寸脉、右关脉、右尺脉、左

手脉、右手脉[14],Yi={Y }表示脉象的实际值,脉象数据示例见表1。

2.3 预测模型将中医电子诊脉仪的8个输出结果作为神经网络的输入层数据,并决定输入层节点个数。中医脉象类型的指标个数决定输出层节点数,隐含层节点个数的确定采用公式 ,式中 m 为隐节点数,r 为输入层节点数,n为输出层节点数,确定大概节点个数,在此基础上探索m+1、m-1等节点个数的网络,直至得到最优结构性网络8∶6∶1。

将 1 G条脉象数据样本分为75%训练集(768 M)

[15-17]和 25%测试集(256 M),采用动量-学习率自适应调整快速 BP 算法对神经网络进行训练。训练结束时的网络最终误差设定为10-4,训练过程采用自动停止,即当网络输出误差达到10-4,网络训练过程自动停止。

在实验中,随机生成n组初始化的权值数组,并将首次迭代次数设置为5000,以达到基本的误差收敛平缓阶段,然后将权重组中误差精度最高的1/6 选出,进入下一次MapReduce过程,程序设置时间上限为3 h

和误差接受范围为(0~0.000 1),如果运算时间达到了规定的上限时间,误差还没有被接受,将继续选择误差最接近的 1/6 组,进行下一次 MapReduce 过程,依次循环下去,若误差到达约定范围之内,便跳出循环,接受权重。预测结果见表2。

在 768 M共 35 890条数据中,单机模式预测正确预测 29 150 条,正确率为 81%;MapRedece 并行模式正确预测 35 841 条,正确率为 99.86%。表明Hadoop 环境下的BP算法能够准确地进行脉象识别。

2.4结果分析

BP 算法传统单机串行模式下要到达程序设定的误差精度,普通的 PC 端难以承受该计算量,运算时耗太长。本研究针对上述问题设置了2个对照组。

第 1 组:使单串行机模式和 MapReduce 并行模式在同一时间点运行,并在运行至30 s时截止取得权值,然后对 256 M数据进行运算并与标准数据比较取得误差作图,见图4。

第 2 组:将 2个程序分别设定相同的误差接受范围,并在同一个时间点运行,比较2个程序到达误差范围所需的时间,见表3。

图4表明,在程序运行30 s时终止程序,对256 M实验数据传统串行处理模式和 MapReduce 链式并行 处理模式的所能达到的误差的精确度对比,结果显示MapReduce 链式并行处理模式的误差精度远高于传统串行处理模式。

表 3 表明,要到达相同精度的误差区间时, MapReduce 链式并行处理模式所用时间远少于传统串行模式。

网络训练学习完毕后,将检验样本输入神经网络进行脉象分类检验。相同时间内,并行 MapReduce所能达到的误差精度比传统单机串行所能到达的精度要高,当对误差的精度要求提高达万分之一点时,传统的计算方法甚至无法算出符合要求的权值,且运算时间超过1d,资源消耗巨大。而 MapReduce 模型下的计算仅需4 min便能接受误差,返回多组符合要求的权值。通过分析脉象识别中误差大小的影响因素,可提高对海量脉诊数据处理的速度,探索减小脉象主观识别误差的方法。

3 小结诊脉“在心易了,指下难明”,学习者需长期积累经验且难以达到精确、客观、统一的标准。计算机技术、信号处理技术、人工智能等多种现代技术的出现,促成了脉象仪产生,脉诊相关研究逐渐呈现信息化发展态势。将多种计算机信息技术与中医研究相结合,使中医脉诊的客观化、标准化成为可能。

本研究基于 Hadoop 环境改进的 BP 神经网络算法大大减小了脉象识别中 BP 算法模型的误差,实验结果表明,采用 Hadoop 平台下的链式 MapReduce 方式建模,在时间性能和准确率上远远优越于传统的串行处理方式。对于中医脉象的识别分类和辅助诊断疾病具有一定的临床应用价值。

参考文献:

[1] 朱晨杰,杨永丽.基于 MapReduce 的 BP 神经网络算法研究[J].微型电

脑应用,2012,28(10):9-12,19.

[2] MILLER M. Cloud computing:Web-based applications that change the way you work and collaborate online[J]. Que Publishing Company,

2008,82(3):303-318.

[3] 崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].

计算机研究与发展,2012,49(S1):12-18.

[4] DEAN J. Experiences with map reduce:An abstraction for large scale computation[C]//Proceeding of the 15th International Conferenceon Parallel Architectures and Compilation Techniques. Washington DC:IEEE Press, 2006.

[5] 郝树魁.Hadoop HDFS 和 MapReduce 架构浅析[J].邮电设计技术,

2012(7):37-42.

[6] 武森,冯小东,杨杰,等.基于 MapReduce 的大规模文本聚类并行化[J].

北京科技大学学报,2014,36(10):1411-1419.

[7] YANG D S, LIU Z W, ZHAO Y, et al. Exponential networked synchronization of master-slave chaotic systems with timevarying communication topologies[J]. Chinese Physics B,2012,

21(4):155-162.

[8] 王颖纯,白丽娜.基于 BP 神经网络的中医脉诊体质类型判定[J].中医

杂志,2014,55(15):1288-1291.

[9] 张雪伟,王焱.基于 Sigmoid 函数参数调整的双隐层 BP 神经网络的板

形预测[J].化工自动化及仪表,2010,37(4):42-44,48.

[10] 黄山,王波涛,王国仁,等.MapReduce 优化技术综述[J].计算机科学

与探索,2013,7(10):885-905.

[11] 吴斌,刘心光.一种基于改进的链式 MapReduce 的并行 ETL 应用[J].

电信科学,2013,29(12):1-8.

[12] 朱钦士.切脉“寸关尺”有何依据[J].大众科学,2014(12):32-33.

[13] 张丽娜,李垠含,张文顺.脉诊仪在实验教学中存在的问题及改进对

策[J].辽宁中医药大学学报,2011,13(6):271-272.

[14] 党宏智.寸关尺部位脉搏信息检测系统[D].兰州:兰州理工大学,

2011.

[15] 宫宁生,钱春阳,张媛.一种 BP 网的学习速率与动量项自适应算法[J].

小型微型计算机系统,2013,34(8):1872-1876.

[16] MAN Z H, WU H R, LIU S, et al. A new adaptive backpropagation algorithm based on Lyapunov stability theory for neural networks[J]. IEEE Trans on Neural Networks,2006,17(6):1580−1591.

[17] WONG W K, YUAN C W M, FAN D D. Stitching defect detection and classification using wavelet transform and BP neural network[J]. Expert Systems with Applications,2009,36:3845-3856.

(收稿日期:2017-04-10)

(修回日期:2017-05-03;编辑:向宇雁)

开放科学(资源服务)标识码(OSID)内含全文PDF和增强文件

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.