Chinese Journal of Ship Research
基于边缘计算的船舶大型主动隔振系统分布式控制架构
本文网址:http://www.ship-research.com/cn/article/doi/10.19693/j.issn.1673-3185.03231 期刊网址:www.ship-research.com
引用格式:许万,张世涛,夏瑞东,等.基于边缘计算的船舶大型主动隔振系统分布式控制架构[J]. 中国舰船研究, 2024, 19(2): 207–214.
XU W, ZHANG S T, XIA R D, et al. Edge computing-based distributed control architecture for large-scale active vibration isolation system in ships[J]. Chinese Journal of Ship Research, 2024, 19(2): 207–214 (in Chinese).
许万*1,张世涛1,夏瑞东1,刘松2
1湖北工业大学机械工程学院,湖北武汉 430068 2海军工程大学船舶振动噪声重点实验室,湖北武汉 430033
摘 要:[目的]旨在解决现有主动隔振系统集中式控制架构可靠性低、抗风险能力弱、实时性低的问题,结合隔振系统与边缘计算研究现状,设计一种基于边缘计算的船舶大型主动隔振系统分布式控制架构。[方法]首先,分析集中式与分布式控制方法的特点;然后,对控制系统整体架构进行研究,设计系统的层次结构与整体架构,将其划分为云、边和端3个层次,并详述各层的架构设计与联系;最后,设计实验平台,通过实验测试系统的可靠性和实时性。[结果]结果表明,所设计的系统架构在突发状况下依然正常运行、稳定可靠,可将时钟同步偏差缩小到1 µs,提高了系统实时性。[结论]该系统架构设计合理、高效,可有效提升隔振系统的可靠性、抗风险能力和实时性。关键词:主动隔振;控制架构;可靠性;实时性;边缘计算
中图分类号: U662.9文献标志码:A DOI:10.19693/j.issn.1673-3185.03231
Edge computing-based distnribduted control architecture for large-scale active vibration isolation system in ships
XU Wan*1, ZHANG Shitao1, XIA Ruidong1, LIU Song2
1 School of Mechanical Engineering, Hubei University of Technology, Wuhan 430068, China
2 National Key Laboratory on Ship Vibration and Noise, Naval University of Engineering , Wuhan 430033, China
Abstract: [Objective]In order to tackle the challenges of low reliability, weak risk resistance and limited real-time performance in existing centralized control architectures for active vibration isolation systems, and considering the current state of research on vibration systems and edge computing, this study proposes a distributed control architecture for large-scale shipborne active vibration isolation systems based on edge computing.[ Methods] First, the traits of the centralized and distributed control approaches are analyzed. Second, the entire architecture of the control system is studied, leading to the design of its hierarchical structure and overall layout, which is partitioned into three levels: cloud, edge and end. The architectural design and interconnections of each level are expounded upon in detail. Finally, an experimental platform is created, and the system's reliability and real-time performance are evaluated through testing.[Results]The experimental results indicate that the designed system architecture continues to operate normally under sudden circumstances, demonstrating stability and reliability. Moreover, the clock synchronization deviation is reduced to 1 microsecond, enhancing the system's real-time performance.[ Conclusion] The system architecture is rationally and efficiently designed, effectively enhancing the reliability, risk resistance and real-time performance of the vibration isolation system
Key words: active vibration isolation;control architecture;reliability;real-time performance;edge computing
收稿日期: 2022–12–27 修回日期: 2023–04–04 网络首发时间: 2023–06–28 15:54
基金项目:船舶振动噪声重点实验室基金资助项目 (6142204200709,6142204220104)
作者简介: 许万,男,1979 年生,博士,教授。研究方向:边缘计算,移动机器人,工业以太网技术。E-mail:xuwan@mail.hbut.edu.cn张世涛,男,1998年生,硕士生。研究方向:边缘计算与负载均衡。E-mail:1336709970@qq.com
*通信作者:许万
0 引 言
随着船舶朝大型化方向发展,隔振系统也呈现出大型化、智能化的趋势,大量电子设备被应用到隔振系统中[1]。隔振系统分为主动隔振与被动隔振,本文主要研究主动隔振系统的控制架构。在当前的主动隔振系统中,大量电子设备缺乏有效的管理体系,导致系统运行时的可靠性降低、抗风险能力减弱。同时,数据的爆炸式增长也为主动控制造成极大的计算压力,带来系统计算任务处理不及时、系统功耗增加等负面影响。主动隔振系统作为船舶减振降噪的主要技术手段之一[2],若其发生故障将极大影响船舶航行安全和任务的完成。因此,开展高可靠性、高实时性智能化隔振控制系统研究十分必要。控制系统的设计研究可分为集中式控制系统和分布式控制系统。目前,隔振系统的研究多基于集中式的控制系统。例如,李俊丽等[3] 设计了一种主动隔振装置,有效提高了抗扰动能力;施亮等[4] 设计了一种基于 CAN总线网络的隔振装置控制系统,提升了抗干扰能力和冗余度。集中式控制系统的主要问题是可靠性低分布式控制系统更具优势。在分布式控制系统的,与之相比,研究方面,周奇才等[5]将分布式系统运用到桥式起重机中,有效提升了系统的可靠性与智能化水平;Zhang 等[6]将边缘计算技术应用于振动信号的智能故障检测中,结果表明,其有效提升了系统的智能化程度和可维护性;阮正平等[7] 将边缘计算运用到电力系统中大幅提升了系统的可靠性和实时性;Qiu 等[8]详细分析了边缘计算技术在工业互联网中的优势,指出其可有效降低系统时延及提升系统性能。综上,将边缘计算运用到隔振控制系统中来提升实时性与可靠性是可行的。边缘计算是一种在网络边缘执行数据处理任务的新型计算模型[9-10]。该模型通过将算力下沉到数据生产者附近,使得边缘计算保证了数据的实时性与安全性[11]。自带分布式属性的边缘计算技术不仅有效克服了集中式控制系统的局限性,更好地满足了大型隔振系统监控节点数多、数据吞吐量大、网络同步性能要求高等要求,为功能扩展及提升系统智能化程度提供了基础平台及解决方案。总之,基于边缘计算的隔振系统分布式控制架构可有效提升隔振系统的可靠性与实时性,满足隔振系统大型化、智能化发展的需求。本文将结合当前隔振系统和边缘计算技术研究现状,设计基于边缘计算的船舶大型主动隔振系统分布式控制架构。首先,分析传统隔振系统控制架构的局限性;然后,对系统整体架构进行研究,设计控制系统整体架构,将其分为云、边、端 3个层次,并详述各层次的架构、功能和各层次间的关系;最后,通过实验验证系统的离线自治、负载均衡与通信性能。
1控制系统比较分析
集中式控制系统网络拓扑如图1所示。该系统由控制主站对所有设备进行统一的数据处理与命令调控[12]。虽然集中式控制系统实施架构较简单,但在遇到单点故障时,其可靠性低、抗风险能力弱[13],且可扩展性和灵活性也均较差,不能有效满足隔振系统大型化、智能化的需求。
于集中式控制系统,分布式控制系统底层设备将分布式控制系统网络拓扑如图2所示。相较不再由控制主站统一控制,而是交由多个控制单元协同控制减少了端到端之间的通信时延。而且,单个控制,这使得网络流量大幅降低,进一步单元计算负载大幅降低,保证了数据处理的实时性。此外,各控制单元间冗余交互,在单节点发生故障时仍能维持正常运行,提升了系统的可靠性与抗风险能力。同时,分布式控制系统还具备优秀的可扩展性与灵活性,通过将数据传输至服务器中,能够实现数据可视化、数据挖掘等高级应用,从而提升系统智能化程度[14]。
2基于边缘计算的船舶大型主动隔
振控制系统架构设计
2.1层次结构设计
结合主动隔振控制系统与边缘计算的研究现
状,规划基于边缘计算的主动隔振控制系统层次结构,其主要由现场层、边缘计算层、网络交换层、应用层组成,如图3所示。首先,位于现场层的传感器等设备通过边缘计算层接入集群并交换数据,现场层元数据在边缘计算层进行计算分析;然后,通过网络交换层将处理后的数据上传至应用层,在应用层中通过数据挖掘分析接收到的海量数据;最后,在应用层将有价值的信息通过可视化信息展现在用户面前。1) 现场层是系统的基础组成,管理着隔振系统中所有传感器和执行器设备,并连通端侧设备与边缘节点。现场层的主要功能包括:设备管理,大型隔振系统传感器数量众多,在长时间运行情况下设备发生故障的概率会大幅增加,现场层通过识别不同传感器的ID及设备状态信息上报的能力,能够快速插拔新设备;数据采集,在大型隔振系统传感器数量众多的情况下,现场层通过 EtherCAT协议进行传输,可快速采集并传输设备数据,确保实时性; I/O 控制具备,即将控制命令通过 I/O下发到指定设备。2) 边缘计算层是系统的核心组成,其依托边缘计算系统 KubeEdge可将算力下沉到数据生产者附近。KubeEdge对网络通信时延影响较小,能够有效满足隔振系统低时延要求[15],确保数据处理的实时性。边缘计算层的主要功能包括:集群管理,大型隔振系统节点数量可达上百个,而这上百个节点硬件平台可能并不统一(如工控机、树莓派等),故一个有效的集群管理体系是隔振系统能否作为一个整体协调工作的关键因素;数据处理,即对现场层数据进行计算分析。3) 应用层是系统的关键组成,其主要功能包括:振动建模,即借助深度学习算法,对数据集进行数据挖掘,以获取更多有价值的隐藏信息;故障预警,即通过数据挖掘建立的深度学习模型分析现场层的数据,实现故障预警、故障定位等功能,为故障预防、快速恢复提供重要参考依据,可大幅提升平台可维护性;数据可视化,即通过融合各层次信息,将隔振系统状态以可视化方式展现,使用户可更加直观地了解当前系统的状态;数据存储,即存储整个隔振系统的重要信息,在大幅减少边缘节点数据存储需求的同时,为节点故障恢复提供保障,进一步提升系统的稳定性;负载均衡,即当某个节点宕机或者计算负载过高、资源占用率达到设定阈值时,能够将部分计算任务卸载到其他合适节点[16]。
2.2 控制系统整体架构设计
为更好地满足隔振系统高可靠性与高实时性需求,对 KubeEdge 边缘计算系统、Kubernetes[17] 集群管理系统(即 K8s)和 Linux操作系统进行裁剪优化。通过裁剪 KubeEdge 的设备管理功能,由自研映射模块代替,减少数据转发步骤,提升数据处理速度;通过关闭Kubernetes 不必要的API Server扩展,减少事件记录,并采用 Containerd 容器在运行时进一步降低系统资源占用;在 Linux 系统上使用实时操作系统 PREEMPT-RT 内核补丁,提高系统的实时性能。结合图3中规划的层次结构,设计基于边缘计算的船舶大型主动隔振系统分布式控制架构,如图 4所示。该架构分为端−边−云3个层次,三者之间相互协作完成所需功能。1) 端,包括传感器、执行器和高速测控单元(对应于图3中的现场层)。传感器采集隔振系统的原始数据,并上传到边侧节点;执行器根据边侧节点下发的命令调节(如气囊压力等参数)来主动缓解机械装置产生的振动;高速测控单元无需丰富的硬件资源,成本可控,且多个测控单元可通过 EtherCAT总线同时接入同一个工作节点,适合在隔振系统上大量布置,能够有效满足隔振系统大型化需求。数据采集点位安装的传感器被接入到高速测控单元,后者通过 EtherCAT 接入边侧工作节点。每个高速测控单元各自连接及管理传感器和执行器,获取传感器数据并反馈传感器状态,以及接收来自工作节点的指令,控制电磁阀等执行器。高速测控单元不作任何复杂的数据处理,以保证数据获取的实时性、时钟高同步性为主。2) 边,囊括了整个系统的工作节点,介于云
侧和端侧之间(对应于图3中的边缘计算层)。边侧设备接收来自云侧的指令调整业务应用(其中,映射服务具有设备管理、状态监控、数据转换
等功能),将 EtherCAT 数据解析后发布至 EMQX (高性能 MQTT消息服务器)中,再应用订阅相关话题即可获取到端侧的相关数据。通过映射获取的数据最终有两个去向:储存到数据库,即为节点离线自治提供数据恢复支持,若网络中断,边侧设备无法连接云侧管理节点,此时边缘节点仍可使用本地持久化的数据而正常工作,实现边缘自治的目的;上传到服务器,即作为深度学习训练的数据集或者移作他用。云与边间使用基于 WebSocket 协议的通信机制,以保证可靠的数据传输;云与端间无需直接通信,可大幅降低带宽占用并减少网络拥堵。3) 云,是整个系统集群的中心,汇集了集群的所有信息(对应于图3中的网络交换层与应用层)。用户可通过K8s API Server 访问集群查询到集群的状态信息并操作集群资源。对于相同 CPU 架构(如 X86, ARM)的业务应用(如故障预警),只需根据 Dockerfile 构建对应的镜像,再通过 K8s API实现一键部署。因此,系统具备了较好的可扩展性,可满足隔振系统的智能化需求。
3 系统设计与实验
为验证基于边缘计算的主动隔振系统分布式控制架构设计的可行性、可靠性与实时性,搭建了一个含多个异构节点、多终端设备的实验平台,设计了一款配合使用的系统监管软件,并采用基于 CAN总线的隔振系统作为对照实验平台。实验项目主要包括离线自治、负载均衡和通信性能的测试,并将按图5所示依次开展。
3.1 实验平台设计
图 6为实验平台网络拓扑,其由端侧设备、边缘节点和中心云3个层次组成。所有节点均在同一局域网内,经 WiFi或网线与网关连接,实现网络互通。表1给出了实验平台软硬件环境,其包含了主流 CPU 架构( X86 与 ARM)设备,并按照节点 1~3的计算机硬件性能将20个端侧的高速测控单元分为3 组(对应图 6所示端侧设备中方框标注区域)。其中,第 1组包含 3个单元,第2 组 10个单元,第3组 7个单元,并分别接入节点1~3。测控单元采用环网拓扑结构,节点互为冗余主站,旨在保证系统的低延迟和可靠性。为便于一般操作人员使用,设计了隔振系统监管软件,主界面如图7所示。软件可实时获取系统数据,可视化展示系统的状态。
3.2 系统实验测试
本节主要介绍实际运行过程中系统可能存在的突发情况所进行的实验测试。通过离线自治与负载均衡验证系统的可靠性,通过通信性能验证系统的实时性与通信的可靠性。
3.2.1 离线自治
在隔振系统发生内部故障或受到外部冲击导
致故障时,节点无法与其他节点通信而能够独立执行任务。此时,离线自治可以为系统继续运行提供保障。节点离线自治主要体现在两个方面:一是当节点与管理节点失去网络连接后,仍能根据之前的部署持续运行,并将数据本地持久化,待连接恢复后同步数据;二是节点因故障重启后,可根据之前的本地持久化数据恢复到原来的工作状态。1) 失去网络连接。通过人为断开节点2的网络连接,截取该节点实验日志,如图8所示。网络断开后,节点首先尝试重连,失败后再启用离线自治功能。断网时间约 110 min,自治过程中正常处理端侧数据,未抛出错误提示,表明离线自治功能已生效。网络恢复后开始同步数据,重新由主控节点纳管。2) 故障重启。人为对节点2进行上下电操作,截取实验日志,如图 9所示。重启后,节点恢复到断电前的工作状态,业务正常执行。在提示节点2挂起后约165 min 时,对节点 2重新上电。上电后约15 s 即重新上线运行。除去系统引导所需时间(约10 s),节点在约5 s内完成应用启动和重新上线等动作。
上述两项实验结果表明,在节点网络断开或者节点遭遇故障重启等突发情况时,依靠离线自治功能,系统仍能继续正常工作,体现了系统具备较好的可靠性与抗风险能力。
3.2.2 负载均衡
在实际工况中,隔振系统某个节点失效将导致隔振系统的振动幅度增大。为弥补失效带来的影响,需更高频次的控制,但这将造成节点资源利用率上升。而负载均衡可予以有效解决。负载均衡工况按照节点是否存活分为两类:一是节点宕机,即节点死机、断电时导致节点完全失去工作能力;二是节点存活,包括 CPU计算负载过高, CPU占用率超过设定的阈值,以及节点失去与中心云的连接但数据处理等业务应用正常运行。针对上述情况,本文基于 K8s制定了负载均衡策略,实现了任务的智能调度。具体如下: 1) 节点宕机。通过管理节点,将数据处理任务卸载到其他同类节点,节点重新上线后将任务恢复到原来状态。实验中人为将节点 断电 通过观察端侧设备与节点日志信息和资源利用率来判断可行性。如图 10 所示,在约 24 min时关闭节点2 后,负载均衡生效,节点1 和 3接收到分配任务指令,开始处理节点 2的数据, CPU占用率显著增加。此时,节点 2连接的端侧设备仍正常工作,表明节点 1 和 3已接管节点2的任务。在45 min 时重新上电后,任务恢复到原来状态,负载均衡关闭。2) 节点存活。(1) 在节点失去与中心云连接时,此时,依托于设备管理功能,中心云根据其同类节点反馈信息判断该节点是否正常工作。正常工作则不进行调度,否则按照节点宕机处理。实验中,仅断开节点1的网络连接,通过各节点日志与控制台资源利用率来判断有效性。实验结果表明,断开节点1的网络连接后,节点依靠离线自治能力继续运行,日志显示未触发负载均衡动作,各节点CPU利用率无明显变化。(2) 在 CPU负载超过设定条件时,将其数据处理任务部分卸载到其他同类节点,之后再恢复到原来的状态。实验设置的条件如下: CPU负载阈值为 90%,持续时间大于等于20 s。实验使用 stress-ng 压测CPU负载,使用 sysstat 工具记录资源利用率,通过日志与资源利用率判断有效性。图 11所示为实验结果。由图可见,在28 s 时刻节点 3使用压测程序使得 CPU负载增加到了95% 左右,在 20 s后触发负载均衡,节点 3的CPU利用率降至 80% 左右;节点 1和节点 2 CPU利用率有不同幅度的增加;停止压测程序后各节