数据挖掘在短波监测数据分析中的应用设计
刘曦元,周忠超
(国家无线电监测中心云南监测站,昆明 650031)
摘要:本文对短波无线电监测数据挖掘进行应用程序设计,简述了部分统计学算法在处理短波无线电监测数据过程中
的实际应用。
关键词:数据挖掘;监测数据d o I:10.3969/J.ISSN.1672-7274.2019.02.020
中图分类号:TP399 文献标示码:A 文章编码:1672-7274(2019)02-0064-04
1 引言
数据挖掘的目的是把隐没在大量看起来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。随着无线电监测事业的发展及监测技术的革新,无线电监测数据被源源不断的记录下来,对记录下来的数据进行科学的分析及合理的统计,可获得更为准确的信号发射规律,进而深入研究监测数据背后所蕴含的意义,为无线电监测提供数据辅助,探索新形势下的短波监测方法。因此,本文针对短波无线电监测数据结合软件开发技术,进行多角度、多维度的数据挖掘应用设计,希望为短波无线电监测提供更为强而有力的技术支持,为无线电短波频谱管理提供数据保障,为今后更科学、合理的进行短波监测工作提供数据依据。
2 软件总体设计
2.1 软件架构
监测数据的数据挖掘是一个较为复杂且繁琐的过程,其涉及复杂算法和庞大数据,同时,其使用的数据可能存在敏感性,因此,本软件设计使用了桌面客户端的形式,提供强大的可移植性,并使用MVC的设计模式,即模型-视图-控制的形式,提供简易的操作。系统的总体设计结构如图1所示。
本系统的设计目标如下:通过读入外部数据(excel表格数据或xml数据)进行短波无线电监测数据的数据建模,然后按照数据的有效性定义进行数据清洗过滤,剩下的有效数据进行统计分析,达到数据挖掘的目的。
备注:①信号分析在本文中含义为对信号的分析,即分析信号的频率、带宽、调制模式和发射时间
等。②短波无线电监测数据挖掘指通过对信号分析产生的数据进行统计分析,得到有用数据的过程。③数据的有效性定义为规定目标数据的有效属性,例如短波信号频率在3-30MHZ之间,超出频率范围则被视为无效数据。
2.2 目标数据
本设计使用短波监测数据进行数据挖掘,短波监测数据包含信号的频率、带宽、调制模式、监测时间等数据,其每一项均称为数据项。本设计使用的数据项的数据类型包含双精度浮点数字类型,例如频率和带宽;字符串文本类型,例如调制模式;时间类型,例如监测时间等。
备注:双精度浮点数(double)是计算机使用的一种数据类型,使用 64 位(8字节) 来存储一个浮点数。它可以表示十进制的15或16位有效数字,其可以表示的数字的绝对值范围大约是:2.23*10^308~1.79*10^308。
2.3 软件流程结构设计
软件启动后,提示人工选择数据源,按照每条属性逐一选择过滤条件,之后选择算法,选择统计的数据项,最后将由软件给出对应的统计图,参照统计图可得出本次数据挖掘的信息。
3 数据分析使用的方法及算法
3.1 单项分析中对数字项进行统计的方法及算法
对单项为数字项的数据进行统计可采用频率分布直方图来显示频率分布及正态分布曲线算法来计算和表示数据的分布规律。频率分布直方图的一般画法:
(1)先求出极差
极差公式为:
R极差=xmax-xmin
极差=组数据中的最大值-组数据中的最小值
(2)决定组数和组距
组数拥有两种可用公式,择一而用即可。组数一般公式为:k= N组数经验公式为:k=3.332lgn式中,N为组中数据的个数,公式的值均四舍五入向上取整。R
组距公式为: l = 即极差除以分组数。k
( 3 )根据以上公式,按照组号、组坐标、频数统计出列表:
组号可从1开始依次增加,组坐标除第一组为
Xmin+(ι即组数据中的最小值加组距),其余组坐标均为上一组坐标加组距。频数除第一组为开区间,其余组为左闭右开的半开半闭区间。由此可形成频率分布直方图,可直观显示频率分布。在此基础上,可增加正态分布曲线来探究数据的分布规律。
正态分布曲线的公式为:
式中, x为本组数据的频数;μ为中心值(均数);σ为标准差。
中心值(均数)公式为:
中心值=一组数据之和/数据的个数。标准差也被称为标准偏差,或者实验标准差,公式如下所示:
标准差=方差的算术平方根(即所有数减去其均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差)。
正态分布曲线是一种概率分布。生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似表示。
3.2 单项分析中对时间项进行统计的方法与算法
单项分析中对时间属性进行分析,其意义在于分析探究信号出现的规律,因此,可将信号出现的时间进行计数统计。将时间信息做标准化转换,形
成如“yyyy-mm-dd-hh-mm-ss”的形式即“年-月
日-时-分-秒”的时间格式。将总数据规范化,存入链表中,对链表进行迭代从而遍历所有数据。在迭代中,首先检查当前数据的时间属性是否为空,为空则跳过此条数据,不为空则提取当前时间,进行标准格式转换,然后截取所需时间的文本段,例如:
需要统计每年每月所产生多少数据则可截取“yyyymm”为key,将其放入一个map集合中,当map集合中已有当前key则key对应的数值+1 ,反之则建立
当前key所对应的数据并将计数存为1。当迭代结束后,map集合中所存储的数据即为每年每月所产生数据的二维集合,再次将map集合转为链表可得到形如xxxx年xx月有xx条数据的表格信息。链表迭代的流程图如图3所示。
备注:链表(Linked list)是一种常见的基础数据结构,是一种线性表,但是并不会按线性的顺序存储数据,而是在每一个节点里存到下一个节点的指针(Pointer)。由于链表可以不按顺序存储,链表在插入的时候可以达到O(1)的复杂度,比另一种线性表顺序表快得多,但是查找一个节点或者访问特定编号的节点则需要O(n)的时间,而顺序表相应的时间复杂度分别是O(logn)和o(1)。
Map集合提供了key到value的映射,Map中不能包含相同的key值,每个key只能影射一个相同的value。key值还决定了存储对象在映射中的存储位置。但不是key对象本身决定的,而是通过散列技术
进行处理,可产生一个散列码的整数值,散列码通常用作一个偏移量,该偏移量对应分配给映射的内存区域的起始位置,从而确定存储对象在映射中的存储位置。
3.3 多项分析中对数字项和文本项进行统计的方法与算法
在多项分析中,对数字项和文本项的统计基本上是单项数据分析的拓展,对数字与数字项、数字与文本项的联合分析,主要依托于对数据的分类提取,例如信号频率与调制方式的联合分析:将频率数据按照解调方式分成若干组,在对每组进行单项
数据分析,可得到诸如FM调制模式下,信号在频谱
上的分布规律等分析结果。
特别要提到的是对于数字与数字项进行分析时,可先计算其相关性。计算两组数字项的相关性可使用皮尔逊相关系数来表示,一般情况下,相关
系数R>0.9为高度相关,0.75 的结果小,并不一定表示不相关。相关系数计算的应该是线性相关系数,相关系数是用以反映变量之间相关关系密切程度的统计指标。 相关系数的简单公式为: 式中,COV(X,Y)为X集合与Y集合的协方差;D (X)为X集合的方差;D(Y)为Y集合的方差。协方差COV(X,Y)公式为: Cov(x,y)=e(xy)-e(x)e(y) 式中,E(X)为X集合的期望;E(Y)为Y集合的期望,等同于各集合的平均数。E(xy)公式为: 式中,n为数据的个数。方差公式为: 式中, x为X集合的均数。通过上述描述的公式,计算可得两个集合的相关系数。 4 结束语 4.1 实际应用结果 通过上述的软件算法应用,进行短波监测数据的数据挖掘:单项数据分析,主要计算本项数据的分布概率及期望,可实际运用于对短波数据的频率进行数据分析,可得出频率分布直方图及频率分布的正态曲线图,通过观察正态曲线图,可得出频率的实际使用情况。多项数据分析在单项数据分析的基础上加入了分类,可实际运用于频率与调制模式的综合分析,例如将FM调制模式的频率提取出来进行单项数据分析可得知FM调制模式下信号的常 用频率。对以上简述的单项或多项数据统计按照时间分类,又可得到数据的时间变化情况,例如对频率单项分析后按照时间分类则可得知某年某月的频率使用情况。以上算法可根据需求及数据挖掘研究的深入再进行拓展。 4.2 总结 本文从软件开发的角度,结合统计学算法对短波无线电监测数据进行数据挖掘应用程序设计,并简述了部分统计学算法在实际处理短波无线电监测数据过程中的作用,增强了短波无线电监测数据的可用性,为今后更科学、合理地进行短波监测工作提供数据依据,为短波无线电监测数据分析提供新的思路。■