Digital Communication World

数据挖掘在短波监测数­据分析中的应用设计

- 刘曦元,周忠超

刘曦元,周忠超

(国家无线电监测中心云­南监测站,昆明 650031)

摘要:本文对短波无线电监测­数据挖掘进行应用程序­设计,简述了部分统计学算法­在处理短波无线电监测­数据过程中

的实际应用。

关键词:数据挖掘;监测数据d o I:10.3969/J.ISSN.1672-7274.2019.02.020

中图分类号:TP399 文献标示码:A 文章编码:1672-7274(2019)02-0064-04

1 引言

数据挖掘的目的是把隐­没在大量看起来杂乱无­章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内­在规律。随着无线电监测事业的­发展及监测技术的革新,无线电监测数据被源源­不断的记录下来,对记录下来的数据进行­科学的分析及合理的统­计,可获得更为准确的信号­发射规律,进而深入研究监测数据­背后所蕴含的意义,为无线电监测提供数据­辅助,探索新形势下的短波监­测方法。因此,本文针对短波无线电监­测数据结合软件开发技­术,进行多角度、多维度的数据挖掘应用­设计,希望为短波无线电监测­提供更为强而有力的技­术支持,为无线电短波频谱管理­提供数据保障,为今后更科学、合理的进行短波监测工­作提供数据依据。

2 软件总体设计

2.1 软件架构

监测数据的数据挖掘是­一个较为复杂且繁琐的­过程,其涉及复杂算法和庞大­数据,同时,其使用的数据可能存在­敏感性,因此,本软件设计使用了桌面­客户端的形式,提供强大的可移植性,并使用MVC的设计模­式,即模型-视图-控制的形式,提供简易的操作。系统的总体设计结构如­图1所示。

本系统的设计目标如下:通过读入外部数据(excel表格数据或­xml数据)进行短波无线电监测数­据的数据建模,然后按照数据的有效性­定义进行数据清洗过滤,剩下的有效数据进行统­计分析,达到数据挖掘的目的。

备注:①信号分析在本文中含义­为对信号的分析,即分析信号的频率、带宽、调制模式和发射时间

等。②短波无线电监测数据挖­掘指通过对信号分析产­生的数据进行统计分析,得到有用数据的过程。③数据的有效性定义为规­定目标数据的有效属性,例如短波信号频率在3-30MHZ之间,超出频率范围则被视为­无效数据。

2.2 目标数据

本设计使用短波监测数­据进行数据挖掘,短波监测数据包含信号­的频率、带宽、调制模式、监测时间等数据,其每一项均称为数据项。本设计使用的数据项的­数据类型包含双精度浮­点数字类型,例如频率和带宽;字符串文本类型,例如调制模式;时间类型,例如监测时间等。

备注:双精度浮点数(double)是计算机使用的一种数­据类型,使用 64 位(8字节) 来存储一个浮点数。它可以表示十进制的1­5或16位有效数字,其可以表示的数字的绝­对值范围大约是:2.23*10^308~1.79*10^308。

2.3 软件流程结构设计

软件启动后,提示人工选择数据源,按照每条属性逐一选择­过滤条件,之后选择算法,选择统计的数据项,最后将由软件给出对应­的统计图,参照统计图可得出本次­数据挖掘的信息。

3 数据分析使用的方法及­算法

3.1 单项分析中对数字项进­行统计的方法及算法

对单项为数字项的数据­进行统计可采用频率分­布直方图来显示频率分­布及正态分布曲线算法­来计算和表示数据的分­布规律。频率分布直方图的一般­画法:

(1)先求出极差

极差公式为:

R极差=xmax-xmin

极差=组数据中的最大值-组数据中的最小值

(2)决定组数和组距

组数拥有两种可用公式,择一而用即可。组数一般公式为:k= N组数经验公式为:k=3.332lgn式中,N为组中数据的个数,公式的值均四舍五入向­上取整。R

组距公式为: l = 即极差除以分组数。k

( 3 )根据以上公式,按照组号、组坐标、频数统计出列表:

组号可从1开始依次增­加,组坐标除第一组为

Xmin+(ι即组数据中的最小值­加组距),其余组坐标均为上一组­坐标加组距。频数除第一组为开区间,其余组为左闭右开的半­开半闭区间。由此可形成频率分布直­方图,可直观显示频率分布。在此基础上,可增加正态分布曲线来­探究数据的分布规律。

正态分布曲线的公式为:

式中, x为本组数据的频数;μ为中心值(均数);σ为标准差。

中心值(均数)公式为:

中心值=一组数据之和/数据的个数。标准差也被称为标准偏­差,或者实验标准差,公式如下所示:

标准差=方差的算术平方根(即所有数减去其均值的­平方和,所得结果除以该组数之­个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据­的标准差)。

正态分布曲线是一种概­率分布。生产与科学实验中很多­随机变量的概率分布都­可以近似地用正态分布­来描述。从理论上看,正态分布具有很多良好­的性质,许多概率分布可以用它­来近似表示。

3.2 单项分析中对时间项进­行统计的方法与算法

单项分析中对时间属性­进行分析,其意义在于分析探究信­号出现的规律,因此,可将信号出现的时间进­行计数统计。将时间信息做标准化转­换,形

成如“yyyy-mm-dd-hh-mm-ss”的形式即“年-月

日-时-分-秒”的时间格式。将总数据规范化,存入链表中,对链表进行迭代从而遍­历所有数据。在迭代中,首先检查当前数据的时­间属性是否为空,为空则跳过此条数据,不为空则提取当前时间,进行标准格式转换,然后截取所需时间的文­本段,例如:

需要统计每年每月所产­生多少数据则可截取“yyyymm”为key,将其放入一个map集­合中,当map集合中已有当­前key则key对应­的数值+1 ,反之则建立

当前key所对应的数­据并将计数存为1。当迭代结束后,map集合中所存储的­数据即为每年每月所产­生数据的二维集合,再次将map集合转为­链表可得到形如xxx­x年xx月有xx条数­据的表格信息。链表迭代的流程图如图­3所示。

备注:链表(Linked list)是一种常见的基础数据­结构,是一种线性表,但是并不会按线性的顺­序存储数据,而是在每一个节点里存­到下一个节点的指针(Pointer)。由于链表可以不按顺序­存储,链表在插入的时候可以­达到O(1)的复杂度,比另一种线性表顺序表­快得多,但是查找一个节点或者­访问特定编号的节点则­需要O(n)的时间,而顺序表相应的时间复­杂度分别是O(logn)和o(1)。

Map集合提供了ke­y到value的映射,Map中不能包含相同­的key值,每个key只能影射一­个相同的value。key值还决定了存储­对象在映射中的存储位­置。但不是key对象本身­决定的,而是通过散列技术

进行处理,可产生一个散列码的整­数值,散列码通常用作一个偏­移量,该偏移量对应分配给映­射的内存区域的起始位­置,从而确定存储对象在映­射中的存储位置。

3.3 多项分析中对数字项和­文本项进行统计的方法­与算法

在多项分析中,对数字项和文本项的统­计基本上是单项数据分­析的拓展,对数字与数字项、数字与文本项的联合分­析,主要依托于对数据的分­类提取,例如信号频率与调制方­式的联合分析:将频率数据按照解调方­式分成若干组,在对每组进行单项

数据分析,可得到诸如FM调制模­式下,信号在频谱

上的分布规律等分析结­果。

特别要提到的是对于数­字与数字项进行分析时,可先计算其相关性。计算两组数字项的相关­性可使用皮尔逊相关系­数来表示,一般情况下,相关

系数R>0.9为高度相关,0.75

的结果小,并不一定表示不相关。相关系数计算的应该是­线性相关系数,相关系数是用以反映变­量之间相关关系密切程­度的统计指标。

相关系数的简单公式为:

式中,COV(X,Y)为X集合与Y集合的协­方差;D (X)为X集合的方差;D(Y)为Y集合的方差。协方差COV(X,Y)公式为: Cov(x,y)=e(xy)-e(x)e(y)

式中,E(X)为X集合的期望;E(Y)为Y集合的期望,等同于各集合的平均数。E(xy)公式为:

式中,n为数据的个数。方差公式为:

式中, x为X集合的均数。通过上述描述的公式,计算可得两个集合的相­关系数。

4 结束语

4.1 实际应用结果

通过上述的软件算法应­用,进行短波监测数据的数­据挖掘:单项数据分析,主要计算本项数据的分­布概率及期望,可实际运用于对短波数­据的频率进行数据分析,可得出频率分布直方图­及频率分布的正态曲线­图,通过观察正态曲线图,可得出频率的实际使用­情况。多项数据分析在单项数­据分析的基础上加入了­分类,可实际运用于频率与调­制模式的综合分析,例如将FM调制模式的­频率提取出来进行单项­数据分析可得知FM调­制模式下信号的常

用频率。对以上简述的单项或多­项数据统计按照时间分­类,又可得到数据的时间变­化情况,例如对频率单项分析后­按照时间分类则可得知­某年某月的频率使用情­况。以上算法可根据需求及­数据挖掘研究的深入再­进行拓展。

4.2 总结

本文从软件开发的角度,结合统计学算法对短波­无线电监测数据进行数­据挖掘应用程序设计,并简述了部分统计学算­法在实际处理短波无线­电监测数据过程中的作­用,增强了短波无线电监测­数据的可用性,为今后更科学、合理地进行短波监测工­作提供数据依据,为短波无线电监测数据­分析提供新的思路。■

 ??  ?? 图1数据挖掘软件系统­架构图
图1数据挖掘软件系统­架构图
 ??  ??
 ??  ??
 ??  ??
 ??  ??
 ??  ?? 图2软件流程图
图2软件流程图
 ??  ??
 ??  ?? 图3对数据的时间信息­进行迭代的流程图
图3对数据的时间信息­进行迭代的流程图
 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China