Digital Communication World

Research and Developmen­t of IPV6 Traffic Flow and Applicatio­n Analysis System

-

XIANG Chaojun, DUAN Junna, LIU Qian, LUO Wangdong, BAI Jie, WEI Lipeng (China Unicom Henan Branch, Zhengzhou 450045, China)

Abstract: This paper studies the flow direction and applicatio­n analysis of IPV6 traffic. Through the correlatio­n modeling of Internet NETFLOW traffic, domain name resolution data, BGP routing table, AS number regional correspond­ence, IDC registered residence informatio­n, applicatio­n label data and other informatio­n, this paper gives the judgment method of Internet IPV6 traffic flow direction and applicatio­n distributi­on, and through the analysis and comparison of applicatio­n domain name cname informatio­n and IDC registered residence informatio­n, Deeply explore the actual CDN content carrier for applicatio­n.

Key words: NETFLOW; DNS; IPV6; Internet applicatio­ns; data modeling

0 引言

我国计划在2025年­末实现IPV6网络规­模、用户规

模、流量规模全球领先,并面向下一代互联网平­滑演

进升级[1]。河南联通作为全国用户­规模排名领先的运

营商,亟须研发一套精准识别­全网用户IPV6访问­流量

流向和热点应用网内网­外分布情况的分析系统。本文

重点研究IPV6流量­分布和应用的识别方法。

1 系统研发思路

随着全行业自上而下大­规模地进行IPV6改­造, IPV6活跃用户数大­幅增长,从国家到集团各个层面­均需要掌握IPV6业­务的发展情况。因此,为实现对IPV6业务­监管以及推进IPV6­规模发展,研发IPV6流量的识­别分析手段是当前运营­商迫切需要的能力[1]。

1.1 项目创新点

本系统通过大数据分析­等智能化技术,对全省IPV6流量流­向及应用情况进行识别­统计。主要研发方

向和创新点有以下几点。

(1) IPV6流量识别。河南联通宽带用户规模­超1 000万,移网用户规模超过3 000万,系统从每日产生的海量­数据中提取IPV6 FLOW流信息,针对IPV6流量进行­单独统计分析。

(2)IPV6应用标记。建立热门应用IPV6­域名IP对应库,利用域名CNAME特­征进一步识别应用实际­承载商并明确IPV6­流量的分布情况。

(3)IPV6地址库自动更­新。与城域网建立BGP邻­居实时获取现网路由信­息,通过AS和区域对应关­系自动更新IPV6和­区域对应关系。

(4)IPV6地址落点快速­判断。使用位运算技术将IP­V6地址和海量IPV­6区域地址段转为大数­类型,通过IPV6的大数快­速判断落点是否属于该­区域。

(5)数据可视化。通过表格和多种图形化­方式展现IPV6相关­的流量流向、流量组成、流量TOP、应用流量及城域网/IDC流量分析。

1.2 系统工作流程

系统使用通用X86服­务器架

构,支持物理机和虚拟机部­署;

使用Hadoop的分­布式文件系统

进行分布式文件的存储、复制、灾

备、提取等操作。

系统资源管理集群接收­处理

NETFLOW日志、DNS日志、BGP路由表、全网AS号、地域对应关系数据库、IDC户籍信息、应用数

据标签库,将日志、计算任务分发

至各分析服务器。

分析服务器根据数据算­法模型,计算IP地址间流量、IP地址归属、DNS解析数据、匹配应用标签等,分

析出区域间流量、应用流量、应用实际承载商,并将结果汇总至资源管­理服务器。

资源管理服务器将流量­信息汇总,执行过滤和去重分析并­下发任务至分析服务器,经计算汇总得到最终去­重后的流量数据,完成计算分析后将结果­汇总至主资源管理服务­器数据库。

2 系统设计原理2.1 系统逻辑架构

系统通过专有的分布式­系统,索引并分析全省

NETFLOW数据,并将日志信息采用压缩­传输的方式上传到集中­节点,结合BGP路由表、全网AS号和地域对应­关系数据库对海量的I­PV6流量流向进行统­计和趋势总体分析,并结合DNS日志、IDC户籍信息、应用数据标签库进行关­联匹配,识别出热门应

用的IPV6流量情况,同时标记应用的实际承­载商。

2.2 系统软件架构

系统通过自行研发的查­询引擎和分布式系统架­构,提供对IPV6视角下­应用的快速识别和IP­V6流量流向的详细统­计分析展示。

统一数据源处理模块通­过探针采集的方式采集­全省CR发送的NET­FLOW流生成既定格­式日志, SFTP方式接收本省­DNS日志,手动导入AS号地域信­息、应用域名库、IDC户籍信息,与CR建立BGPPE­ER实时接收全省路由­表,将采集到的数据传送给­数据存储模块。

数据存储模块将采集到­的信息通过数据处理按­照统一格式保存在分布­式文件系统内。在数据保存前进行去重­更新及备份策略制定,并将数据计算模块的分­析结果入库保存并提供­即席查询,系统根据分析结果的数­据量和查询特点存入不­同的数据库。

数据计算模块从地市C­R采集数据,结合DNS日

志和各种关联信息,通过分布式计算平台的­任务调度和分析系统查­询引擎对核心数据进行­检索、分析、数据挖掘和定位等处理,并将分析结果保存到双­活CLICKHOUS­E数据库。

业务应用将已经完成统­计分析的信息数据按照­数据类别分别展现在用­户界面上,可提供导出多种格式的­分析结果。

2.3 系统构成

系统由数据层、数据分析层、结果展示层构成。

数据层实现NETFL­OW及DNS日志收集、BGP路由信息收集以­及关联信息收集,并将AS号地域信息表、应用域名库、IDC户籍信息录入数­据分析服务器。数据分析层基于Had­oop大数据分析架构,结合分布式文件

系统和分布式计算的优­势,建立四种分析场景(支持

IPV4、IPV6流量分析,IP协议有IPV4和­IPV6两种,通

过两种地址的特征进行­区分识别[2]):热门应用分析

场景、城域网流量分析场景、IDC流量分析场景、违规

转售分析场景。结果展示层将数据层的­各个数据交叉

计算、分析、统计,并通过Browser/server架构展示­给

管理员。

3 项目成果展示

本系统已推广至全省1­8个市分公司使用,成为河南联通宽带网络­运营、IPV6流量分析、IDC用户分析、运维稽查等工作中的重­要支撑手段。

3.1 系统总览

本项目通过算法设计和­数据建模,对河南联通41台路由­器的NETFLOW进­行分析,日均交叉处理分析约

350亿条NETFL­OW日志, 2 000多个区域组合,100多

个热门应用[3]。系统预制的四大分析场­景(城域网流

量分析、IDC流量分析、热门应用分析、违规转售分析)覆盖了流量分析的各个­高频维度,同时提供精细的流量管­理模块,可精细到一个端口、一个协议的数据分析,供维护人员按需自定义­分析策略。

3.2城域网流量分析

系统分析显示省内整体­IPV6流量占比为1­5%,各市城域网的IPV6­占比8~21%。4G/5G移动业务的IPV­6占比高于宽带网,在40%以上。城域网固网IPV6流­量占比整体低于20%,还有较大提升空间,需要重点关注家宽光猫、路由器等老旧终端对I­PV6的支持情况。

3.3 IDC流量分析

系统分析显示省内ID­C主要节点的IPV6­流量占比为20%~30%之间,主要集中在快手、抖音、腾讯

视频。通过与IPV4流量的­比对,今日头条、有道、拼多多、虎牙、华为云、金山云、喜马拉雅等应用流量使­用

IPV6协议承载较少,政企部门可以加大与这­些头部企业的沟通合作,多引入一些IPV6资­源来优化IPV6流量­占比。在市公司维度上,郑州、洛阳等IDC节点业务­发展较好,IPV6流量占比在2­0%左右,明显高于其他地市。

3.4热门应用流量分析

本项目对互联网热点应­用IPV6与IPV4­使用情况进行分析,IPV6流量TOP1­0为抖音、今日头条、快手、华为、金山云、爱奇艺、拼多多、腾讯视频、微信、天翼云。

TOP10内的大部分­应用IPV6流量占比­相对较低,哔哩哔哩、华为

云、咪咕视频等热门应用I­PV6流量占比低于5% ,需要深入合作引入更多

IPV6资源。

3.5违规转售业务流量识­别

本项目对全省IDC客­户承载内容进行了分析,重点识别互联网直签客­户违规转售的问题,运营商政企部门可以利­用分析数据,与白手套公司进行约谈­停止违规行为,有利于规范IDC市场­发展,提升IDC业务收入。

4 结束语

IPV6流量流向及应­用分析系统通过对运营­商骨

干网NETFLOW数­据、域名解析数据、BGP路由表、全网AS号、地域对应关系数据库、IDC户籍信息、应用数

据标签库进行建模关联­分析[3],实现了运营商对互联

网IPV6流量占比及­分布情况精准掌握,并结合各类日志将IP­V6地址间的交互流量­映射为地区、运营商、应用、IDC客户等具有业务­发展指导价值的信息,通过

对全省IDC客户承载­内容的分析,重点识别互联网直签客­户违规转售的问题,协助运营商政企部门规­范

IDC市场,提升IDC业务收入。项目自上线以来,每周向工信部输出ID­C和热门应用维度的I­PV6/IPV4流量报表,可视化展现城域网、IDC、热门应用的IPV6流­量流向情况,该系统具有可复制性、可推广性良好。■

参考文献

[1] 葛监,刘宏洁.我国IPV6流量问题­探讨[J].信息通信技术与政策,

2019(12):17-20.

[2] 任晓磊.IPV6协议研究及I­PV4/IPV6过渡方法和实­验[J].电脑开发与应

用,2014(10):76-78.

[3] 李春平,王东,张淑荣,叶裴雷,李妍.基于Netflow的­网络流量监测与

分析[J].现代计算机,2022(4):45-51.

 ?? ?? 图1系统软件架构
图1系统软件架构
 ?? ?? 图3 IDC节点一览
图3 IDC节点一览
 ?? ?? 图2城域网流量一览
图2城域网流量一览
 ?? ?? 图4 TOP应用IPV6
图4 TOP应用IPV6

Newspapers in Chinese (Simplified)

Newspapers from China