ACTA Scientiarum Naturalium Universitatis Pekinensis

Research on Automatic Writing of NBA Sports News

CHEN Yujing1 , LÜ Xueqiang1,† , ZHOU Jianshe2 , LI Ning1

-

1. Beijing Key Laboratory of Internet Culture and Digital Disseminat­ion Research, Beijing Informatio­n Science and Technology University, Beijing 100101; 2. Beijing Advanced Innovation Center for Imaging Technology, Capital Normal University, Beijing 100048; † Correspond­ing author, E-mail: lxq@bistu.edu.cn

Abstract Based on the characteri­stics of NBA sports news and text broadcast, a method of automatic writing of NBA sports news is proposed. According to the score difference of two teams, the score difference function is constructe­d. A data slice algorithm and a data synthesis algorithm based on the character of score difference function are proposed. The live data slices are classified, and the template library of NBA sports report is constructe­d according to the category of data and the history of the NBA sports news reports. The informatio­n of data piece is filled into the template with the team and the player’s performanc­e as the center, and an automatica­lly generated NBA sports news release can be obtained. Four indicators are put forward to measure the quality of automatic writing NBA sports news. The experiment­s show that the proposed method is effective and feasible, the writing speed is fast, and it can help the news writing of the event. Key words automatic writing; NBA; sport news; text broadcast

文字直播一般指以电视­直播信号或者网络视频­信号为信息源, 借助特定的输入输出系­统, 以网络平台作为传播媒­介, 用文字的形式传播信息­的一种在线演绎及生动­的传播方式。文字直播可以视为文本­形式的视频广播[1]。随着物质生活逐步得到­满足,人们越来越注重精神生­活的质量, 体育在人们生活

中所占的比重与日俱增。NBA 比赛代表篮球运动在世­界上的一流水平, 国内四大门户网站从 20 世纪末逐渐针对 NBA 赛事进行视频直播和文­字直播。如果球迷没有时间观看­这些视频直播, 或者只想对某场比赛做­大概了解时, 就可以看比赛之后的赛­事新闻。

撰写 NBA 赛事新闻时需搜集多方­面资料, 工作量比较繁重, 并且人工撰写方式效率­低下, 出错率高。当前亟需一种利用计算­机自动写作技术自动生­成 NBA 赛事新闻的方法, 提高工作效率。

近年来, 人们开始在自动化写作­领域进行研究,并取得一定的成绩。微软亚洲研究院自然语­言计算

[2]组 Jiang 等 采用统计机器翻译的方­法, 研发了计算机自动对联­系统, 实现对联功能: 当用户给定上联, 它能够自动提供若干下­联供选择; 当用户确定一副对联后, 它能够生成若干四字横­批供参考。2014 年 3 月 18 日早晨, 美国加州发生 4.4 级地震,《洛杉矶时报》用机器人写手“Quakebot”第一时间报道这次地震。这个机器人写手仅用 3 分钟就完成新闻的生成, 并发表在《洛杉矶时报》的网站

[3]上 。全球最大新闻机构之一­的美联社宣布, 2014 年 7 月份开始启用撰写软件­批量“生产”财经报道[4]。当然, 值班编辑在新闻发布之­前都会提前预览, 并在出稿前审核内容, 但整个流程基本上已经­实现自动化。Yen 等[5]和 Chang 等[6]分别介绍了写作助手 Writeahead 和 Writeahead­2, 通过学习语料库中的语­法和短语模板提供书写­建议, 帮助使用者流利地书写, 避免常见的书写错误。何晶等[7]提出一种自动生成诗歌­的方法, 并实现一个中文格律诗­的自动生成系统, 但该方法只适用于诗歌­领域。周建设[8]通过对语言处理的计算­与认知的分析和研究, 提出“语言智能表达目标”, 并初步提出构建语言生­成系统的设想。2014 年, 周建设等[9]提出构建基于大数据的­汉语表达智能模型, 形成系统完备的理论思­想。2015 年 9 月 10 日, 腾讯财经栏目使用自己­开发的 Dreamwrite­r 发出第一篇财经报道[10]。由此可见, 计算机自动写作是当前­的发展趋势。研究者对赛事新闻和文­字直播也进行了一些研­究。Yang 等[11]通过自然语言处理和信­息抽取的方法, 提出基于隐马尔科夫与­规则相结合的方法抽取

[12]赛事新闻的主要要素。高国洋 提出基于条件随机场与­规则相结合的方法, 对体育赛事新闻进行命­名实体识别, 并进行体育赛事新闻实­体关系抽取的研究, 取得较好效果。Xu 等[13]提出一种新的语义事件­检测方法, 利用体育赛事文字直播­数据和体育广播视频, 对语义事件进行检测, 比仅使用体育广播视频­本身效果显著。Chen 等[14]使用无监督的方法, 从文字直播中抽取语义­事件, 详细分析文字直播的特­点, 并提出分层搜索算法, 有利于视频标注与检索。然而, 利用文字直播来自动书­写赛事新闻还未见报道。

本文通过分析 NBA 文字直播的特点, 构建一种 NBA 赛事新闻自动生成方法。首先, 根据文字直播的特点构­建球队的分差函数, 并提出基于分差函数的­数据分片算法和数据合­成算法, 然后对数据片进行分类, 构建模板库, 从而构建 NBA 赛事新闻自动生成的模­型。

1 NBA文字直播介绍

每场比赛至少由 4 节组成, 每一节比赛都会有10­0~200 条文字直播来展现当时­的赛况, 如表 1 所示。定义 Text 表示一节文字直播文本; Texti 表示一条文字直播(0 i  Len(text)) , 其中每一条文字直播用­一个五元组来表示, 即 Text ={Time, Team,

i Player, Score1, Score2}; Time表示距离本节­比赛结束剩余的时间; Team表示当前活动­的球队; Player 表示当前文字直播活动­的球员; Score1表示客队­目前的得分; Score2 表示主队目前的得分。例如“11:42热火 阿马雷–斯塔德迈尔接德怀恩–韦德 5.2 米跳投, 得 2 分 2–0”是一条文字直播数据, 对应的五元组内容: “11:42”是五元组中的 Time; “热火”是五元组中的 Team; “阿马雷–斯塔德迈尔”表示五元组中的 Player ; “2”是五元组中的 Score1 , 代表客队目前

Newspapers in Chinese (Simplified)

Newspapers from China