ACTA Scientiarum Naturalium Universitatis Pekinensis
Research on Automatic Writing of NBA Sports News
CHEN Yujing1 , LÜ Xueqiang1,† , ZHOU Jianshe2 , LI Ning1
1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101; 2. Beijing Advanced Innovation Center for Imaging Technology, Capital Normal University, Beijing 100048; † Corresponding author, E-mail: lxq@bistu.edu.cn
Abstract Based on the characteristics of NBA sports news and text broadcast, a method of automatic writing of NBA sports news is proposed. According to the score difference of two teams, the score difference function is constructed. A data slice algorithm and a data synthesis algorithm based on the character of score difference function are proposed. The live data slices are classified, and the template library of NBA sports report is constructed according to the category of data and the history of the NBA sports news reports. The information of data piece is filled into the template with the team and the player’s performance as the center, and an automatically generated NBA sports news release can be obtained. Four indicators are put forward to measure the quality of automatic writing NBA sports news. The experiments show that the proposed method is effective and feasible, the writing speed is fast, and it can help the news writing of the event. Key words automatic writing; NBA; sport news; text broadcast
文字直播一般指以电视直播信号或者网络视频信号为信息源, 借助特定的输入输出系统, 以网络平台作为传播媒介, 用文字的形式传播信息的一种在线演绎及生动的传播方式。文字直播可以视为文本形式的视频广播[1]。随着物质生活逐步得到满足,人们越来越注重精神生活的质量, 体育在人们生活
中所占的比重与日俱增。NBA 比赛代表篮球运动在世界上的一流水平, 国内四大门户网站从 20 世纪末逐渐针对 NBA 赛事进行视频直播和文字直播。如果球迷没有时间观看这些视频直播, 或者只想对某场比赛做大概了解时, 就可以看比赛之后的赛事新闻。
撰写 NBA 赛事新闻时需搜集多方面资料, 工作量比较繁重, 并且人工撰写方式效率低下, 出错率高。当前亟需一种利用计算机自动写作技术自动生成 NBA 赛事新闻的方法, 提高工作效率。
近年来, 人们开始在自动化写作领域进行研究,并取得一定的成绩。微软亚洲研究院自然语言计算
[2]组 Jiang 等 采用统计机器翻译的方法, 研发了计算机自动对联系统, 实现对联功能: 当用户给定上联, 它能够自动提供若干下联供选择; 当用户确定一副对联后, 它能够生成若干四字横批供参考。2014 年 3 月 18 日早晨, 美国加州发生 4.4 级地震,《洛杉矶时报》用机器人写手“Quakebot”第一时间报道这次地震。这个机器人写手仅用 3 分钟就完成新闻的生成, 并发表在《洛杉矶时报》的网站
[3]上 。全球最大新闻机构之一的美联社宣布, 2014 年 7 月份开始启用撰写软件批量“生产”财经报道[4]。当然, 值班编辑在新闻发布之前都会提前预览, 并在出稿前审核内容, 但整个流程基本上已经实现自动化。Yen 等[5]和 Chang 等[6]分别介绍了写作助手 Writeahead 和 Writeahead2, 通过学习语料库中的语法和短语模板提供书写建议, 帮助使用者流利地书写, 避免常见的书写错误。何晶等[7]提出一种自动生成诗歌的方法, 并实现一个中文格律诗的自动生成系统, 但该方法只适用于诗歌领域。周建设[8]通过对语言处理的计算与认知的分析和研究, 提出“语言智能表达目标”, 并初步提出构建语言生成系统的设想。2014 年, 周建设等[9]提出构建基于大数据的汉语表达智能模型, 形成系统完备的理论思想。2015 年 9 月 10 日, 腾讯财经栏目使用自己开发的 Dreamwriter 发出第一篇财经报道[10]。由此可见, 计算机自动写作是当前的发展趋势。研究者对赛事新闻和文字直播也进行了一些研究。Yang 等[11]通过自然语言处理和信息抽取的方法, 提出基于隐马尔科夫与规则相结合的方法抽取
[12]赛事新闻的主要要素。高国洋 提出基于条件随机场与规则相结合的方法, 对体育赛事新闻进行命名实体识别, 并进行体育赛事新闻实体关系抽取的研究, 取得较好效果。Xu 等[13]提出一种新的语义事件检测方法, 利用体育赛事文字直播数据和体育广播视频, 对语义事件进行检测, 比仅使用体育广播视频本身效果显著。Chen 等[14]使用无监督的方法, 从文字直播中抽取语义事件, 详细分析文字直播的特点, 并提出分层搜索算法, 有利于视频标注与检索。然而, 利用文字直播来自动书写赛事新闻还未见报道。
本文通过分析 NBA 文字直播的特点, 构建一种 NBA 赛事新闻自动生成方法。首先, 根据文字直播的特点构建球队的分差函数, 并提出基于分差函数的数据分片算法和数据合成算法, 然后对数据片进行分类, 构建模板库, 从而构建 NBA 赛事新闻自动生成的模型。
1 NBA文字直播介绍
每场比赛至少由 4 节组成, 每一节比赛都会有100~200 条文字直播来展现当时的赛况, 如表 1 所示。定义 Text 表示一节文字直播文本; Texti 表示一条文字直播(0 i Len(text)) , 其中每一条文字直播用一个五元组来表示, 即 Text ={Time, Team,
i Player, Score1, Score2}; Time表示距离本节比赛结束剩余的时间; Team表示当前活动的球队; Player 表示当前文字直播活动的球员; Score1表示客队目前的得分; Score2 表示主队目前的得分。例如“11:42热火 阿马雷–斯塔德迈尔接德怀恩–韦德 5.2 米跳投, 得 2 分 2–0”是一条文字直播数据, 对应的五元组内容: “11:42”是五元组中的 Time; “热火”是五元组中的 Team; “阿马雷–斯塔德迈尔”表示五元组中的 Player ; “2”是五元组中的 Score1 , 代表客队目前