还有什么新闻是机器人不会写的?
机器写稿背景与现状
在几年前,国外就已经启用了智能机器人的写稿系统,并且已经为外文媒体提供了上千篇的文章。最著名的公司有三家 ARRIA、AI、NARRATIVE SCIENC。
但是国内的汉语语义复杂,语言处理一直处于摸索间断。很多媒体需要和学术机构合作才可以取得一定的成果。国内在这一方面比较领先的有微软、百度、腾讯、今日头条,他们利用大量的新闻稿做语言训练,试图创作一些符合语义的新闻。
但是由于一些敏感性问题,这个侧重体育、财经、民生领域,某一些怕有不可描述的风险。
机器人写稿的模式与技术
稿件的创作主要有两种模式,一个是原创稿件,一个是二次创作。
原创稿件,主要是通过结构化的数据去生成一篇稿件。采用的是自然语言生成技术,是从结构化数据/意义表达生成自然语言语句。
而借助一些相关报道,进行二次加工的即为二次创作。二次创作采用的是自动摘要技术,我们从已有的文字素材去给它摘要,把它生成一个新的稿件。这是两类非常关键的技术。
当然为了防止抄袭,会对语言做一些处理。比如一些文本信息推荐技术和文本复述技术。简单的说就是智能的对语句进行引用,或者一些段落的重新复述。ps. 大学生毕业论文的福音啊!
机器人写稿应用
体育赛事报道
根据体育赛事的比赛情况,自动生成比赛新闻稿。
通过赛事数据采集,数据分析,文档模版,语义实现。这就可以完成一篇体育赛事报道了。
娱乐新闻报道
根据微博明显监控,自动生成新闻娱乐类的新闻稿。
借助大数据学习,分析明星微博的价值性,可靠性,影响性,自动生成明星周边的突发新闻稿。
新闻综述的自动生成
对长篇新闻稿的压缩,进行二次创作。以段落或者句子的形式供读者阅读。
需要分析大量文章,寻找比较客观、中立的稿件,以话题为单位进行内容的复述。
评论生成
根据文章的内容自动产生相应的评论。
这是可以基于深度学习模型来完成。
国内机器人
目前国内已经上岗的机器人今日头条的「Xiaomingbot」小明机器人,南方都市报的「小南」,广州日报的「阿同」机器人。
小明主要服务于奥运会,小南、阿同当时是给2017年的全国两会做了一些报道的工作。
现在的小明写稿机器人,主要是针对体育赛事进行赛事报道,既可以生成几十字的短讯,又可以生成上千字的长篇报道,它包括NBA的比赛,也包括足球联赛,在奥运会期间写了456篇,单篇最高的阅读量是11万次。到上个月底,共撰写新闻5000多篇,总计阅读量1800万次。
不同的媒体稿件的要求不一样。 传统媒体行业,比如新华社对稿件严格要求,错误零容忍。而自媒体,语句通顺,意思正确就行了。
这是自媒体会比传统媒体更加适合机器人的原因。
未来展望
机器写稿将来不只是媒体行业,将来很可能写一些行业报告,或者写一些发言稿,都可能会利用到机器写稿的技术,不光是媒体行业写新闻会用到,其它的行业也会用到。
机器人还缺乏情感表达,之后将会训练主观意见在文章中的体现。比如「中国队大胜韩国队」或者「中国队惜败韩国队」的语句。他将更加的人性化。
最难的一点就是,机器的深度学习,让机器学会推理和归纳,写出真正的深度报道。分析报告背后的意思,政策后面的解读。这后面的路任重道远。
根据北京大学计算机科学技术研究所研究员万小军做了《机器写稿的技术与应用》的演讲报告整理
The Why·Liam·Blog by WhyLiam is licensed under a Creative Commons BY-NC-ND 4.0 International License.
由WhyLiam创作并维护的Why·Liam·Blog采用创作共用保留署名-非商业-禁止演绎4.0国际许可证。
本文首发于Why·Liam·Blog (https://blog.naaln.com),版权所有,侵权必究。
本文永久链接:https://blog.naaln.com/2017/07/robots-write-news/