“2023年度中国媒体十大流行语”发布:千字万词,十大流行语是如何产生的

发布者:绝对征服 2023-12-20 15:11

“2023年度中国媒体十大流行语”于12月6日由国家语言资源监测与研究中心发布。本次发布的十大流行语为:中华民族现代文明、高质量共建“一带一路”、全球文明倡议、数字中国、杭州亚运会、核污染水、巴以冲突、大语言模型、神舟十七号(神十七)、村超。

研究“流行语”有什么价值?记者专访了国家语言资源监测与研究平面媒体中心主任、北京语言大学教授杨尔弘。

“流行语”最大价值就是记录发展变化

我国研究流行语已经有20年历史,自2005年起,教育部、国家语委每年发布《中国语言生活状况报告》,公布当年的年度汉字、媒体流行语和热门新词语。“用一个字、一个词来描绘描述中国描述世界,用十大媒体流行语、十大新词语、十大网络用语来记录这个社会、这个时代,既是汉语之美的集中体现,也是对社会面貌的浓缩反映。流行语映射了这些词语折射了这一年发生的重大事件,诉说了这个时代的民生民情,记录了社会图景。”

回首10年前,2013年的科技类十大流行语是神十、4G(第四代移动通信技术)、3D打印、无人机、旅行者1号、运-20、天河二号、可燃冰、玉兔号、石墨烯。

10年间,神舟飞船已经从十号进展到十七号,而4G则从热门流行变成了日常,从这些变迁就能看出我国科技事业的进步。

一年很长,一年也很短,我们用十大流行词语、用一个字一个词盘点这一年,它最大的价值,就是一种记录,记录国家、社会的发展,记录百姓的生活。

流行语不等于高频词

主流媒体流行语是指在一定时期内,在报纸、电视、广播、网络等大众传媒受众中迅速传播、盛行的语词。它可以是已有的词或者语言符号,也可以是一个新词,或者是由若干个词组成的短语。广为传播、盛行一时是流行语的重要特点,从产生、较少使用到广泛传播,这个过程历时很快,会给人异军突起的感觉,有产生、兴起、顶峰、平缓这样一个过程。

流行语不等于高频词语。国家语言资源监测研究中心每年调查媒体的用字用语情况,公布的高频词语每年大约1.2万条左右,这些高频词不同于流行语,年度流行语的特点是要在极短的月度之间迅速达到相对的高频。因此,除了在大规模的文本语料中利用计算机来切分、提取,还要对候选词进行人工干预、综合平衡,这样最终确定的流行语更科学,也更全面。

“媒体十大流行语”是这样产生的

“2023年度中国媒体十大流行语”是基于国家语言资源监测语料库、利用语言信息处理技术并结合人工后期处理提取、筛选而获得。语料来源于2023年1月1日至2023年11月底国内15家主流报纸(包括国内的机关报、地方都市报和发行量较大的晚报),央视、央广及地方12个电视台和7个电台的转写语料,以及2个门户网站的全部文本,语料规模达10余亿字次。

然后要把这些语料里从二字到九字的字串全部提取出来作为下一步的分析对象。第三步是拟合曲线。在短时间内,流行语的使用率可以从几乎为零的低起点升至非常高。将媒体的数据按照月度分开,用月度的字串数据拟合出具有迅速传播特点的曲线,通过模型的计算结果,就可以获得符合传播模型的候选流行语。

最后是人工干预。人工干预所参考的要素中,一是概括性;二是分类,每年流行语的分类是在数据提取的结果之上,通过词语的集中度来人工划分的,如时政、经济,文化等等;第三,要考虑语言本身的美感。

汉语一大特点是“千字万词”

尽管每年社会生活都发生很大的变化,但汉字使用表现了很强的规律性:每年大众媒体上使用的汉字在1万个左右;覆盖语料80%的汉字数量在600个左右,覆盖语料90%的在1000个以内,覆盖语料99%的在2400个左右。这就给了我们常用汉字不同等级的数量标准。汉语用词也表现出很强的规律性:每年大众媒体上使用的词语数量是跟语料规模成正相关关系的,语料规模越大,所用词语越多;10亿字次规模的语料大约使用词语220万个左右;覆盖语料80%的词语数量在4700个左右,覆盖语料90%的在12000个左右。这也给了我们汉语常用词语不同等级的数量标准。覆盖率达到90%,汉语最常用的字词数量可以概括为——“千字万词”。

文/李煦

编辑/倪家宁

大家都在看