您的位置: 首页 > 必威体育 > 必威体育APP

必威官方网站- Betway APP下载- 2026世界杯指定体育平台学苑 全球数字空间中文活力与影响力考察(叶军、朱晓睿、蔺鹏飞)

发布日期:2026-01-07 21:16:15 浏览次数:

  betway官方网站,betway网址,betway链接,必威体育app,必威中国,必威官方网站,必威体育登录入口,必威体育官网网址,必威体育链接,必威体育2025,必威体育2026,必威体育世界杯

必威官方网站- Betway APP下载- 2026世界杯指定体育平台学苑 全球数字空间中文活力与影响力考察(叶军、朱晓睿、蔺鹏飞)

  数字时代,以大语言模型为代表的生成式人工智能的开发与应用,使数字语言能力成为新质生产力的重要组成部分。数字语言资源不仅是国家软实力的体现,更是国家未来发展的基石。数字空间中文的活力与影响力是重要的语情与国情。本文以数字空间语言使用占比为核心,建立涵盖经济、科技、文化、社会、教育5个垂直领域的指标体系,加上数字中文基础指标,通过采集、分析有关数据,与英文、法文、西班牙文、俄文、阿拉伯文等世界主要语言使用情况进行比较,对数字空间中文的活力与影响力进行初步考察与评估。考察发现:在数字化浪潮推动下,中文已突破地域界限,从区域性语言发展为世界性语言;数字空间中文的活力与影响力稳居世界第二;动态数据相对丰富,静态数据相对缺乏,是中文数字生态最显著的特点;数字文化典籍保护和数字中文应用,是数字中文发展的两大亮点。

  数字时代,以大语言模型为代表的生成式人工智能的开发与应用使数字语言能力成为新质生产力的重要组成部分。数字语言资源不仅是国家软实力的体现,更是国家未来发展的基石。数字空间是基于通信网络、大数据、云计算、物联网等数字技术,将现实物理空间的实体信息虚拟化、符号化,并逐渐以数字化形式再现于本地数据库或云端数据库中,形成的一个能够映射现实物理空间物质属性和社会属性的虚拟空间,以网络空间的流动数据为基础,同时还有大量可数字化、非联网数据(李芳,程如烟2020)。谁掌握数字空间的话语权,谁就在未来的发展中占有更大的主动权,产生更大的影响力。百年未有之大变局背景下,世界语言和文明发展与竞争的格局正在发生深刻的变化。数字空间打破了传统语言使用的空间边界,网络的互联互通一定程度上正在消弭作为殖民主义遗产的强势语言因殖民扩张而形成的在地域空间上的霸权地位。尽管强势语言在不少内容领域仍然占据着明显优势,但以“使用为王”“内容为王”为特征的数字空间却为像中国这样的发展中大国和中文这样在国际传播中处于相对边缘地位的语言(尽管中文是世界上使用人口最多的语言,但其使用者多局限于中国国内)提供了重新洗牌的机会。2025年1月,《教育部国家语委中央网信办关于加强数字中文建设、推进语言文字信息化发展的意见》(以下简称《意见》)发布,强调加强数字中文建设,着力提升语言文字服务数字教育、数字科技、数字文化、数字经济、数字社会建设的实际能力。[2]中文在数字空间的使用情况成为最重要的语情、国情之一。刘培俊(2025)从本体性技术和功能性特征上明确了“数字中文”概念的内涵,指出数字中文建设应着眼于“以信息化、数字化、智慧化方式全方位释放中文全要素价值”,“要推进中文数字化与数据中文化‘两化并进’”。本文聚焦“数据中文化”,即中文在全球数字空间中的数据化使用与影响力,系统采集中文使用占比数据,考察其活力及影响力,科学评估其优势与短板,精准把握语言文字服务数字中国建设的基本国情,从而提升语言文字对国家语言能力和中国式现代化的战略支撑力。

  “语言活力”的概念源于民族语言研究,最初是针对语言濒危问题而产生的。2003年,联合国教科文组织发布了一套全面评估语言活力的框架,该框架包含9项指标,涉及语言使用人数、代际传承、语言政策和语言态度等。[3]随着数字时代的到来,研究者们开始关注数字空间中的语言活力。目前,国内外机构已展开了一些研究。根据W3Techs网络技术调查网站对全球网站内容使用语言的统计,截至2025年8月,中文网页占比仅为1.1%,远低于英文的49.4%和西班牙文的6.0%,位列第十三。[4]根据阿里研究院2024年5月发布的《大模型训练数据白皮书》,全球网站中,英文占比高达59.8%,而中文仅占1.3%。[5]需要说明的是,上述统计的数据来源主要是互联网上的静态网页数据,没有将大量更为活跃的动态数据包括在内,并不能全面反映数字空间中文的活力和影响力。

  在人工智能大语言模型领域,根据OpenAI早期公开数据,在GPT-3训练数据集的语言占比中,英文高达92.65%,其次为法文1.81%,德文1.47%,其他语种均在1%以下,中文语料只占总训练量的0.1%。[6]《科技日报》2024年1月报道,中国工程院院士高文曾公开表示,全球通用的50亿大语言模型数据训练集里,中文语料占比仅为1.3%。[7]凤凰网科技频道2023年6月就“ChatGPT英文比中文表现更好”这一话题采访北京智源人工智能研究院院长黄铁军,他表示是因为“英文数据多,中文数据少”,“他们用的中文数据只有百分之几”。[8]不过这是两年前的情况。根据国家数据局2025年8月的数据,国内多数模型训练使用的中文数据占比已经超过60%,有的模型甚至达到80%。[9]中文高质量数据的开发和供给能力持续增强,推动中国人工智能模型性能快速提升。

  近年来,世界主要语言的调查报告越来越多地关注数字空间的语言活力与影响力。在法语方面,《全球法语现状(2022)》重点调查了法语在数字网络世界中的影响力。报告从“网民、流量、使用、指数、内容、界面”6个维度构建模型,来评估语言互联网地位及排名。其中,法语排名第四,在互联网空间的存在率为3.5%;前三名分别为英语、中文、西班牙语,存在率分别为25%、15%、7%。此外,该报告还提出“语言网络化全球程度”,法语为1.09,仅次于英语的1.61;中文为0.25,位列第九。[10]在俄语方面,俄罗斯国立普希金俄语学院2020年首次发布《全球俄语发展指数报告》,以呈现全球俄语竞争力指数与俄语稳定指数等数据。全球语言竞争力指数的设计除包括语言使用人数等传统指标外,还加入大量信息时代特有的指标,包括国际数据库学术论文数量、语言媒体数量、互联网用户数量及网站数量等互联网空间的语言传播数据。在这一排名中,俄语的竞争力指数为2.78,位列第五;中文的竞争力指数为3.45,位列第四。[11]除此之外,德语、西班牙语的语言调查报告也关注到了在线语言学习、人工智能等数字空间相关领域。

  纵观国内外相关研究和世界其他主要语言的研究实践,当前语言活力与影响力评估体系呈现出从传统线下应用场景向数字空间加速拓展的趋势,但仍有很多不足。从评价角度来看,现有其他语种的评价指标多样,中文排名不一;选取的评估指标数量较少,对内容垂直领域关注不足,覆盖领域较为有限,评估指标的全面性和代表性都有待加强。数据采集方面,多集中于静态网页,忽视静态和动态内容的结合,且对中国境内数据的关注较为缺乏,因此存在一定局限性。要对数字空间中文活力与影响力做出评估,必须建立一套能够全面反映全球数字网络公共空间中文使用情况,精准体现数字空间经济、社会、科技、文化等各领域中文影响力的评估体系。具体来说,需要处理好以下3点。

  第一,要突出以用为本的原则,围绕内容重点聚焦数字空间中文之用。前人对数字空间语言使用的调查多从传播学、数字技术等角度入手,而数字空间中文活力与影响力评估,关注的不应只是数字技术本身,更应该是数字中文所表达的内容。《意见》从实施数字中文“服务教育发展行动”“助力科技创新行动”“赋能文化传承行动”“推动产业升级行动”“促进社会进步行动”5个方面对如何着力提升语言文字信息化服务水平提出5点意见,正反映了教育、科技、文化、经济、社会这五大数字中文的应用领域。本研究按照“数据中文化”以内容分类呈现的原则,设立经济、科技、文化、社会、教育5个垂直领域一级指标,对应不同领域数字空间的语言使用场景。

  第二,要平衡静态数据与动态数据的关系。互联网公共空间存在两种不同类型的数据——静态数据与动态数据。静态数据是以组织机构官网、产品手册、个人博客文章等为代表的,内容固定不变、预先创建好的文件;而动态数据则是以社交媒体、电商网站、搜索引擎等为代表内容,可因人、因时、因输入而异,根据用户请求实时生成或变动的数据。相对来说,静态数据具有确定性,容易获得,动态数据具有不确定性,也不易获得;静态数据数量较少,但质量较高,动态数据数量巨大,但质量不稳定。现有评估体系大多使用静态数据,但考虑到移动互联网迅速发展背景下动态数据的持续增加,再加上大语言模型未来发展对动态训练语料的需求,我们在构建评估体系时专门设置了数字中文基础指标,不仅通过域名数量和网站语言占比等数据反映静态数据(静态呈现的内容),还通过网民(静态内容与动态内容的生产者与传播者)数量、移动数据量(主要是动态数据)等数据兼顾对动态数据的考察。

  [20]Sensor Tower是一家全球领先的移动应用数据分析与市场研究公司,专注于提供应用商店的下载量、用户行为等深度数据,是衡量移动应用市场表现的行业基准之一。由于中国安卓应用市场高度碎片化的客观原因,Sensor Tower缺少中国安卓应用的完整且可靠的下载数据,通常只包括ios端的下载量数据。公开数据显示,2024年中国苹果用户和安卓用户的占比情况大致为1∶4,因此中国市场APP的下载量我们以“ios下载量× 5”的方式进行估算,下文同。

  Web of Science是国际上规模处于头部的以学术论文为主的在线学术资源库,被全球学术界广泛作为衡量科研产出质量和影响力的重要基准。现有对国际科技领域学术资源的研究多选择该数据库作为数据来源,有较高的参考价值(沈骑,张冰天2022)。考察该资源库中6种语言截至2025年的文献总量和2024年的新增量,发现英文文献在数量上占据绝对优势。中文文献在绝对数量上与英文文献存在数量级的差距,但相较于西班牙文、法文、俄文和阿拉伯文,又呈现出相对明显的优势(见表9)。

  大语言模型训练语料是影响大语言模型性能的重要因素。机器学习模型的性能受规模的影响最大,而规模又包括模型大小、数据集大小和用于训练的计算量(Kaplan et al. 2020)等指标。鉴于目前不少大语言模型不再公开其预训练语料数据,我们在hugging face[23]官网的大语言模型下载量排行榜中选取前30个开源大语言模型(同系列的保留下载量最多的一个),据其公开数据依次标注预训练语料占比,再以每个模型下载量占30个模型总下载量的比例为权重,按照“语料总占比=∑(语料占比i ×权重i)”公式计算加权总占比,得到30个开源大语言模型的语料占比情况。其中,中文占比35.12%,仅次于英文(见表11)。

  根据规模大小、发布方等指标,选择每种语言有代表性的大型数字典籍资源库作为考察对象。中文选择由北京大学图书馆牵头联合多个高校图书馆建立的高校古文献资源库,英文选择大英图书馆的英文简称目录(ESTC),俄文选择俄罗斯国家电子图书馆,法文选择法国国家图书馆,阿拉伯文选择中东数字图书馆。[25]以每个资源库条目在6个资源库总条目的占比估测各语言资源的规模。其中,中文在传统典籍资源数字化方面成绩显著,处于全球领先位置(见表14)。

  第一,全球最大的互联网人口、优质的数字网络基础设施和迅速发展的数字科技,使中文在数字空间的发展快速且健康。各领域数据均显示,数字空间中文的活力和影响力均仅次于英文,稳居第二,并已明显与法文、西班牙文等其他主要国际语言拉开差距。事实证明,在数字化浪潮的推动下,中文已突破地域界限,从区域性语言成长为世界性语言。可以期待,随着中国社会、经济、文化、科技的进一步发展,中文的活力和影响力将会持续不断地得到加强与提升。

  第二,动态数据相对丰富,静态数据相对缺乏,是中文数字生态最显著的特点。这既是数字中文发展的短板,也是潜在的优势。静态数据因其稳定可靠一般被视作高质量数据,而中文在这方面,尤其是代表知识创新前沿的国际学术论文平台数据,与英文相比还存在很大的差距。要改变这一局面,一方面有赖于中国科技不断进步,产生更多原创于中国并用中文发表的科技成果;另一方面也应通过国际间的多语服务,推动中文优秀期刊进入国际学术资源库,推动国际期刊接受中文发表的论文。动态数据尽管质量不够确定,但也同样是重要的数字资源。目前人工智能的预训练语料多是静态数据,但未来为适应更丰富的语境、更多样的人类互动场景,满足更灵活功能需求的人工智能应用,还需要更多高质量动态数据的支持。中国应发挥在语料库建设方面的优势,率先开展针对数字空间的中文动态数据语料库建设,为未来发展提前布局。

  第四,数字中文应用是数字中文发展的另一亮点。数据表明,在大语言模型及其应用的开发过程中,中文和英文几乎是唯二使用的两种语言。自主可控高性能大语言模型的研制和庞大且高素养中文的用户群体在各垂直场景的深度使用,必将为中国人工智能的发展带来更加美好的未来。基于大语言模型在国际间灾害救助等多语种服务等方面的成功案例,彰显了中国作为负责任大国的道义与担当。未来可以通过基于人工智能的国际间多语数字语言服务,更好地发挥中文在国际组织、国际赛事、国际展会中的作用,也可通过跨国语言服务合作,推进数字博物馆、数字自然文化遗产等建设。