中文互联网语料资源平台发布

当前位置：首页 > 要闻

中文互联网语料资源平台发布

2025-01-17【打印】

编者按：

　　当前，各地地方志工作机构都在积极建设地方志数据库，而数据库建设具有技术集中、资金集中、人才集中的特点，且数据组织较为复杂、逻辑严密，兼容性差，资源整合难度大，全文数据库还涉及知识产权问题。在不具备建设大型全文数据库的条件下，以文本为主要组织形式的语料库可作为一种替代方案，通过简单的元数据组织，也能支撑大规模、多来源数据的存储、检索等基础服务。如能利用人工智能技术进一步做分词、词性标注、命名实体识别处理，可以进行史料检索、量化分析（词频分析、历时性分析）及深层次知识发现的研究，加以智能问答、网络分析、知识图谱模型训练，也可以实现智能化服务。地方志工作机构不妨从地方志专门语料库建设这个“切口”着手，由易而难，自小而大，使之成为地方志资源走向社会的“窗口”、活化利用的“出口”。

　　1月9日，在中国网络空间安全协会人工智能安全治理专委会工作年会上，中文互联网语料资源平台正式面向社会发布。

　　在中央网信办指导下，中国网络空间安全协会会同国家互联网应急中心，协同人工智能产、学、研、用单位，共同建设中文互联网语料资源平台，面向社会提供中文互联网基础语料展示下载服务。平台支持行业领域、内容模态、体量规模等多种标签分类，便于用户下载与使用。

　　目前平台共入驻27个语料数据集，数据总量约2.7T，主要分三类：一是中国网络空间安全协会会同国家互联网应急中心等建设的中文互联网基础语料；二是人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料；三是中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位贡献的优质中文基础语料样本。登录中国网络空间安全协会官网（https://www.cybersac.cn），即可在首页注册使用平台。

　　下一步，平台将依托中国网络空间安全协会人工智能安全治理专委会建立的语料共建共享机制，持续吸纳优质中文互联网语料进驻，探索开展数据来源合规评估、质量评价、安全检测等服务，构建健康可持续的中文互联网语料开发利用生态，促进和支撑大模型产业发展。

（来源：“网信中国”微信公众号）

图片新闻