
2026年3月15日晚,由北京谈话大学谈话资源高精尖改造中心专揽的“语料库树立琢磨会暨BCC 2.0发布会”在线上召开。本次会议面向宇宙谈话究诘者与从业者,系统发布了北京谈话大学语料库中心BCC语料库(Beijing Language and Culture University Corpus Center)2.0版块,为大模子期间的谈话资源树立与智能化究诘注入新动能。
为竣事语料库才智平常赋能学界,团队发布了包含BCC主邀功能的谈话结构假想器具包,可供各单元究诘者免费离线试用。本次发布还绽放了多个领域的字词频基础数据集。

图1 BCC 2.0主界面
BCC语料库系统发起东说念主、正经东说念主、北京谈话大学教师荀恩东默示,北语语料库团队已深耕语料办事领域近20年,长期伴随谈话究诘者成长,见证了谈话资源树立理念的迭代校阅。大模子期间,语料库树立和究诘在从头照准定位的同期,将为数字中国树立、数字汉文发展和学科转型提供建壮能源和坐蓐基础。
在题为《BCC语料库树立与诈欺》的主叙述中,荀恩东全面记忆了BCC语料库从1.0到2.0的发展进程,重心阐释了数智期间语料库树立和究诘的新场所与新趋势,并先容了新版块在底层检索引擎重构、语料数据更新等方面的中枢冒失。他指出,BCC 2.0通过技巧升级全面普及了检索精度与遵循,同期绽放个东说念主语料库自主构立功能,大概无邪贴合不同究诘者的个性化需求,开云体育官网为谈话究诘迈向智能化新高度提供坚实复古。
在专题演示递次,北京谈话大学副究诘员饶高琦展示了BCC语料库2.0的新冒失与新功能,直不雅呈现了新版块在数据质地、检索效果、办事水平上的上风。
团队博士究诘生郭梦溪细心培育了谈话结构假想器具包(Language Structure Construction,LangSC)的技巧旨趣与诈欺场景,为究诘者搭建专属语料库、开展针对性究诘提供了可落地的技巧旅途。与会不雅众通过弹幕与留言积极互动,就语料库使用手段、功能拓展等问题与嘉宾张开潜入相通。
据悉,BCC 2.0语料库总字数约62亿字,遮盖现代社会谈话生计的多个领域,包括新闻、文体、白话、近代汉语、古汉语以及多领域均衡语料库,竣事了多个现代语体和近代以来154年历时报刊语料的全遮盖。通过北语自研的结构检索引擎,BCC 2.0语料库竣事超大界限数据高速端倪检索,支抓词性、短语结构和文本的复杂夹杂查询,并竣事了在线统计和甩掉可视化。
改日,团队将抓续优化BCC语料库功能,鼓吹语料资源的绽放分享与智能化诈欺,为学科转型发展夯实谈话资源基础,助力中国谈话笔墨究诘奇迹高质地发展。
(光明日报全媒体记者柴如瑾、周世祥)开云体育(中国)官方网站
米乐体育(M6Sports)官网入口