首页 概况 动态 技术报告 资源 研究小组 成员 内部系统

研究所新闻与动态
* 标题 “综合型语言知识库”又获奖项
内容 北京大学计算语言学研究所的综合型语言知识库(简称:CLKB)继2007年获教育部科技进步奖一等奖、2008年获北京技术市场金桥奖项目二等奖之后,于2010年又获中国电子学会电子信息科学技术奖一等奖。中国电子学会电子信息科学技术奖是经国家科学技术奖励工作办公室批准设立的奖项(国科奖社准字03-0053号),每年评选一次。中国工业和信息化部推荐其中获一、二等奖的部分项目申报国家科学技术奖。综合型语言知识库已被推荐申报2011年度国家科学技术进步奖,并在公示中。
CLKB 的25年研发历程可分为3个阶段。第一阶段前10年(1986-1995)的任务是探索奠基,标志是其第一块基石《现代汉语语法信息词典》1998年获教育部科技进步二等奖。第二阶段的中间11年(1996-2006)为构建落成阶段,CLKB于2007年通过教育部组织的技术鉴定并获教育部科技进步一等奖。第三阶段(2007至今)则进一步拓展、深入,973项目“数字内容理解的理论与方法”(2004-2009)在验收时首席科学家谭铁牛教授将“综合型语言知识库系统”推荐为973计划项目重大研究成果,同时参与推荐的另外三位专家的满意度评分也均为最高,并认为是原创性成果、重大创新和突破性进展。2010年主要是根据近3年所取得的成果申报中国电子学会奖项的。
申报国家奖的CLKB包括6个语言知识库、10项规范与标准、4个核心基础软件和4个应用系统,它们相互支撑,形成一个紧密联系的有机整体。语言知识库是CLKB的主体,主要有:(1)现代汉语语法信息词典,含8万词的360万项语法属性描述;(2)汉语短语结构规则库,含600多条语法规则;(3)现代汉语多级加工语料库,实现词语切分并标注词类的基本标注语料库1.5亿字,其中精加工的有5200万字,标注义项的有2800万字;(4)多语言概念词典,含10万个以同义词集表示的概念;(5)平行语料库,含对译的英汉句对100万;(6)多领域术语库,有35万条中英对照的术语。CLKB的系列化语言知识库涵盖词、词组、句子、篇章各个语言单位和词法、句法、语义各个知识层面,从汉语向多语言辐射,从通用领域深入到专业领域。CLKB还在发展中。
CLKB中的规范和论著被广泛引用,数据资源的免费用户数以万计。自1996年以来的签约用户遍布美、日、德、法、俄、英、韩、瑞典、新加坡和中国大陆、台湾、香港,包括从事相关研究的著名企业、大学和研究所。最新的技术转让协议于2011年3月执行,CLKB生命期之长在IT领域实属罕见。
感谢业界先进、同仁和用户长期以来对CLKB的支持和关爱,衷心期望学术界和企业界继续关注和扶植“综合型语言知识库”,期望它在以汉语为中心的语言信息处理技术的发展历程中发挥更多、更有效的作用。

附件:
 <<返回 发布者:俞士汶   访问人次: 7754