首页 概况 动态 技术报告 资源 研究小组 成员 内部系统
首页研究小组>语料库多级标注

现代汉语语料库的多级标注

最基础的工作是开发了汉语句子的词语自动切分和词性自动标注软件。已有19个境内外的单位从北大计算语言所购买了该软件的许可使用权。

北大计算语言学研究所在词语切分和词性标注的基础上又探索了短语的自动辨识及类型标注。

凭借资源与技术的优势,19994月我所同富士通公司签订了协议。按北大计算语言学研究所提出的规范将加工1年《人民日报》的语料(合同暂订半年的)。这将是对中文信息处理又有巨大影响的一项语言工程。已开始实施。
 

大规模语料库加工工程首期任务顺利结束

经切词和词性标注的语料库样例



经北京大学计算语言学研究所、富士通研究开发中心有限公司、人民日报社新闻信息中心三方协商后,决定将一个月的切分、标注语料免费公开。如果您同意遵守《PFR人民日报语料免费公开的声明》,请单击下面的链接,填写您的基本信息,然后下载。

下载1998年1月人民日报切分、标注语料库
 

小组主页:CT Group>>