首页 概况 动态 技术报告 资源 研究小组 成员 内部系统

技术报告、论文和资源下载更新
* 标题 北大词义标注语料库新鲜面世
内容 北京大学计算语言学研究所(ICL/PKU)正在研究开发一个大规模、高质量的现代汉语词义标注语料库(Chinese Word Sense Tagging Corpus, STC),力争成为现代汉语词义消歧研究训练和测试的基准语料,成为现代汉语词汇语义学研究的宝贵资源。词义标注语料库的语义知识主要来源于ICL/PKU开发的《现代汉语语义词典》,再参照《现代汉语词典》,根据语料的实际使用状况对词义描写作出调整,标注的对象是人民日报经过了词语切分和词性标注的基本标注语料库。
这项研究是国家973课题“文本内容理解的数据基础”(课题编号:2004CB318102,课题负责人:俞士汶教授)所属的一项子任务。该课题属于国家 973项目“数字内容理解的理论与方法”(首席科学家:谭铁牛教授)。子任务负责人是吴云芳博士,先后参加这项研究工作的有:段慧明高级工程师,张仰森教授,曲维光副教授,郭涛,金澎(博士生),温珍珊(硕士生),幸运(硕士生),裴雨来(博士生),芮芊芊(本科生)。子任务组衷心感谢973项目的资助以及谭铁牛教授和俞士汶教授的指导。
词义标注语料库建设建立在ICL/PKU雄厚的语言资源技术基础上。《现代汉语语法信息词典》(GKB)是整个语言资源大厦的第一块基石,这是一部面向语言信息处理的大型电子词典,依照语法功能和意义相结合的准则收录了8万词语,在大致分类的基础上按类描述了每个词的各种语法属性。在GKB的基础上发展的《现代汉语语义词典》面向机器翻译应用,建立了汉语语义分类体系,并据此描述了6万余词语丰富的语义组合信息;“大规模基本标注语料库”有一个严谨的适应汉语特点和应用需要的基本加工规范,词语切分和词性标注的准确率都达到了很高的水平。ICL/PKU已有的这些成果,使我们的词义研究有了一个较高的起点。
截至目前,已对 106 个动词、350 个名词进行了义项区分和描写,在人民日报 2000 年1、2、3 月和1998 年 1 月 1-10 日 10天的语料中共标注了 54550 个词语的意义。现将词义标注语料库的一个小规模成果公布于学术界,以期获得学界的批评与方家的指正。发布的语料为1998 年 1 月 10 日的文本共计约 35 万字,已分析标注 217 个多义名词和 45 个多义动词,共标注了 4093 个词语的意义。发布的内容包括 5 个部分:1)内容简介;2)词义标注语料库;3)现代汉语语义词典,多义名词和动词的分析描写;4)义项分布频率统计表;5)中心词对齐索引格式(KWIC)的义项文件。
词义标注语料库建设和《现代汉语语义词典》是一个互动增长的过程。一方面依据词典中的意义区分对语料中出现的多义词语赋予一个确定的义项,另一方面也根据语料中词语的实际使用状况对词义区分作出调整和修改。《现代汉语语义词典》采用属性特征的形式来描述意义,这次发布的只是词典中的部分内容。词义标注语料库采用意义编码的方式来表示不同义项,词性标注后 ! 部分表示义项序号,第一个数字表示同形信息,直接继承自《现代汉语语法信息词典》,第二个数字表示义项信息,是在同形的基础上对意义的进一步区分。
我们将按期报告词义标注语料库建设的进程和有关问题。
欢迎您提出宝贵意见。任何建议和批评请联系 wuyfster@gmail.com.

附 词义标注语料库研究的起点资料:
中国社科院语言研究所词典编辑室编. 1996. 2005.《现代汉语词典》.北京:商务印书馆.
俞士汶等.2003.《现代汉语语法信息词典详解》.北京:清华大学出版社.
王惠,詹卫东,俞士汶.2003. 现代汉语语义词典规格说明书.《汉语语言与计算学报》, 13(2),Pp 159-176.
俞士汶,段慧明,朱学锋,孙斌,常宝宝.2003.北大语料库加工规范:切分、词性标注、注音. 《汉语语言与计算学报》, 13(2),Pp 121-158.
吴云芳,俞士汶.2006.信息处理用词语义项区分的原则和方法.《语言文字应用》待刊.
附件: /icl_intra/post_uploaded/wuyf_2006-4-1_9-48-40_wuyf_2006-3-31_15-6-23_上网语料.rar
 <<返回 发布者:吴云芳   访问人次: 5387