首页 概况 动态 技术报告 资源 研究小组 成员 内部系统

技术报告、论文和资源下载更新
* 标题 北大词义标注语料库 2007 版
内容 北京大学计算语言学研究所(ICL/PKU)正在研究开发一个大规模、高质量的现代汉语词义标注语料库(Chinese Word Sense Tagging Corpus, STC),力争成为现代汉语词义消歧研究训练和测试的基准语料,成为现代汉语词汇语义学研究的宝贵资源。词义标注语料库的语义知识主要来源于ICL/PKU开发的《现代汉语语义词典》,再参照《现代汉语词典》,根据语料的实际使用状况对词义描写作出调整,标注的对象是经过了词语切分和词性标注的人民日报基本标注语料库。
2006年4月我们发布了词义标注语料库的一个最初版本,2007年4月将发布一个更新版本(Version_2007),期望继续获得学界的批评与方家的指正。发布的内容包括 3 个部分:1)内容简介;2) 词义标注语料库;3) 义项分布频率统计表。一年的时间中我们一方面对原有的语料标注进行了大量仔细的校对,另一方面又拓展标注了一些新的多义词,其中的部分语料作为基准训练和测试语料参加了SemEval-2007子任务“Multilingual Chinese-English Lexical Sample Task”。
词义标注语料库的建设和《现代汉语语义词典》的更新是一个互动增长的过程。一方面依据词典中的意义区分对语料中出现的多义词语赋予一个确定的义项,另一方面根据语料中词语的实际使用状况对词义区分作出调整和修改。词义标注语料库采用意义编码的方式来表示不同义项,词性标注后 ! 第一个数字表示同形信息,第二个数字表示义项信息,同形信息和义项信息加在一起形成词语的义项编码。
欢迎您提出宝贵意见。任何建议和批评请联系 wuyf@pku.edu.cn.
附件: /icl_intra/post_uploaded/wuyf_2007-4-13_15-58-57_2007_3_30(v2).rar
 <<返回 发布者:吴云芳   访问人次: 4903