汉 语 文 本 切 分 与 词 性 标 注

(Chinese Text Segmentation and POS Tagging, 1998 Version)


   在书面汉语中,字与字、词与词是连写的,词在句中没有显式的标记。因此,理解汉语的首要任务就是把连续的汉字串分割成词的序列,即自动分词。近二十年来,汉语自动分词研究取得了很大成就,提出了许多分词算法 。

  这里提供的是北京大学计算语言学研究所开发的一个汉语切分与标注软件 的小规模测试版。这个系统基于一个高质量的通用汉语词典,并使用统计和规则相结合的处理方法,准确性和运行性能都作了优化。目前,该软件已被国内外多家单位选用,效果良好。欢迎大家 在这里进行测试,并将意见反馈给我们。

(说明:切分标注是一个软件,注音是另一个软件;
“切分标注与注音”是两个软件联合运行的结果。)

请输入需要切分与标注的文本(<100个汉字):

切分标注    切分    切分标注与注音

 


注:本软件使用的词类标记,请参看汉语文本词性标注标记集。 更详细说明请参 考《现代汉语语法信息词典详解》

  <<返回