文本框: 北 京 大 学
计 算 语 言 学
研 究 所

 

 2  人员简介

 8  科研工作简介


 9  现代汉语语法信息词典

10  大规模现代汉语标注语料库

11  注音语料库

11  双语(汉英)平行语料库

12  现代汉语语义词典

12  中文概念词典

13  短语结构规则库

14  汉语词语切分与词性标注软件

14  汉语自动注音软件

14  机器翻译研究与系统实现

15  信息提取技术与系统实现

16  信息领域术语辅助提取及术语库的建设

17  中国古诗词计算机辅助研究

18  机器翻译与机械文摘的自动评价

18  受限汉语及其辅助写作系统

19  网上信息提取与服务系统

19  高性能Web资源传输控制的方法、技术与应用系统


21  发表论著论文目录

35  历届硕士、博士毕业论文目录

文本框: 第7届自然语言分析技术国际研讨会(IWPT2001)于2001年10月在我所召开

 

 

 

 

 

 

 

 

 


北
大
计
算
语
言
所
人
员
简
介工作人员                 

 

 

 

 

 

杨芙清

女,193211月出生,汉族,江苏无锡人。中国科学院院士。北京大学信息与工程科学学部主任,兼任北京大学计算语言学研究所所长。

杨芙清教授是我国第一代计算机软件科学家。在系统软件、软件工程、软件工业化生产技术和系统等领域卓有建树;曾荣获国家科技进步二等奖、电子工业部科技进步特等奖、何梁何利基金科技进步奖、潘文渊研究杰出奖、光华基金一等奖以及全国“三八”红旗手、全国高等学校先进科技工作者等二十余项国家及部委级奖励。发表论文90多篇,出版著作7部。

在北大计算语言学研究所发展的若干关键时刻,杨芙清教授发挥了极其重要的指导作用。

 

陆俭明

男,1935 11 月 生,江苏省吴县人。1955 年考入北京大学中文系学习,1960年本科毕业并留北京大学中文系任教至今。1985年晋升为教授,1986年评为现代汉语博士生导师,主要从事现代汉语法、对外汉语教学、中文信息处理以及中学语文教学等研究。现任北京大学汉语语言学研究中心主任、北京大学计算语言学研究所副所长、北京大学人文学部学术委员会委员、世界汉语教学学会会长、中国语言学会副会长、中国社科院语言所和国家语委学术委员会委员以及南京大学等14所高等院校兼职教授等职;曾任新加坡教育部课程发展署华语顾问;2000年被香港理工大学评选为大陆杰出学人。

先后主持和参加了现代汉语句法语义研究、汉语词类问题研究等多项重大科研项目。在《中国语文》、《世界汉语教学》等杂志发表论文 120 余篇,专着有《现代汉语虚词散论》(与马真合写)、《八十年代中国语法研究》、《陆俭明自选集》等。

 

俞士汶

男,193812月出生。北京大学数学力学系毕业。现任北京大学计算机科学技术系教授,计算语言学研究所副所长,兼任中国中文信息学会常务理事、中国计算机学会理事和学术委员会副主任等职。

1986年前主要从事国产计算机系统软件的研制工作,1986年后,一直致力于计算语言学与自然语言处理技术的研究并主持多个国家重点科技攻关项目、自然科学基金项目、863项目、社会科学基金项目、973项目以及国际、两岸合作项目,先后获部委级奖励3项、荣誉证书3项、北京大学奖励3项等奖励。《现代汉语语法信息词典》等系列研究成果影响广泛,许可使用权目前已转让到全国和世界各地的50多家研究机构、公司。迄今培养了数十名博士研究生、硕士研究生和国内外访问学者。

主要著作有:《现代汉语语法信息词

典详解》、《英汉对照计算语言学词

语汇编》、《Logo语言教程》、《操作

系统结构分析》等,另发表论文100

多篇。电子邮件为yusw@pku.edu.cn

 

冯志伟

国家语委语言文字应用研究所教授,

文本框: 前排:杨芙清院士(左五)、俞士汶教授(右二)、冯志伟教授(右三),后排:陆俭明教授(左五)

 

北京大学计算语言学研究所兼职教授。

王逢鑫

北京大学英语系教授,北京大学计算语言学研究所兼职教授。

 

王惠临

中国科学技术信息研究所教授,北京大学计算语言学研究所兼职教授。

 

 

 

(以下按拼音顺序排列)

 

常宝宝

男,19719月出生,1995年毕业于山西大学计算机科学系,获硕士学位,1995年起在北京大学计算语言学研究所俞士汶教授指导下攻读博士学位,并于1999年获得博士学位,同年起至今,在北京大学计算语言学研究所任讲师,主要研究兴趣包括:机器翻译,计算语言学。目前正参加973三级子课题“面向新闻领域的汉英机器翻译系统”项目。电子邮件为chbb@pku.edu.cn

 

段慧明

女,1957年出生。目前为北京大学计算语言学研究所高级工程师,主要从事机器翻译自动评价及大规模汉语语料库切分与标注的加工校对工作。我感谢富士通公司给我们一个拼搏的机会;同时,我也很高兴能和众多的同仁共同努力,三年的工夫没有白费,高质量的大规模汉语语料库目前已经完成,并开始被人们使用。它的出现确实给徘徊不前的自然语言处理带来希望的曙光。在此基础上,我们期待在不远的将来会有一些新的研究成果,给汉语自然语言处理领域带来更多的惊喜。电子邮件为duenhm@pku.edu.cn

 

郭涛

女,19729月出生。1992年至今,在北京大学计算语言学研究所工作,1997年毕业于北京大学成教学院计算机专业专科。长期参加“现代汉语语法信息词典”研发过程中电子数据库处理部分的工作并从事计算机辅助科研、文字处理、图书资料管理等方面工作。电子邮件为gtwcq@pku.edu.cn

穗志方

女,19706月出生。1998年在北大计算机系获得博士学位。19987月至20006月在计算语言学研究所从事博士后研究,并在香港科技大学计算机科学系作访问学者。20009月至20021, 任香港iSilk公司研究科学家。现为北大计算机系计算语言学研究所讲师。研究领域:自然语言处理, 计算语言学, 机器翻译, 信息检索。电子邮件为szf@pku.edu.cn

 

孙斌

男,分别在北大物理系和计算机系获硕士和博士学位。研究兴趣包括:计算理论、程序设计语言与方法、语言信息处理、Web与网络资源传输、概率模型等。电子邮件为bswen@pku.edu.cn

 

王厚峰

男,19659月出生。1998年于武汉大学计算机科学系获得博士学位,方向为计算机软件与理论。

现为北京大学计算机科学技术系计算语言学研究所副教授。本人研究兴趣为计算语言学,机器翻译。

闲暇之余,爱好打羽毛球。电子邮件为wanghf@pku.edu.cn

 

王惠

女,196710月生于安徽,1992年获北大中文系硕士学位,2002年获北大中文系博士学位,

1992年硕士毕业至今,为北大计算语言学研究所讲师。研究领域:计算词典学、词汇语义学、

语法—语义接口。

个人爱好:旅游。电子邮件为whui@pku.edu.cn

 

于江生

男,祖籍山东,1971年月生于江西南昌。1996年获北大数学系硕士学位,1999年获北大数学系博士学位

(计算语言学方向)。现为北大计算语言学研究所副教授。研究领域:计算语义学、统计语言学、

计算词典学、计算语言学等。个人爱好:摄影、旅游。电子邮件为yujs@pku.edu.cn

张化瑞

男,19704月生。1995年获清华大学硕士学位,同年到北京大学任教。2000年加入计算语言学研究所。

此前对键盘汉字输入及屏幕汉字显示作过一些研究,并把“声调起笔识别”、“逻辑双拼方案”

等应用于教学实践中。现在从事计算词典学方面的研究工作,并致力于俞士汶教授提出的综合语言

知识库的架构和实现,目前的初步设想是采用递归结构、实行分级管理,形成一个各部分

之间既能相对独立又能相互结合的有机整体。电子邮件为hrzhang@pku.edu.cn

 

 

                        王惠() 詹卫东() 张化瑞(),于江生摄于香港

 

朱学锋

女,193712月出生。现为北京大学计算机科学系计算语言研究所副教授。作为主要成员参加了现代汉语语法信息词典、机器翻译译文质量评估软件等科研项目,并分别获科技进步二、三等奖,另外,获北京大学科技成果二等奖2项及三等奖1(均第2)。主要著作有:《现代汉语语法信息词典详解》、《英汉对照计算语言学词语汇编》(均第2作者)。发表论文30余篇。

 

詹卫东

男,19728月出生。1999年毕业于北京大学中文系,获文学博士学位,19997月至今任北京大学中文系讲师。个人研究领域:现代汉语语法、机器翻译。个人爱好:球类运动、游泳等。电子邮件为zwd@pku.edu.cn

 

后       

 

胡俊峰

男,196712月生。20017月于北大计算语言所获得博士学位。感兴趣的领域:

中国古代诗歌的计算机辅助研究,术语知识库的构建。爱好:看闲书、听音乐、打太极拳。

电子邮件为hujf@pku.edu.cn

                                              胡俊峰与Wolfgang Tuebert教授(伯明翰大学留影)

 

李素建

女,19755月生于山东,1996年山东工业大学计算机系硕士,1999年中国科学院计算技术研究所博士,现为北大计算语言学研究所博士后。研究领域:自然语言处理、机器翻译、知识挖掘。电子邮件为lisujian@pku.edu.cn

 

李佐文

男,副教授,北京大学计算语言学研究所博士后研究人员。研究方向:认知语用学,语料库语言学,篇章语言学。电子邮件为lizw@pku.edu.cn

 

刘云

男,19732月生于湖北,1996年获武汉大学文学学士学位,1999年获华中师范大学文学硕士学位,2002年获华中师范大学文学博士学位,现为北京大学计算语言学研究所博士后。研究领域:汉语专名学、汉语句法学。电子邮件为liuyun@pku.edu.cn

 

生                 

 

柏晓静

女,2001级博士生。197511月生于重庆,喜爱大部分运动。先后在四川外语学院和上海外国语大学读了七年英语,出于对机器翻译的向往而开始学习计算语言学。希望能在人工翻译和机器翻译之间为自己找到一个平衡点,希望能在文理科之间为自己找到一个平衡点,希望能一直做自己热爱的工作。电子邮件为baixj@pku.edu.cn

 

陈玉忠

男,19632月生,副教授,全国藏文教材审查委员会委员。90年硕士毕业后在青海师范大学任教10年,先后主持863项目2项,自然科学基金项目1项,省级项目多项,并获省级科技进步二等奖一项,省级优秀教学成果二等奖一项。现为北京大学博士生,主要研究领域为藏文信息处理、机器翻译、术语学。个人兴趣:佛学。电子邮件为degai@pku.edu.cn

 

何燕

女,生于19733月。曾任联想研究院信息工程实验室语言分析工程师。研究兴趣和研究方向包括:分词中的未登录词提取、术语概念研究和知识库工程。电子邮件为jemily_he@yahoo.com.cn

 

李保利

男,19718月生,19994月毕业于华北计算技术研究所,获计算机软件与理论专业工学硕士学位,主要从事中文信息处理领域的研究与开发,对自己不熟悉、不了解的任何领域都有兴趣,曾经做过有关受限汉语、数据库自然语言接口、汉语分析、文本校对、汉语文本切分与词性标注、汉语文本自动分类、信息提取、语料库分析处理、机器学习、信息安全、网络协议等方面的研究开发工作,目前主要致力于中文信息提取、汉语文本篇章分析、自然语言处理中的机器学习技术等方面的研究。电子邮件为libl@pku.edu.cn

 

刘扬

男,197110月出生。20007月毕业于北大计算机科学与技术系,获计算机软件与理论专业理学硕士学位,随后进入北大外语学院,继续攻读应用语言学方向博士学位。目前在王逢鑫、俞士汶教授的指导下从事北大计算语言所的(双语) WordNet语义知识库CCD项目的研发工作。个人对自然语言、认知科学和计算机等诸多方面的问题都有浓厚兴趣。电子邮件为liuyang@pku.edu.cn

苏祺

女,19791月出生。20026月于中国地质大学(北京)获硕士学位。目前为北大计算语言所博士生。研究领域:计算语言学。个人爱好:音乐、文艺、美术设计。电子邮件为sukia@21cn.com

 

吴云芳

女,生于黄土高坡的一个山棱上,小时最大的理想就是到北京看天安门。1995 年到北京语言文化大学读对外汉语教学,在张普、陈小荷教授的指点下进入计算语言学的迷宫。1998 年获得硕士学位,到中软总公司,后又辗转在 CCID 工作,于2000 年进入北京大学成为博士生,师从陆俭明、俞士汶教授。目前最大的理想是成为一个合格的北京大学博士研究生,别无他求。世界杯后爱上了足球,还有好看的球星。电子邮件为wuyf@pku.edu.cn

 

昝红英

女,生于196610月,19887月获兰州大学计算机科学系学士学位,19913月获电子科技大学计算机系硕士学位,现为北京大学计算语言学研究所博士。研究领域:计算语言学、信息提取。个人爱好:音乐、运动和旅游。电子邮件为zanhy@pku.edu.cn

 

生                 

 

苏玉梅

女,19783月出生。北京大学计算机系硕士研究生,所在领域:中文信息提取。

个人爱好:舞蹈。电子邮件为suyumei@pku.edu.cn

 

 

 

 

 

 

温珍珊

男,198011月出生。于20027月获理学学士学位,并被推荐保送至北京大学计算语言所继续攻读硕士学位。

研究领域:计算语言学中统计方法的运用。感兴趣领域:计算语言学,程序设计,MS.NET平台。

爱好:羽毛球,音乐。计算语言所是一个温暖而又富有活力的大家庭,我会尽自己的所能,

为这个大家庭的发展添砖加瓦。电子邮件为wenzs@pku.edu.cn

 

吴拥华

男,197810月出生。2001年毕业于北京师范大学数学系统计与概率专业,目前在北京大学计算语言所攻读硕士学位。研究领域:机器翻译。感兴趣领域:自然语言处理、网络安全、攻防技术等。爱好:羽毛球、游泳、足球、篮球、唱歌(阳台歌手)。电子邮件为wyongh@pku.edu.cn

 

叶嘉明

男,生于19807月,20027月本科毕业,并被推荐保送至北京大学计算语言所攻读硕士学位。个人研究领域:机器翻译。个人爱好:生性好静,爱读书。但也爱好篮球、游泳等体育运动,喜欢流行音乐,爱好竞技类游戏,对电脑DIY有浓厚的兴趣和一定的经验。电子邮件为yejm@pku.edu.cn

生                 

 

梅俏竹

男,四川成都人,19824月出生,北京大学计算机科学技术系99级本科学生。目前在做古诗词计算机辅助研究的工作,感兴趣的领域还有网络文化、网络信息提取和远程教育等。爱好广泛:长笛、围棋、足球和文学、诗词都很喜欢,但博而不专,时常贻笑大方。自诩为爱好一切美的东西,但常常宣称凡是自己喜好的就是美的。喜欢朋友,喜欢幻想,也喜欢一个人面对夕阳。电子邮件为meiqzh@pku.edu.cn

 

 

 

 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

北大计算语言学研究所

科研工作简介

 

文本框: 主要研究领域——
计算语言学与自然语言处理技术

 

              语言模型与分析技术

             * 计算词典学

             * 语料库语言学

             * 机器翻译的理论、技术与系统实现

             * 中文信息提取技术与系统实现

             * 术语学与术语标准化

             * 计算语义学

             * 中国古诗词计算机辅助研究

             * 机器翻译译文质量与机械文摘自动评价

文本框: 目前正在进行的
科研项目

 

             * 受限汉语及其辅助写作系统

       *国家重点基础研究项目(973

                      面向新闻领域的汉英机器翻译系统(项目号:G1998030507-4

      *国家高技术研究发展计划(863

智能中文信息处理平台(项目号:2001AA114040)之两个子课题:

——大规模汉语基本标注语料库

——中文概念词典和义项标注语料库

     *国家高技术研究发展计划(863

高性能Web资源传输控制的方法、技术与应用系统(项目号:2001AA111201-1

     *国家自然科学基金项目

中文信息提取技术研究(项目号:69973005

     *国家自然科学基金项目

汉语指代消解与多文本交叉共指研究(项目号:60173018)

     *国家质检局中国标准研究中心项目

信息领域术语辅助提取及术语库的建设

     *IBM-北大创新研究院项目

网上信息提取与服务系统(项目已启动,项目名称在拟议中)

         *北大985项目

中文概念词典及其在信息提取中的应用

         *自选项目

现代汉语语法信息词典的发展

唐宋诗词计算机辅助深层研究系统

综合型语言知识库的建设

部分研究项目和研究成果介绍 

 

 


 

文本框: 现代汉语语法信息词典

 

 

 

《现代汉语语法信息词典》是以国家“七五”、“八五”科技攻关成果为基础历时16年的研制而取得的一项基础研究成果。在研制过程中,先后与国家自然科学基金项目“自然语言的计算理论”(19911993)和“面向汉语理解的短语信息库的构造”(19951997)、 国家社科基金语言学科“九五”重大课题之子课题“现代汉语词的语法属性描述研究”(19982000年)等研究课题相结合,并与日本富士通公司和美国微软公司进行过合作 。

《现代汉语语法信息词典》的研制目的是为中文信息处理建立最基本的语言知识库。根据语法功能和义项相结合的原则收录了汉语通用词语7.3万余条。根据语法功能分布的原则建立了面向信息处理的词类划分体系,并实际完成了这7.3万词语的归类。在此基础上,又对属于同一类的各个词语详细描述了它们的相互区别的语法属性。

《现代汉语语法信息词典》完成的7.3万词语的归类已是汉语学界前所未有的大规模语言工程,而总量达300万项的语法属性的准确描述更是包含了丰富的语法知识。中国电子部于1995年底组织了专家鉴定。鉴定意见指出:《现代汉语语法信息词典》“对真实文本的覆盖率高,所采用的词类体系反映了汉语语法研究的最新成果,对语法属性的描写非常深入、非常丰富,具有较高的权威性、可靠性,该词典的规模、深度与质量在我国语言工程实践中是前所未有的,达到了国内外领先水平。”

《现代汉语语法信息词典》的规格说明书在《中文信息学报》1996年第2期全文发表之后,引起中文信息处理学界和企业界的广泛重视。更详细地介绍这部词典的专着《现代汉语语法信息词典详解》于1998年出版,更扩大了它的影响。该词典以及北大计算语言学研究所在其基础上发展的语言信息处理系列成果(包括词语切分和词性标注软件、短语结构知识库、自动注音软件、注音语料库、英汉对照双语语料库、现代汉语语义词典、中文概念词典等)的许可使用权已经转让给了50多个大学和公司的研究机构。涉及的地域除中国境内和香港、台湾外,还有美国、日本、德国、韩国、法国、瑞典和新加坡。像MicrosoftIBMIntelXeroxFujitsuToshibaMatsushitaNTTCanonSail-Labs(德国),Enpia(韩国),联想,青鸟,北佳等IT界的著名企业都在使用北大的语言信息处理基础研究成果。

《现代汉语语法信息词典》是北大计算语言学研究所计划建设中的综合型语言知识库的第一块基石。该词典

1998年获“中国教育部科技进步二等奖”。

《现代汉语语法信息词典》的10000词语的样例可以在北大计算语言学所的主页上下载。

20025月最新完成的《现代汉语语法信息词典详解 (2)》已交清华大学出版社付印,年内可以面世。

 

文本框: 大规模现代汉语标注语料库

 

 

 

 

北大计算语言所从1992年起开始研究现代汉语语料库的多级加工,已有10年的历史。所取得的重要成果首推自19994月至20024月历时3年完成的1998年全年《人民日报》的标注语料库。该语料库包含2600多万汉字,对全部语料已完成词语切分和词性标注等基本加工。该项成果通过了合作单位Fujitsu的验收。其中19981月份的200多万字的语料已在网上(www.icl.pku.edu.cn icl.pku.edu.cn)公布,可以免费下载,据网页统计,自2001510日起82止,已登记了521次下载。上半年的1300万字的语料正通过人民日报社新闻信息中心向业界转让许可使用权。此外,计算语言所又完成了另外100万字语料的加工任务,除了词语切分和词性标注之外,还增加了汉语拼音的“注音”。

尽管计算语言所为保证这些语料库的加工质量倾注了诚实的劳动,却不敢妄言没有瑕疵。计算语言所真诚希望,用户经常反馈他们的发现、意见或疑惑。研制者一定虚心接受批评、指正,决不讳疾忌医。研制者愿意同广大用户一起努力,共同创造出真正有价值、高质量的现代汉语语料库,为语言信息处理的发展和现代汉语文化建设贡献一份力量。

指导《人民日报》语料库的加工的《北京大学现代汉语语料库基本加工规范》 将在 《中文信息学报》2002年第5 期和第6期连载。该规范简称为《规范2001》。

2002年启动的国家863项目“智能中文信息处理平台(项目号:2001AA114040)”中,计算语言所承担了子课题“大规模汉语基本标注语料库”。计算语言所将完成另外700万字语料的基本加工任务。本子课题的语料加工规范仍采用《规范2001》。

由于研究工作总在不断深入,而且在2700多万字的加工实践中,也发现如果对《规范2001》中的一些切分、标注规则做一些调整,就可以把语料加工得更精细,加工后的语料库就可以提供更丰富的语言知识,因此,最近对《规范2001》又做了一次修订,并与注音语料库的规范结合在一起,形成一个新的《现代汉语语料库基本加工规范:切分·词性标注·注音》,简称为《规范2002》。北大计算语言所正在根据《规范2002》进行语料加工的实践。

 

 

 

 

 

 

 

 

 

 

 

 

 

文本框: 注音语料库

 

 


北大计算语言所选取了包括新闻报道、文学作品、小学课本、语言学专着等共一百万汉字的语料。在词语切分和词性标注的基础上,又完成了汉语拼音的注音工作。

文本框: 詹卫东在Sail Labs (Barcelona)

 

该项目已于20002月完成。该项目是北大计算语言所汉语自动注音技术研究的第一步,丰富了汉语语料库的多级标注的成果。

 

 

 

 

 

 

 

 

 

文本框: 双语(汉英)平行语料库

 

 

 


 

 

北大计算语言所于20世纪80-90年代开发了一个机器翻译译文质量自动评估系统MTEMTE中已有一个相当规模的测试集,包含近万句根据“英汉机器翻译译文质量测试大纲”精选的英语句子以及对应的译文。北大计算语言所现有的双语平行语料库包含了MTE测试集。

目前,北大计算语言所同中国科学院计算技术研究所、清华大学计算机系合作,正在开发一个面向新闻领域的汉英机器翻译系统。这个系统将采用多引擎机制,其中一个引擎是基于存储的(memory based)或者说是基于实例的(examples based)。实现基于实例的机器翻译的必要条件就是系统中有一个对齐的双语语料库(aligned bilingual corpus)。通常能大量收集到的双语语料库只是篇章级对齐的,对于机器翻译来说,至少需要句子级的对齐。如今,通过自动对齐软件收集并经人工整理的双语平行语料已经达到5万多句对。

北大计算语言所还在建设汉英对齐的短语库,规模已达5万个短语对。

 

文本框: 现代汉语语义词典

 

 

 


在机器翻译系统及其它自然语言处理系统中,通常都有一部包括句法、语义信息的电子词典。北京大学计算语言学研究所与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制为汉英机器翻译服务的《现代汉语语义词典》,目的是在语法分析的基础上,为计算机自动分析汉语句子和生成英语句子提供更深入的语义信息。1996年至1998年,双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号863-306-03-06-2)。作为该课题的一个重要组成部分,《现代汉语语义词典》进入到大规模开发阶段,并取得阶段性成果,完成了4.9万汉语常用实词(名词、动词、形容词)及部分成语、习用语的语义分类和配价信息描述。这些语义信息在汉英机器翻译系统中,能够为句法歧义消解,多义词义项判定等任务提供强有力的支持

目前,《现代汉语语义词典》的再开发国家973 项目“面向新闻领域的汉英机器翻译系统” 和“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”( 北大中文系承担)的支持,由北京大学计算语言学研究所和中文系合作进行。预计2003年初,《现代汉语语义词典》的规模将达到7万个记录,词典的质量也会有较大的提高。

《现代汉语语义词典》是综合型语言知识库一个重要的组成部分。它既可以在中文信息处理应用系统中独立使用,也可以通过“词语、词类、同形”这3个关键字段与《现代汉语语法信息词典》进行链接,相互配合使用,从而使系统获得更加完备的语法、语义信息。

文本框: 中文概念词典

 

 

 


北大计算语言所自20009月开始构建中文概念词典(Chinese Concept DictionaryCCD)的研究,该工作得到了国家自然科学基金项目(69973005)973项目(G1998030507-4)863项目(2001AA114040)和北大985项目的支持。

CCDWordNet框架下的现代汉英双语概念词典,同时提供汉英双语概念的语义知识表达。在词典的设计上,它继承了WordNet的主要思想和观点,从关系语义学的观点出发,用同义词集合(synset)来描述概念,用概念间的关系(relation)来描述语义;同时,针对中文的特点,CCD也对概念的内容和概念间的关系进行了一定的调整和发展。

CCD具有方便的语义关系表示和检索手段。同义词集合(同义关系)、上下位关系、整体部分关系等的描述,有利于实现概念的分级扩展和语义距离的计算,可以直接应用于机器翻译、自动文摘、文本分类、概念检索和信息提取等方面,为其中的语义理解任务提供宝贵的语义知识库资源。

目前,佳能、北佳公司已从北大得到CCD I期和II期中间成果的许可使用权 。这些中间成果通过了北佳公司的验收。

CCDI期工作完成了名词、动词、形容词和副词等1,500个概念。该期工作属于实验性的,目的在于探索此类词典的构建途径。曾试图借鉴WordNet的方法从零开始构造,但是,当概念逐渐增多时,工作量急剧增加,特别是关系指针的维护难度很大,局部的修改或扩充很容易造成全局的错误,如:指针关系循环、概念不封闭、全局上下位关系不合理等。

CCD课题组在II期工作中,将计算词典学的诸多新思想引入开发的各个环节,提出了CCD的新的构造模型。该模型强调双语词典(Bilingual Lexicon)构造中的继承(Inheritance)和转换(Transformation)的思想,希望从现有WordNet的英语的词汇语义信息出发,通过词典编纂者的翻译和可视化操作,逐步实现由WordNetCCD的计算性转换和词典结构的自动维护,自然地得到一个汉英对应的双语语义词典,从而大幅度提高此类词典编纂的质量和效率。针对该构造模型CCD课题组设计并实现了一个可视化的辅助词典构造软件VACOL (Visualized Auxiliary Construction of Lexicon),该软件目前在计算语言所已得到大规模的应用。CCD课题组现在已完成了 30,000个双语概念的描述 。

 

VACOL辅助词典构造软件界面

CCD课题组的出色工作得到了世界计算词典学界的认可, 在“第1届全球WordNet国际会议(GWC2002) ”和“第19届世界计算语言学大会(COLING2002) ”等重要会议上CCD课题组均有论文发表。

CCDIII期及以后的工作中,CCD 课题组希望实现概念的自动翻译,基本的想法是,在初步得到自动翻译的版本后,才考虑在VACOL软件上由词典编纂者进行进一步的人工校对和语义结构的改进。如果自动翻译的办法可行,再配以VACOL软件已经提供的人工调整的便利手段,则该模型无论是在理论的完整性方面,还是在工程实践的效率方面,都有更大的指导意义。

CCD最终目标将包含约60,000个双语概念,并与专业术语库TermBank相结合,同《现代汉语语法信息词典》、《现代汉语语义词典》以及“大规模语料库”一起纳入北大计算语言所的“综合型语言知识库”之中,成为中文信息处理的重要基础资源。

文本框: 短语结构规则库

 

 

 


现代汉语的短语(又叫词组)是由两个以上的词或短语按照一定的规则构成的、能在更大的句法结构中承担主语、谓语、述语、宾语、定语、状语、补语、中心语等功能的语法单位。针对《现代汉语语法信息词典》 中的18个基本词类,全面地考察了18*18=324种两两组合(例如名词和名词、名词和动词、动词和名词、动词和动词等)构成合法短语的情况,然后再用短语(名词性的,动词性的,等等)替代合法短语中的词类,递归地构造出更复杂的短语,如此得到600多条短语结构规则。

适应计算机自动处理的需要,这些规则是形式化的,严格地给出规则成立的条件及执行规则所产生的结果。例如,对于动-名组合具体地指明什么样的动词和什么样的名词可以构成什么样的短语,该短语是体词性的还是谓词性的,它继承了构成成分的哪些属性,失去了哪些属性,又派生了哪些新的属性等等。

 

文本框: 汉语词语切分与词性标注软件

 

 

 


文本框: S
 
NP                VP
 
n     v       NP         NP
                                    
r     MP      n
 
    m     q
 
老师    教    我们 一  支  歌

 

词法分析是汉语文本处理的第一步。无论开发信息统计、信息标引与提取、全文检索、文本数据库管理,还是开发文章校对、汉字输入、汉字识别、语音识别与生成,或是开发电子词典、机器翻译、汉语文本分类与摘要、人机智能接口、操作界面翻译提示等领域的系统,只要是涉及到汉语文本的分析和理解过程,都离不开一个基本且关键的步骤,即词法分析。因此,一个好的词语切分和词性标注子系统是开发任何中文文本处理系统的关键之一。计算语言所充分认识到汉语词法分析的重要性,并利用计算语言学的各项方法和技术成果,不断提高、改进词语切分与词性标注软件。

为计算语言所该软件确立并实现的主要技术特点是:采用有效的语言模型和算法模型,将词语切分和词性标注结合起来,利用词典中丰富的语法信息对切词决策提供帮助,并且在标注过程中对切词结果进行检验、调整,同时将基于规则方法的消歧与基于语料库的统计模型消歧结合起来,使规则的普遍性与灵活性得到统一。

该软件将最稳定、最常用的7万余条现代汉语基本词汇及其有关属性组织成为基本词典,这是该软件通用性的保证。在此词典的基础上充分利用汉语构词法的研究成果,可以识别出大部分的未登录词。同时该软件对用户词典机制作了最大限度的扩展,允许用户加入 30部自定义词典,并允许用户对这些词典的优先顺序自由排列,这样就可以用较小规模的多个特殊词典更有针对性地适应具体领域的文本处理。因此该软件的语言模型实现了通用性与多样性的有效结合。

该软件的算法模型综合了多种数据组织和搜索技术,以很低的时空开销实现了高速匹配和查找,同时采用了统计方法,运用隐Markov过程进行词类标注和消歧,对算法的效率和稳健性都作了尽可能的优化。

在北大计算语言学研究所的主页上可以测试这个软件的基本功能。

文本框: 汉语自动注音软件

 

 


对输入的汉语文本,在ICL自动切分标注软件的基础上,根据切分标注的信息,以及从语料中获得的相关规则,结合优先级表,对汉语中的多音字进行自动注音,最终输出拼音流,以及供分析用的切分、标注、拼音结果。

在北大计算语言学研究所的主页上也可以测试这个软件的基本功能。

文本框: 机器翻译研究与系统实现

 

 

 


“七五”期间北大计算语言所与南京大学、清华大学合作开发了

日汉机器翻译实验系统。

1994年,北大计算语言与中国科学院计算技术研究所合作开发汉英机器翻译系统。1996年至1998年双方共同承担了国家863高科技项目《通用机器翻译开发平台和汉英机器翻译系统》。此项目的语言学基础是词组本位语法体系和《现代汉语语法信息词典》,同时充分吸收了两个单位多年开发英汉和日汉机器翻译原型系统所积累的经验。此项目在1998年度863办公室组织的机器翻译评测中取得了很好的成绩。

1998年至2000年北大计算语言所与内蒙古大学、中国科学院计算技术研究所又合作承担了863项目《面向政府文献的汉蒙机器翻译系统》。

目前在研项目是国家重点基础研究项目(973)的一个子课题《面向新闻领域的汉英机器翻译系统》,由北大计算语言所和中国科学院计算技术研究所、清华大学智能技术与系统国家实验室共同承担。课题从20001月立项,预计到2002年底结束,目标是建立一个功能完整的面向新闻领域的汉英机器翻译系统。

研究内容包括:基于微引擎流水线的机器翻译系统结构,基于实例和基于模板的机器翻译方法等。目的在于探索面向篇章处理的汉英机器翻译方法,致力于面向汉英机器翻译的语言资源的获取和建设,建立起实用化的汉英机器翻译系统前后端处理部件。

 

 

 

 

 

 

 

 

 

 

文本框: 信息提取技术与系统实现

 

 

 

 


作为一门应用性的语言处理技术,信息提取(Information ExtractionIE)近年来正受到越来越多的重视。信息提取研究的是指定信息的查找、理解和提取,并以适当的方式输出所指定的信息。它是多种自然语言处理技术的综合应用,具有广泛的应用领域。计算语言所在原有《现代汉语语法信息词典》和“大规模标注语料库”等成果的基础上,于1997年开展了这方面的研究。探索了通用的信息提取模型,开发了一个中文信息提取原型系统,并从2000年起获得了国家自然科学基金的支持,并在2001年获得IBM-北大创新研究院的支持 。

本研究的最终目标是:实现一种基于语法、语义知识的通用信息提取系统,它具有高度的可移植性,只要更换相应的专业知识库,即可方便地在不同领域之间进行移植,适用于多种类别的信息提取任务。信息提取技术需要以信息理解的理论和方法作为基础,即需要自然语言理解的各种理论和方法。因此,本项目主要涉及两方面的内容,即中文信息提取所需要的语言处理技术的研究(语言分析方法,知识库的建造等);高性能、多任务中文信息提取系统的设计与实现(系统结构、设计、编码、维护等)。

本研究目前阶段的主要任务是制定中文信息提取系统各主要方面的规格说明,搭建一个构架,确定语法、语义分析方法, 并用两年的时间开发一个通用的信息提取系统,并具有初步的实用性和产品形态。 

整个系统采用两阶段处理策略:依靠通用的综合属性词典(句法和语义属性)、句法语义规则库,对文本进行切分、标注、命名实体识别和浅层分析,过滤掉不相干的文本;然后再对选中的句子进行比较细致的分析,将结果(句法关系、格关系等)记录到一个全局符号表中(即获取与指定信息相关的篇章/段落表示),并解决句间成分共指等关系。在全局符号表(篇章/段落表示)中进行信息匹配、提取、合并等,生成指定格式的输出。

在已有成果的基础上,目前正同北大计算机系网络研究室合作,开展“网上信息提取与服务系统”的开发,力图使已取得的成果尽快产生出效益。

 

文本框: 信息领域术语辅助提取及术语库的建设

 

 

 


文本框: 左图:2002年2月1日,中国标准研究中心与北大计算语言学研究所在中国标准研究中心举办了术语学和术语标准化研讨会。
下图:2002年3月5日,北大计算语言学研究所俞士汶教授(右二)及胡俊峰博士(右一)访问中国标准研究中心并与该中心房庆总工程师(左二)就术语学和术语标准化领域的合作签署了合作协议。
随着科学技术的迅猛发展,新理论、新概念、新材料、新技术、新工艺不断涌现,与之同步产生的新的科技术语层出不穷,其产生和传播速度之快、渠道之多、数量之大前所未有。随之而来的问题是:这些术语在使用过程中用法混乱,缺乏一致的、规范化的标准,同一概念常常会有多种表示,同一形式的表示又可能指称不同的概念,新产生的术语容易造成歧义甚至误解,翻译标准不统一,以及大陆与港台地区语言习惯的差异,这些情况不仅影响对信息的理解和传播,给学术交流带来不便,也会成为中国与国际接轨的障碍。随着中国加入WTO以及中国申奥成功,为了在科技、经贸、体育等多方面尽快与国际接轨,在中国进行术语标准的制订、术语规范化以及术语库的建设已经成为当务之急。

在这一目标的驱动下,北京大学计算语言学研究所与中国标准化研究中心合作于200112-200212月承担了“信息科学与技术领域术语辅助提取及术语库的建设”项目。该项目选择技术发展最迅猛、对于术语规范化要求最迫切的信息科学与技术领域为突破口,制订该领域的术语库建设标准、建立该领域的术语库、语料库以及开发该领域的术语自动提取软件。

项目的主要内容以及技术特色包括以下几个方面:

1在项目实践中产生一系列术语库建设的国家标准。

2服务于计算机辅助术语研究的领域语料库的建设。

3)与领域语料库相结合的术语库的建设:

4)术语自动提取软件:该软件可以对相关领域的术语进行自动提取。

本项目的研究将为全面、纵深、系统的术语规范化以及术语库建设奠定坚实的基础。

在对术语学和术语库开展大规模研究之前,计算语言所已有一些研究和成果积累。1992年完成了英4种语言对照的计算语言学术语库,该术语库包含语言信息处理领域的术语5000多条。该成果获1993年北京大学科技成果3等奖。《英汉对照计算语言学词语汇编》一书于1996年由北京大学出版社出版。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

文本框: 中
国
古
诗
词
计
算
机
辅
助
研
究

 

唐宋诗计算机辅助研究软件是一个供语言学家、文学家、古文献专家和古诗爱好者使用的中国古代诗词计算机辅助研究系统,有文本检索、词语切分、词汇特征统计、自动注音注韵、诗句相似性检索等功能。与以往其它系统不同的是,该软件是一个基于“词”的检索分析系统。软件研制的最终目标是一个具有一定的自然语言理解能力的语言研究分析系统。该软件是计算语言学研究与古代诗歌应用相结合的产物。对唐宋诗的研究得以从另外一个角度对许多语言学的基本概念重新进行审视。研究中取得的有关未登录词的自动提取、汉语构词法以及词汇隐喻义等方面的成果具有较好的应用前景。

计算语言所从1993年开始这项研究。1996年与台湾元智大学合作开发“宋代名家诗网络检索系统”。1998年承担国家社科基金项目“中国古诗计算机辅助研究系统开发与应用”。该项研究还得到了北大985计划的支持。

 

 

 

 

 

 

 

 

 

 

 

 

文本框: 机器翻译与机械文摘的自动评价

 

 

 

 


机器翻译自动评估系统(MTE)是国家“七五” 科技攻关项目、国家自然科学基金项目、863 高科技项目的研究成果。北大计算语言所采用孤立测试点和大规模测试题库相结合的办法成功地解决了机器翻译译文质量自动评测的难题。现在英汉机译测试大纲已相当完备,测试集的规模已达9,000多句。汉英和日汉的测试大纲及相应的题库正在建设中。

1995年,北大计算语言所承担863计划智能计算机专家组办公室下达的任务,对三个中文自动文摘系统进行评测。在此次评测实践的基础上探索建立机械文摘自动评测系统。在863计划资助的项目“机器翻译与机械文摘的自动评价”的支持下,现在已建立了一个机械文摘质量自动评测模型系统及专家文摘辅助写作系统,并进行了自动评测的实验。

这两项研究成果为中文自然语言处理系统的自动评测提供了理论与实践的经验,将对基于评测系统的机器学习等后续研究工作起到推进作用。

 

文本框: 受限汉语及其辅助写作系统

 

 


 

在长期语言信息处理研究实践的基础上,北大计算语言所于1995年提出了受限汉语研究的设想。

“九五”期间(1996-2000),北京信息工程学院、北大计算语言所合作承担了国家重点科技攻关项目“受限汉语处理技术及产品开发”。该项目分别于20007月和9月 通过信息产业部组织的鉴定与验收。鉴定委员会一致认为本项目的研究成果处于国内领先水平。

北大计算语言所认为“受限汉语”仍是一个值得继续投入力量的研究课题。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

文本框: 网上信息提取与服务系统

 

 

 


本项研究由北京大学计算机系网络实验室和计算语言所合作进行。项目第一阶段的目标是设计和实现一个“名人网上信息收集与服务系统”。

首先,要求用户提供命名实体 (包括人和公司/机构) 的描述信息 (例如人名、工作单位、行业与社会职务分类,或者公司/机构的名称、主要业务、产品等)。系统持续不断地从WWW 上收集和保存网页,然后根据用户提供的信息特性来分析、评价收集到的各个网页,并把满足要求的网页以指定的方式加工、存储和分发。用户可以由此定期和定量地获得网上对其自身作了报道或描述的相关网页,由此可以实现一种个性化的网上知名度信息服务。

当然,“名人信息收集服务”只是可能实现的多种功能中的一种。本项目提出的技术方案还可实现更为长远的目标,即以“网页收集”和“特定信息处理”为基础,追踪中文信息处理技术的发展,最终构建出一个强大的网上中文信息提取与服务系统,从而实现网上信息“从混沌到有序”的长远目标。

文本框: 孙斌博士在国际信息技术与信息网络会议(ICII 2001)上作学术报告

 

 

 

 

 

 

 

 

 

 

 

 

 

 


文本框: 高性能Web资源传输控制的方法、技术与应用系统

 

 

 

 

 


 

本项研究得到国家高技术研究发展计划 (863计划) 的课题支持 (课题编号2001 AA 112081)。其目标是在目前万维网 (World-Wide Web) 已有标准的基础上探索、设计和实现一个高性能的新的Web资源传输和控制机制,将当前Web的性能、稳定性、可靠性和可扩展性提升到一个新的水平,以满足当前Web负荷不断增长的需要;同时将此技术应用到各种Web服务中,开发相应的支撑平台构件和应用示范系统,使一批具有独创性的核心技术实现实用化、产品化;将新的传输控制机制规范化和标准化作为广泛应用的基础,并在标准基本完善之后将其提交给相关的国际标准化组织 (IETFW3C) 进行审议和补充,使本课题的研究成果能够成为制定下一代Web国际标准的一个重要参考模型。

在技术上,本课题拟解决的关键问题是当前Web技术中的一个突出困难,即Web资源成批传输与部分更新的矛盾——资源的成批传输需要将多个资源对象合并成为一个统一的单元进行传输,而资源的部分更新要求逐一描述各个对象的特性。因此在目前的Web传输机制 (HTTP) 框架内必须采用“一个对象/一次请求-应答”的传输模式,这对于网络的利用率而言是相当低效的,而且对同一网页内多个资源的请求导致了Web流量的突发性和网络的不稳定性。本课题将基于我们前期的研究成果——Web++框架 (STTPSTML组成),设计和实现一套方法和技术,比较完善地解决这一矛盾。该技术能够对现有Web的性能作一实质性提升,并完全兼容现有的基于Web的应用系统,可以同当前Internet上的Web浏览器和服务器自动地交互而不对这些系统的功能造成任何影响。

本课题的主要研究内容是实现一个高性能Web资源传输控制的综合网络实验环境 (包括STTP服务器、代理服务器和客户端应用程序),实现一次请求/应答传送一个Web页面所有内容的新的传输控制方式,典型事务下的综合传输性能比常规HTTP传输机制提高4倍以上,并由此进一步地向IETFW3C提交一个完整的下一代Web体系结构的参考模型。

文本框: 杨芙清院士在第二届词汇语义学研讨会上致欢迎词

 

 

 

 

 

 

 

 


 

 

 

 

 

 

 

 

 

 

 

椭圆: 发表论著论文目录
文本框: 计算语言所实验室一角
文本框: 于江生博士与法国同行

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


五边形: 北大计算语言学研究所

 


 

 

横卷形: 著作目录
 

 (2002-07)

 

 

 

 


1.俞士汶朱学锋王惠张化瑞等,《现代汉语语法信息词典详解》 (2),北京:清华大

学出版社,2002 (即将出版)

2.詹卫东,《面向中文信息处理的现代汉语短语结构规则研究》,北京:清华大学出版社,2000

3.俞士汶、朱学锋、王惠、张芸芸,《现代汉语语法信息词典详解》,北京:清华大学出版社,

19984

4.俞士汶、朱学锋、E.Kaske、冯志伟,《英汉对照计算语言学词语汇编》,北京:北京大学出版

社,19968

 

横卷形: 中文论文目录
 

 

 

 

 

 


1.俞士汶、段慧明、朱学锋、孙斌,北京大学现代汉语语料库基本加工规范,《中文信息学报》,2002年,第16卷第5期,P49-64

   关键词:现代汉语 语料库 词语切分 词性标注 规范

2.李佐文,元话语——元认知的表现,《外语研究》,2002年,第5

   关键词:元话语 认知 元认知

3.刘群、李素建,基于《知网》的词汇语义相似度计算,“第三届中文词汇语义学研讨会”论文,中国台北,20025

   关键词:知网 词汇语义相似度计算 自然语言处理

4.王惠,基于组合特征的汉语名词词义消歧,“第三届中文词汇语义学研讨会”论文,中国台北,20025

   关键词:词义消歧 名词 词汇语义学

5.张化瑞、俞士汶、朱学锋,大型电子词典的计算机辅助管理,“第三届中文词汇语义学研讨会”论文,中国台北,20025月,P303-308

   关键词:版本比较 数据修订 定版签名

6.胡俊峰、俞士汶,唐宋诗中词汇语义距离的统计分析及应用,《中文信息学报》,2002年,第16卷第4期,P39-44

   关键词:词义相似度 词义联想 概念检索 唐宋诗

7.于江生、俞士汶,CCD的结构与设计思想,《中文信息学报》,2002年,第16卷第4期,P12-20

   关键词:概念 同义词集合 CCD WordNet 计算词典学

8.常宝宝,基于汉英双语语料库的翻译等价单位的自动获取研究,《术语标准化与信息技  术》,2002年,第2期,P24-29

   关键词:机器翻译 双语语料库 翻译等价单位获取

9.吴云芳、段慧明、俞士汶,“是”字句主语和宾语的自动界定,《中文信息学报》,2002年,第16卷第2期,P40-46

   关键词:“是”字句 自动标注 浅层分析

10.俞士汶、朱学锋,关于汉语信息处理的认识及其研究方略,《语言文字应用》,2002年,第2期,P51-58

关键词:自然语言处理 汉语信息处理 语言知识库

11.詹卫东,基于合一的汉语短语结构规则,《语法研究和探索》(第十一辑),商务印书馆,2002年,P187-203

关键词:合一 短语结构 规则 产生式 特征结构

12.吴云芳,疑问句中的“怎么”在汉英机器翻译中的词汇歧义化解,《辉煌二十年——中国中文信息学会二十周年学术会议》,清华大学出版社,200111月,P263-271

关键词:怎么 词汇歧义 机器翻译

13.俞士汶,计算语言学的应用研究与基础研究,《辉煌二十年——中国中文信息学会二十周年学术会议》,P54-65,北京:清华大学出版社,200111

关键词:计算语言学 应用研究 基础研究 现代汉语语法信息词典 汉语标注语料库

14.俞士汶、段慧明、朱学锋,大规模标注汉语语料库开发的基本经验,国际中文电脑学术会议ICCC2001主题报告,新加坡,200111月,P56-60

关键词:词语切分 词性标注 标注语料库 现代汉语

15.吴云芳,“怎么”和“为什么”,《语文建设》,2001 年,第 9

关键词:怎么 为什么

16.冯志伟,确定切词单位的某些非语法因素,《中文信息学报》,2001年,第15卷第5期,P8-14

关键词:理论词 形式词 意义单纯性测定法 意义紧密性测定法 引申意义测定法

17.胡俊峰、俞士汶,唐宋诗之计算机辅助深层研究,《北京大学学报(自然科学版)》,2001年,第37卷第5期,P725-733

关键词:计算语言学 未登录词发现 自动注音 唐宋诗辅助研究

18.李佐文,模糊限制语的人际功能,《天津外国语学院学报》,2001年,第4

关键词:模糊限制语 语用功能 人际功能

19.俞士汶,网上的基础语言信息资源,《术语标准化与信息技术》,2001年,第4期,P19-23

关键词:语言信息处理 汉语标注语料库 词语切分与词性标注 现代汉语语法信息词典 知网

20.孙斌,扩展面向对象编程(XOOP)的理论和方法,《计算机学报》, 2001年,第243期,P266-280

关键词:面向对象 继承 归纳 编程语言

21.俞士汶、段慧明、朱学锋,汉语词的概率语法属性描述,《语言文字应用》,2001年,第3期,P21-26

关键词:现代汉语 词汇 词类 词的语法属性 概率语法属性描述

22.穗志方、赵军、俞士汶,统计句法分析建模中基于信息论的特征类型分析,《计算机学报》, 2001年,第24卷第2

关键词:统计句法分析 信息论 概率建模 特征类型分析

23.王厚峰,汉语中人称代词消解的研究,《计算机学报》,2001年,第24卷第2

关键词:人称代词 先行语 指代消解 语义块

24.于江生,机器切分歧义和动态词典,史忠植、怀进鹏、田启家主编《人工智能进展》――第六届中国人工智能联合学术会议论文集,清华大学出版社,20012月,P274-279

关键词:机器切分歧义 混乱度 动态词典 机器切分歧义表

25.于江生,句法范畴的代数结构和演绎系统,《中文信息学报》,2001年,第15卷第2期,P9-15

    关键词:句法范畴 范畴方程 本质解 类型提升

26.詹卫东,确立语义范畴的原则及语义范畴的相对性,《世界汉语教学》,2001年,第2期,P3-13

    关键词:语义范畴 相对性 计算语言学

27.刘群,机器翻译技术的发展与应用,《术语标准化与信息技术》,2001年,第1期(总第25期),P27-30

    关键词:机器翻译 中文信息处理 计算语言学 自然语言处理

28.俞士汶、朱学锋、王惠,《现代汉语语法信息词典》的新进展,《中文信息学报》,2001年第1期,P59-65

关键词:中文信息处理 语法词典 语法属性描述 现代汉语

29于江生,语义指向的形式模型,黄昌宁、张普主编《自然语言理解与机器翻译》——计算语言学第六届联合学术会议,清华大学出版社,2001年,P76-82

    关键词:篇章表述理论(DRT) 篇章表述结构(DRS) 语义指向

30.俞士汶、段慧明、朱学锋,语言工程中同形及兼类词语的处理策略,黄昌宁、张普主编《自然语言理解与机器翻译》——计算语言学第六届联合学术会议,清华大学出版社,2001年,P211-218

    关键词:自然语言处理 语言工程 同形词 兼类词 现代汉语语法信息词典

31.刘云、俞士汶、朱学锋,现代汉语合成词结构数据库的开发及应用,张普主编《现代化教育技术与对外汉语教学》,广西师范大学出版社,200011

    关键词:合成词 结构 数据库 开发 应用

32.俞士汶,信息技术中的语言文化特点,中国语文现代化学会第4次学术年会专题报告,20001025

    关键词:汉语信息处理技术 句法分析 综合型语言知识库

33.孙宏林、陆勤、俞士汶,利用遗传算法实现词类标记集的优化,《多语言信息处理国际会议2000ICMIP论文集》,20008月,新疆乌鲁木齐;又载于《中文信息学报》,2001年,第1期,P19-27

    关键词:词性标注 词类 标记集 遗传算法

34.俞士汶、朱学锋、段慧明,大规模现代汉语标注语料库的加工规范,《多语言信息处理国际会议2000ICMIP论文集》,20008月,新疆乌鲁木齐,P19-24;又载于《中文信息学报》,2000年,第6期,P58-64

    关键词:现代汉语标注语料库 词语切分 词性标注 现代汉语语法信息词典 加工规范

35.俞士汶、胡俊峰,唐宋诗之词汇自动分析及应用,已在台湾中研院第3届汉学会议上报告,20006

    关键词:唐宋诗词典 唐宋诗词汇分析 诗歌相似性分析

36.俞士汶、段慧明、朱学锋,综合型汉语知识库及其在汉语教学中的应用,“第四届全球华人教育资讯科技大会”主题报告,《Proceedings of GCCCE2000》,20005月,新加坡,P12-19

关键词:现代汉语语法信息词典 现代汉语标注语料库 现代汉语短语结构库 汉英对照双语语料库

37.王惠,语文词典中的语法功能描写—兼评《现代汉语规范用法大词典》,《辞书研究》,2000年,第3

    关键词:语法功能 语文词典 词典编纂

38.段慧明、松井久仁于、徐国伟、胡国昕、俞士汶,大规模汉语标注语料库的制作与使用,《语言文字应用》,2000年,第2期,P72-77

    关键词:大规模语料库 切分标注软件 语料库加工规范

39.詹卫东,80年代以来汉语信息处理研究述评——作为现代汉语语法研究的应用背景之一,《当代语言学》,2000年,第2

    关键词:信息处理 语法研究 语言知识 范畴 规则

40.俞士汶、朱学锋,“现代汉语词的语法属性描述研究”的目标与进展,《语言文字应用》,2000年,第1期,P24-26

    关键词:现代汉语语法信息词典 词的语法属性描述 大规模语料库

41.詹卫东,基于配价的汉语语义词典,《语言文字应用》,2000年第1期,P37-43

    关键词:配价 语义词典 现代汉语 语言知识库

42.亢世勇、朱学锋、俞士汶,《现代汉语语法信息词典》在计算机辅助语言教学中的应用,第二届中文电化教学国际研讨会论文集,2000年,广西桂林,P250-255

    关键词:现代汉语语法信息词典 用于教学的可行性 对外汉语教学 母语教学

43.刘云、俞士汶、朱学锋,《现代汉语合成词语数据库的开发及应用》,第二届中文电化教学国际研讨会论文集,2000年,广西桂林,P273-278

    关键词:现代汉语 合成词 结构 数据库

44.俞士汶,理解——交流的基础,《微电脑世界》,1999年,第31期,P11-15

    关键词:自然语言处理 中文信息处理 语言分析技术

45.孙宏林、俞士汶,浅层句法分析方法概述,陈章太等主编《世纪之交的中国应用语言学研究》,华语教学出版社,199912月,P41-55;又载于《当代语言学》2000年,第2期,P74-83

    关键词:浅层句法分析 隐马尔科夫模型 增加句法标记法 删除句法标记法

46.朱学锋、俞士汶、李峰,汉语语素库的构造及其同语法信息词典的集成,陈章太等主编《世纪之交的中国应用语言学研究》,华语教学出版社,199912月,P31-40;又载《术语标准化与信息技术》,1999年,第2期,P36-40

    关键词:语素库 语素登录项 非语素字 现代汉语语法信息词典

47 詹卫东,一个汉语语义知识表达框架:广义配价模式,第五届全国计算语言学联合学术会议(JSCL-99)199910

关键词:语义信息 广义配价模式

48.詹卫东、常宝宝、俞士汶,汉语短语结构定界歧义类型分析及分布统计,《中文信息学报》,1999年,第3期,P9-17

    关键词:短语 短语定界歧义 自然语言处理

49.亢世勇,计算机时代汉语语法研究的特点,《术语标准化与信息技术》,1999年,第2期(总第14期)

    关键词:语法研究 计算机应用

50.俞士汶,自然语言理解与语法研究,见马庆株编、吕叔湘等着《语法研究入门》,商务印书馆,19992月第1版,P240-251

    关键词:自然语言理解 自然语言处理 语法研究 语法信息词典

51.俞士汶、朱学锋、李峰,现代汉语语素库的开发及应用,《世界汉语教学》,1999年,第2期,P38-45

    关键词:现代汉语语素库 现代汉语语法信息词典 未登录词

52.俞士汶、段慧明、穗志方,关于汉英机器翻译测试大纲的思考,国际会议文集ICMI99HONG KONG),IV38-40

    关键词:汉英机器翻译测试大纲 测试集 测试点

53.常宝宝、詹卫东,一个汉英机器翻译系统中的语义处理框架及其作用,计算机世界报,1998年,第13期“技术专题版”

    关键词:机器翻译 语义处理 配价语法 格语法

54.俞士汶、段慧明,英汉机器翻译译文质量测试大纲,计算机世界报,1998413,第13D版技术专题D10-D11

    关键词:英汉机器翻译 译文质量测试大纲

55.张伟,受限汉语辅助写作系统的构想,计算机世界报,1998413,第13D版技术专题

    关键词:受控语言 受限汉语 受限汉语辅助写作系统

56.刘群、俞士汶,汉英机器翻译的难点分析,黄昌宁主编《1998中文信息处理国际会议论文集》,清华大学出版社,199811月,P507-514

    关键词:自然语言处理 中文信息处理 机器翻译 算法

57.孙斌,对象的双向派生模型与扩展的面向对象编程,Proceedings of the 27th TOOLS Asia98 and the 2nd OOT China98. September 1998Beijing.

    关键词:面向对象 继承 归纳 编程语言

58.陆俭明、郭锐,汉语语法研究所面临的挑战,《世界汉语教学》,1998年,第4

    关键词:汉语语法研究面临挑战 汉语语法研究策略

59.穗志方、俞士汶,面向EBMT的汉语单句谓语中心词识别研究,《中文信息学报》,1998年,第4期,P39-46

    关键词:基于实例的机器翻译 语句相似度 谓语中心词 知识获取 语义匹配

60.常宝宝、刘颖、刘群,汉英机器翻译中的冠词处理研究,《中文信息学报》,1998年,第3期,P8-14

    关键词:机器翻译 冠词选择 基于转换的错误驱动的学习

61.俞士汶,计算语言学简介,中华读书报,199834,第6

    关键词:计算语言学 理论模型 语言知识库

62.常宝宝、张伟,机器翻译研究的现状和发展趋势,《术语标准化与信息技术》,1998年,第2期,P32-35

    关键词:机器翻译 计算语言学

63.穗志方、俞士汶,汉语单句谓语中心词识别知识的获取及应用,《北京大学学报》(自然科学版),1998年,第342-3期,P221-230

    关键词:自然语言处理 语料库 机器翻译 知识获取 谓语中心词

64.穗志方、俞士汶、罗凤珠,宋代名家诗自动注音研究及系统实现,《中文信息学报》,1998年,第2期,P44-53

关键词:计算语言学 古籍整理 语料库 自动注音

65.孙宏林、段慧明,面向自然语言处理的现代汉语短语信息库,《术语标准化与信息技术》,1998年,第2期,P26-31

    关键词:自然语言处理 短语信息库 语言习得

66.詹卫东、常宝宝、俞士汶,基于词组本位语法的语义模型,《(新加坡)中文与东方语言信息处理学会学报》,1998年,第1期,P1-10

    关键词:语义模型 语义分类 词组本位语法 语义搭配 语义属性

67.穗志方、俞士汶,基于骨架依存树的语句相似度计算模型,中文信息处理国际会议(ICCIP98),1998年,P458-465

    关键词:机器翻译 语句相似度 句法分析 骨架依存树

68.孙宏林,词语搭配在文本中的分布特征,《1998中文信息处理国际会议论文集》,清华大学出版社,1998年,P230-236

    关键词:词语搭配 词汇获取 语料库语言学

69.王惠、詹卫东、刘群,《现代汉语语义词典》的概要及设计,《1998中文信息处理国际会议论文集》,清华大学出版社,1998

    关键词:语义词典 配价理论 机器翻译

70.王惠、朱学锋,现代汉语名词的子类划分及定量研究,《1998国际现代汉语语法研究国际会议论文集》,山东教育出版社,1998

    关键词:名词子类划分 名词子类的定量研究

71.俞士汶、朱学锋、李峰,现代汉语词语的语法知识描述,邹家彦主编《汉语计量与计算研究》,香港城市大学,1998年,P353-372

    关键词:现代汉语语法信息词典 语法属性描述 语素库的构造

72.俞士汶、朱学锋,受限汉语研究的必要性,王均主编《语文现代化论丛第三辑》,语文出版社,199710月,P150-160

    关键词:受限汉语 汉语语法 汉语词类

73.穗志方、俞士汶,主题概念规范化研究中的自然语言处理策略,《第二届术语学、标准化与技术传播国际学术会议论文集》,19978月,P367-374

    关键词:主题词集 规范结构规则集 结构转换规则集

74.詹卫东,P<>+VP1+VP2格式歧义的自动消解,《中国语文》,1997年,第6期,P424-431

    关键词:PVP组合 VPVP组合 “被”字结构

75.俞士汶,语法知识在语言信息处理研究中的作用,《语言文字应用》,1997年,第4期,P80-87

    关键词:自然语言理解 语言信息处理 句法分析 语法知识

76.詹卫东,面向自然语言处理的现代汉语词组本位语法体系,《语言文字应用》,1997年,第4期,P100-105

    关键词:词组本位语法体系 自然语言处理

77.周强、张伟、俞士汶,汉语树库的构建,《中文信息学报》,1997年,第4期,P42-51

    关键词:树库 句法标记集 树库加工规范 语料加工模型 语料库语言学

78.朱学锋、俞士汶、王惠,现代汉语五万词语归类的实践,《语言文字应用》,1997年,第4期,P88-94

    关键词:现代汉语语法信息词典 词语分类 词类 兼类

79.俞士汶,关于语言信息处理技术的展望,计算机世界报,1997年,第1期第127

    关键词:语言信息处理 机器翻译 语料库

80.周强,汉语短语的自动划分和标注,《中文信息学报》,1997年,第1期,P1-10

    关键词:短语自动划分和标注 语料库加工

81.刘群、詹卫东、常宝宝、刘颖,一个汉英机器翻译系统的计算模型与语言模型,《智能计算机接口与应用进展——第三届中国计算机智能接口与智能应用学术会议论文集》,电子工业出版社,1997年,P253-258

关键词:自然语言处理 机器翻译 中文信息处理

82.俞士汶、段慧明、田剪秋,机械文摘自动评测的原理及实现,《智能计算机接口与应用进展——第三届中国计算机智能接口与智能应用学术会议论文集》,电子工业出版社,1997年,P230-233

    关键词:机械文摘 自动评测

83.詹卫东、常宝宝、俞士汶,现代汉语短语本位语法体系在机器翻译中的应用及其问题,《智能计算机接口与应用进展——第三届中国计算机智能接口与智能应用学术会议论文集》,电子工业出版社,1997年,P224-229

    关键词:短语本位语法体系 机器翻译 形式化词典 句法分析规则

84.詹卫东、刘群,词的语义分类在汉英机器翻译中所起的作用以及难以处理的问题,《语言工程》——全国第四届计算语言学联合学术会议论文集,清华大学出版社,1997年,P286-291

    关键词:语义分类 机器翻译 语义属性描述

85.周强、俞士汶,汉语短语标注标记集的确定,《中文信息学报》,1996年,第4期,P1-11

    关键词:短语标记集 句法功能 短语结构组成

86.段慧明、俞士汶,关于1995年度机器翻译评测的总结报告,计算机世界报,1996325,评测专版,P183

    关键词:机器翻译评测 英汉翻译 汉英翻译 日汉翻译

87.马真、陆俭明,“名词+动词”词语串浅析,《中国语文》,1996年,第3

    关键词:“名词+动词”词语串 语法形式

88.俞士汶、段慧明,关于1995年度自动文摘评测的总结报告,计算机世界报,1996325,评测专版,P183

    关键词:自动文摘 自动文摘评测

89.俞士汶、朱学锋、王惠、张芸芸,《现代汉语语法信息词典》规格说明书,《中文信息学报》,1996年,第10卷第2期,P1-22

    关键词:现代汉语 语法信息 词类 电子词典

90.陆俭明,关于语义指向分析,《当代中国语言学》,总第一期,1996

    关键词:语义指向 层次切分法 句法结构 语法意义

91.周莉娜、沈钢、俞士汶,面向图像码的自然语言语句生成技术,中文电脑国际会议ICCC96(新加坡)1996年,P257-361

    关键词:图像码语言 自然语言生成 中间结构模型

92.周强,一个汉语短语自动界定模型,《软件学报》,1996年,第7卷增刊,P315-322

    关键词:汉语短语界定模型 短语划分 语料库自动标注

93.周强、张伟,一个改进的汉语短语自动界定模型,中文电脑国际会议ICCC96(新加坡)P75-81

    关键词:汉语短语界定模型 Forward-Backward算法 短语划分 语料库标注

94.朱学锋、俞士汶,自然语言处理与语言知识库,见罗振声、袁毓林主编《计算机时代的汉语汉字研究》,清华大学出版社,1996年,P107-118

    关键词:自然语言处理 语言知识库 语法信息

95.罗爱荣、段慧明,机译评估方法评述及一个基于测试集的自动评估系统―MTE的进展,陈力为、袁琦主编《计算语言学进展与应用》——第三届全国计算语言学联合学术会议,清华大学出版社,199511月,P365-366

    关键词:机器翻译评估 自动评估 测试点描述

96.周强、俞士汶,一个人机互助的汉语语料库多级加工处理系统CCMP,陈力为、袁琦主编《计算语言学进展与应用》——第三届全国计算语言学联合学术会议,清华大学出版社,199511月,P50-55

    关键词:汉语语料库多级加工 自动切词 词性标注 短语划分和标注

97.俞士汶,关于受限的规则汉语的设想,王均主编《语文现代化论丛》,山东教育出版社,199510月,P193-205

    关键词:受限汉语 自然语言 中文书写格式 辅助写作系统

98.冯志伟,论歧义结构的潜在性,《中文信息学报》,1995年,第9卷第4期,P14-32

    关键词:潜在歧义论 PT-结构 实例化 歧义性 非歧义性

99.周强,基于语料库和面向统计学的自然语言处理技术介绍,《计算机科学》,1995年,22(4)P36-40

    关键词:基于统计的处理技术 语料库语言学

100.周强,规则和统计相结合的汉语词类标注方法,《中文信息学报》,1995年,9(2)P1-10

关键词:词类标注 规则和统计相结合 语料库加工

101.朱学锋、俞士汶、王惠,《现代汉语语法信息词典》的开发与应用,新加坡《中文与东方语言信息处理学会通讯》,1995年,第2期,P81-86

     关键词:现代汉语 语法信息词典 机器词典 自然语言处理

102.刘岩斌、俞士汶、孙钦善,古诗研究的计算机支持环境的实现,《中文信息学报》,1995年,第11卷第1期,P27-36

关键词:古籍整理 全文检索 超文本

103.俞士汶,日本的RWC研究计划,计算机世界报,1994年,第29期第9

     关键词:柔性信息处理 真实世界计算

104.万加雷、陶晓鹏,汉字编码字符集的现状和发展,中国计算机报,1994年,第21期第8385

     关键词:汉字编码字符集 汉字内部码 汉字编码

105.王惠、朱学锋、俞士汶,《现代汉语语法信息词典》的收词原则,中国计算机报,1994年,第21期,79-83

     关键词:现代汉语 语法词典 收词原则

106.俞士汶,关于现代汉语词语的语法功能分类,中国计算机报,1994年,第21期第73-75

     关键词:语言信息处理 现代汉语 词类 语法功能

107.周强、段慧明,现代汉语语料库加工中的切词与词性标注处理,中国计算机报,1994年,第21期,P85-87

     关键词:自动切词 词性标注 汉语语料库加工

108.朱学锋、王惠、俞士汶,现代汉语量词与名词的子类划分,中国计算机报,1994年,第21期第79

     关键词:现代汉语 词类 名词子类 量词子类

109.朱学锋、俞士汶,自动翻译电话与口语信息处理研究,何新贵主编《人工智能新进展》——第三届全国人工智能联合学术会议,清华大学出版社,199410月,P446-450

关键词:自动翻译电话 语音信息处理 自然语言处理 口语

110.俞士汶、姜新、朱学锋,机器翻译译文质量评价的实践与分析,中文电脑国际会议ICCC94(新加坡)论文集,19946月,P26-32

关键词:机器翻译 译文质量 测试点 题库

111.周强、俞士汶,一种切词和词性标注相融合的汉语语料库多级加工方法,第二届全国计算语言学联合学术会议,1993628,厦门;又载于陈力为主编《计算语言学研究与应用》,199311月,P126-131

关键词:汉语自动切词 语料库词性标注

112.俞士汶,关于计算语言学的若干研究,《语言文字应用》,1993年,第3期,P55-64

关键词:计算语言学 自然语言理解 语言信息处理 机器翻译 电子词典

113.俞士汶,《机器翻译评价》专题讨论提纲,陈肇雄主编《机器翻译研究进展》,电子工业出版社,1992年,P564-566

关键词:机器翻译评价 译文质量

114.俞士汶、姜新、朱学锋、侯方,基于测试集与测试点的机译系统评估,陈肇雄主编《机器翻译研究进展》,电子工业出版社,1992年,P524-537

关键词:测试集 测试点 题库

115.俞士汶、朱学锋、郭锐,现代汉语语法电子词典的概要与设计,中文信息处理国际研讨会ICCIP92P186-191

关键词:语法电子词典 词类 词语属性描述

116.俞士汶,语言信息处理研究的意义与方法,中国计算机报,1991年,第18期第3

     关键词:语言信息处理 自然语言理解 现代汉语词语语法信息库

117.朱学锋、俞士汶,汉字假名变换技术及其应用,《中文信息学报》,1991年,第5卷第4期,P35-42

     关键词:汉字假名转换 日本汉字读音

118.俞士汶、姜新、朱学锋、侯方,机器翻译译文质量自动评估系统,中国中文信息学会十周年论文集,1991年,P314-319

关键词:机器翻译 译文质量 题库

119.俞士汶、姜新、朱学锋、侯方,机译译文质量自动评价原理,多语种机器翻译国际研讨会论文集(MMT91)1991年,P57-58,此文被日本《情报处理》杂志译载,并加述评 Vol.32No.11P1216-1217

     关键词:MTE系统 测试点 译文质量

120.俞士汶、朱学锋,多语种计算语言学术语库及其开发策略,《Proceedings of TSST91》,P307-312

关键词:计算语言学 术语库 多语种

121.俞士汶、朱学锋、姜新,机译译文质量测试描述语言TDL,孙怀明主编《知识工程进展》,中国地质大学出版社,1991年,P116-126

关键词:TDL描述语言 测试单位 测试项目

122.俞士汶,自然语言理解与认知科学,《计算机信息报》,1989年,第5121

     关键词:自然语言理解 认知科学 人工智能

123.姜新、朱学锋、俞士汶,机器翻译的评价与运用,《中国计算机用户》,1989年,第9

     关键词:机器翻译 译文质量评价 ALPAC报告

124.俞士汶,机器翻译导引,《中国计算机用户》,1989年,第9

     关键词:机器翻译 电子词典 原语言 目标语言

125.朱学锋,计算机辅助编制机器辞典,《中文信息学报》,1989年,第3卷第4

     关键词:机器辞典 信息量 拼音自动生成

126.俞士汶,现代汉语词语信息库开发工作介绍提纲,《计算机开发与应用》,1989年,第5卷第2

     关键词:现代汉语词语信息库 选词 词类划分

127.俞士汶,自然语言的歧义与机器翻译的对策,《中文信息学报》,1989年,第3卷第2期,P55-60

     关键词:自然语言的歧义 语义分析

128.朱学锋、朱万森、俞士汶,简易日汉兼容系统MCDOS的设计与应用,《中文信息学报》,1989年,第3卷第1期,P40-44

关键词:日汉兼容系统 日汉翻译 字模 转换码

129.俞士汶,如何看待机译系统译文的质量,计算机信息报,198896,第36期总第215

     关键词:机译系统 译文质量 机器翻译

130.俞士汶,多种形式的电子词典,《中国计算机用户》,1988年,第15

     关键词:电子词典 电子化辞书 辞书检索 概念辞书

131.俞士汶,自然语言处理的研究对象,《中国计算机用户》,1988年,第5

     关键词:自然语言处理 自然语言的歧义 自然语言理解

132.俞士汶,自然语言语法分析技术,《中国计算机用户》,1988年,第5

     关键词:语法分析技术 模式匹配 上下文无关语法 转换语法 扩充转移网络

133.俞士汶,自然语言语义分析技术,《中国计算机用户》,1988年,第5

     关键词:语义分析 格语法 语义网络

134.俞士汶,中文输入中语法分析技术的应用,《中文信息学报》,1988年,第2卷第3期,P20-26

     关键词:语句输入方法 检索特征 剪枝

135.金在明、俞士汶,中文文本编辑操作的标准化,《中文信息处理标准化国际研讨会论文集》,1987年,北京,P137-140

关键词:中文文本编辑 标准化

 

横卷形: 英文论文目录
 

 


 

 

 

1Bing Swen, A Brief Introduction of the Web++ Framework, In WWW2002 Conference Proceedings, Posters Session, Honolulu, Hawaii, USA, 7-11 May, 2002

Keywords: HTTP, Performance, Transfer Control

2Liu Yang, Yu Jiangsheng, Yu Shiwen, A Tree-Structure Solution for the Development of ChineseNet, Proceedings of the First International WordNet Conference(GWC'2002), P51-56, 2002, India

Keywords: Tree, Algorithm, Chinese, WordNet, CCD

3Liu Yang, Yu Shiwen, Yu Jiangsheng, Building a Bilingual WordNet: the New Approach and Algorithms, Proceedings of the 19th International Conference on Computational Linguistics (COLING'2002), 2002, Taipei, China

Keywords: Bilingual Lexicon, Inheritance, Transformation, WordNet, CCD

4Zan Hongying, Yu Jiangsheng, Hu Junfeng, Yu Shiwen, Construction of The Term Bank, Proceedings of the 2002 Asian-Pacific Workshop on Terminology (TAHK2002), 2002, Hong Kong

Keywords: Term, Term Bank, Knowledge Classification, Knowledge Base

5Bai Xiaojing, Hu Junfeng, Zan Hongying, Chen Yuzhong, Yu Shiwen, A Corpus-based Approach to Term Bank Construction, Proceedings of the Third international Conference on Language Resources and Evaluation(LREC2002), 2002, Spain

Keywords: Term Bank, Corpus-based Approach, Terminology Categorization, Terminology Reference, Terminology Extraction

6Yu Jiangsheng, Evolution of WordNet-like Lexicon, Proceedings of the First International WordNet Conference, 2002, India

paperKeywords: Concept, WordNet, Destruction degree, Evolution

7Yu Jiangsheng, Yu Shiwen, Word Sense Disambiguation based on Integrated Language Knowledge Base, Proceedings of the 2nd International Conference on East-Asian Language Processing and Internet Information Technology (EALPIIT'2002), 2002, Vietnam

Keywords: WSD, WordNet-like Lexicon, HMM with Two Parameters, TagSet Training

8Bing Swen, An Overview of the Web++ Framework, In Proceedings of International Conferences on Info-tech & Info-net (ICII2001), Conference E (Information Network), E-13 (Web Technology) , (Included also in Conference CDROM) Beijing, Oct29 - Nov1,  2001

Keywords: HTTP, Performance, Transfer Control

9Bing Swen, Speeding Up the Web Using the Web++ Framework, In Proceedings (CD-ROM) of WebNet 2001 Conference, WebTech Session, Orlando, Florida,  October 23-27, 2001

Keywords: HTTP, Performance, Transfer Control

10Bing Swen, Buffered Shift-Reduce Parsing, In Proceedings of 7th International Workshop on Parsing Technologies, Peking University (IWPT 2001), Beijing, China,  October 17-19, 2001

Keywords: Shift-Reduce Parsing, Lookahead, Symbol Buffer

 

11Bing Swen, Extended Object-Oriented Programming in Cxx, In Proceedings of ECOOP 2001 Workshop on MPOOL, Multi-Paradigm Programming with OO Languages '01, Budapest, Hungary, June 18, 2001

catalogKeywords: Object-Orientation, Inheritance, Induction

12Yu Jiangsheng, Yu Shiwen, Liu Yang, Zhang Huarui, Introduction to CCD, Proceedings of the International Conference on Chinese Computing'2001 (ICCC'2001), 2001, Singapore

Keywords: Concept, Lexical Semantics, Chinese, WordNet, CCD

13Liu Qun, Chang Baobao, Zhan Weidong, Zhou Qiang, A News-oriented Chinese-English Machine Translation System, Proceedings of the International Conference on Chinese Computing (ICCC2001), 2001, Singapore

Keywords: Multi-Engine Machine Translation,  Chinese Information Processing

14Yu Jiangsheng, Yu Shiwen, Some Problems of Chinese Segmentation, Proceedings of the First International Workshop on MultiMedia Annotation (MMA2001), 2001, Japan

Keywords: Crossed Ambiguity, Combinated Ambiguity, Dynamic Lexicon

15Zhang Hong, Yu Jiangsheng, Zhan Weidong, Disambiguation of Chinese Polyphonic Characters, Proceedings of the First International Workshop on MultiMedia Annotation (MMA2001) , 2001, Japan

Keywords: Polyphonic Character, Automatic Phonetic Notation

16Yu Jiangsheng, Duan Huiming, POS Estimation of Undefined Chinese Words, Proceedings of CORPUS LINGUISTICS 2001, UK

Keywords: Part-Of-Speech (POS), POS Formation, Pant Model, Semantic Constraint

17Yu Jiangsheng, Categorial Grammar based on Feature Structure, Proceedings of IEEE International Workshop on Natural Language Processing and Knowledge Engineering (NLPKE-2001), 2001, USA

Keywords: Feature Structure, Categorial Equation, Semantic Lifting

18Bing Swen, The Induction Paradigm, In Proceedings of Conference on Software: Theory and Practice (Page 948) , 16th IFIP World Computer Congress 2000, Beijing, August 2000

Keywords: Object-Orientation, Inheritance, Induction

19Bing Swen, Object-Oriented Programming with Induction, ACM SIGPLAN Notices Vol35, No2 (Feb), P61-67, 2000

Keywords: Object-Orientation, Inheritance, Induction

20 Hu Junfeng, Yu Shiwen, The Multi-layer Language Knowledge Base of Chinese NLP, Proceedings of the First international Conference on Language Resources and Evaluation (LREC2000), 2000, May, Athens

Keywords: Language Knowledge Base

21 Liu Qun, A Chinese-English Machine Translation System Based on Micro-Engine Architecture, Proceedings of the International Conference on Translation and Information Technology, 2000, Dec, Hong Kong

Keywords: Multi-Engine Machine Translation, Chinese Information Processing

22Chang Baobao, Zhang Huarui, Yu Shiwen, Kang Shiyong, Bilingual Corpus Construction and its Management for Chinese-English Machine Translation, Translation and Information Technology, The Chinese University Press, P101-111, 2000, Hong Kong

Keywords: Machine Translation, Bilingual Corpora

23SUI Zhifang, ZHAO Jun, WU Dekai, A Information-Theory-Based Feature Type Analysis for the Modeling of Statistical Parsing, Proceedings of 38th Annual Meeting of the Association for Computational Linguistics(ACL'2000), 2000, Oct, Hong Kong

Keywords: Feature Type Analysis, Statistical Parsing, Information Theory

24Yu Jiangsheng, Machine Segmentation Ambiguities and Dynamic Lexicon, Proceedings of the Associated Conference AI2000, 2000, Beijing

Keywords: Segmentation Ambiguity, Chaos Degree, Dynamic Lexicon

25Bing Swen and Shiwen Yu, A graded approach for the efficient resolution of Chinese word segmentation ambiguities, In Proceedings of 5th Natural Language Processing Pacific Rim Symposium '99 (NLPRS '99) , Beijing, Nov1999

Keywords: Chinese word segmentation, Ambiguity

26Sun Honglin, Yu Shiwen, Lu Qin, Evaluation on Part-of-Speech tag set, Proceedings of the 5th Natural Language Processing Pacific Rim Symposium(NLPRS'99) , 1999, Nov, Beijing

Keywords: Part-of-Speech Tagging, Automatic Evaluation

27Swen Bing, Yu Shiwen, A graded approach for efficient resolution of Chinese word segmentation, Proceedings of the 5th Natural Language Processing Pacific Rim Symposium (NLPRS'99), 1999, Beijing

Keywords: Chinese Word Segmentation

28Yu Shiwen, Duan Huimimng, Sui Zhifang, The Consideration on the Testing Outline of Chinese-English Machine Translation, Proceedings of the Second International Conference on Multimodal Interface(ICMI'99), 1999, Hong Kong

Keywords: Automatic Evaluation, Machine Translation

29SUI Zhifang, Yu Shiwen, The technology of predicate-head recognition for Chinese simple sentences, Proceedings of 1999 International Conference on Computer Processing of Oriental Languages (ICCPOL'99):P17~22, 1999, Japan

Keywords: Predicate-head Recognition, Parsing

30Wu Dekai, SUI Zhifang, ZHAO Jun, An information-based method for selecting feature types for word prediction, Proceedings of Eurospeech'99, 1999, Sep, Hungary

Keywords: Quantitative Linguistics, Information Theory, Corpus, Dependency Grammar, Word Prediction

31WU Dekai, ZHAO Jun, SUI Zhifang, An information-theoretic empirical analysis  of de- pendency-based feature types for word prediction models, Proceedings of EMNLP'99, 1999, Jun, USA

Keywords: Empirical Analysis, Dependency Grammar, Word Prediction

32Yu Jiangsheng, Cheng Minde, Multiple-Valued Feature Structure Description, ACTA SCIENTIARUM NATURALIUM UNIVERSITATIS PEKINENSIS, Vol35 No5 , P589-601, 1999, Beijing

Keywords: Feature Structure, Logic of Minimally Inconsistent Feature Description, Belief Lattice

33Yu Jiangsheng, Extended Lambek Calculus, Proceedings of the Fifth Joint Seminar of Computational Linguistics (JSCL1999), 1999, Beijing

Keywords: Categorial Grammar, Lambek Calculus

34Sun Honglin, Lu Qin, Yu Shiwen, Two-level shallow parser for unrestricted Chinese text, Proceedings of JSCL'99, 1999, Nov, Beijing

Keywords: Parsing

35Liu Qun, Yu Shiwen, A Chinese-English Translation System based on hybrid approach, TransEasy, Proceedings of the Third Conference of the Association for Machine Translation in the Americas (AMTA-98) , 1998, Oct, USA

Keywords: Chinese-English Machine Translation, Hybrid Approach, Chinese Information Processing

36Zhou Lina, Liu James, Yu Shiwen, Automatic Extraction of Word Translation Pairs Based on Heuristic and Statistical Method, the Journal of Computer Processing of Oriental Languages, 1998, Vol11, No4, P339-351, 1998, Singapore

Keywords: Bilingual Corpora, Machine Learning

37Zhou Lina, Memory-based Engine for POS tagging, the Journal of Advanced Software Research, Vol5, No2, 1998, China

Keywords: Part-of-Speech Tagging

38 Zhou Qiang, Yu Shiwen, Annotating the Contemporary Chinese Corpus, International Journal of Corpus Linguistics, Vol2, No2, P239-258, 1997

Keywords: Chinese corpus annotation, Segmentation, Part-of-speech Tagging, Bracketing

39Zhou Lina, Liu James, Yu Shiwen, An Efficient Algorithm for Bilingual Word Translation Acquisition, Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence (IJCAI-97), 1997, Japan

Keywords: Bilingual Corpora, Machine Learning

40Zhou Lina, Liu James, Similarity Comparison between Chinese Sentences, Proceedings of International Conference Research on Computational Linguistics 1997(ROCLING-97) , 1997, Taiwan China

Keywords: Similarity Comparison

41SUI Zhifang, Yu Shiwen, The NLP strategies for the normalization of subject concepts, Proceedings of 2nd International Conference on Terminology, Standardization and Technology Transfer (TSTT'97): P367-383, 1997, Aug, Beijing

Keywords: the normalization of subject concepts

42Yu Shiwen, Luo Airong, Automatic Evaluation System-MTE and the Improvement of Its Test Suite, Proceedings of the International Conference on Chinese Computing '96 (ICCC'96), P211-217, 1996, Singapore

Keywords: Automatic Evaluation

43Yang Erhong, Liu Kaiying, Sui Zhifang, A study on machine tractable synonym dictionary for word sense tagging of Chinese corpus, In: Proceedings of International Conference on Chinese Computing'96 (ICCC'96), 1996, P172-177, Singapore

Keywords: Machine Tractable Dictionary, Word Sense Tagging

44Zhou Qiang, Yu Shiwen, Blending Segmentation with Tagging In Chinese Language Corpus Processing, Proceedings of COLING-94, Vol2, P1274-1279, 1994, Aug, Japan

Keywords: Chinese Word Segmentation, Part-of-Speech Tagging

45Yu Shiwen, Automatic Evaluation of Output Quality for Machine Translation Systems, Machine Translation, 1993, V8, P117-126, Kluwer Academic publisher, Netherlands

Keywords: Automatic Evaluation, Machine Translation

46Yu Shiwen, Application of Grammatical Parsing Technique in Chinese Input, JOURNAL OF COMPUTER SICIENCE AND TECHNOLOGY, 1990, Vol5, No4, P312-318

Keywords: Chinese Input, Grammatical Parsing Technique, Chinese Electronic Dictionary, Syntactic Rules

 

!

 

 

(注:所有论文目录的顺序均按时间由近及远和作者音序排列)

 

 

 

 

 

 

 

 

 

 

学位论文简介

 

 

 

 

 

 

北大计算语言所

历届硕士、博士学位论文目录

(按时间由近及远顺序排列)

 

时间

学位

姓名

         

 

2001.6

博士

胡俊峰

基于词汇语义分析的唐宋诗计算机辅助深层研究

俞士汶

2001.6

博士

孙宏林

现代汉语非受限文本的实语块分析

俞士汶

2000.6

博士

孙斌

继承-归纳机制及其在对象系统和信息提取技术中的应用

俞士汶

2000.5

硕士

程兆炜

双语语料库的XML表示及其自动分类方法研究

俞士汶

1999.5

博士

常宝宝

汉英机器翻译中的基于实例的转换引擎研究

俞士汶

1999.5

博士

詹卫东

面向中文信息处理的现代汉语短语结构规则研究

陆俭明,俞士汶

1998.6

博士

穗志方

语句相似度研究中的骨架依存分析法及其应用

俞士汶

1998.6

博士

张伟

受限汉语研究和受限汉语辅助写作系统的设计

俞士汶

1997.6

硕士

沈钢

古诗研究的计算机支持系统和相关的计算语言学课题

俞士汶

1997.1

硕士

周莉娜

面向基于实例汉英机器翻译的知识获取及实现

俞士汶,廖雅国

1996.5

博士

周强

汉语语料库的短语自动划分和标注研究

姚天顺,俞士汶

1996.5

硕士

詹卫东

现代汉语VP的结构定界和结构关系判定

陆俭明,俞士汶

1996.1

硕士

刘岩斌

“古诗研究的计算机支持环境”的设计与实现

俞士汶

1995.6

硕士

陶晓鹏

面向机器翻译的汉语句法规则和自动分析

俞士汶

1994.5

硕士

刘东

日汉机器翻译模型系统的实现和词汇功能语法的应用

俞士汶

1993.6

硕士

杨文辉

计算语言学文献的收集管理与标题关键词的自动提取

俞士汶

1993.6

硕士

周强

现代汉语语料库多级处理与汉语短语结构分析

俞士汶

1991.6

硕士

毛少伟

一个定点驱动的双向句法分析器

俞士汶

1990.6

硕士

陈华

日汉机器翻译的研究和模型系统的实现

俞士汶

文本框: 穗志方博士(右)、张伟博士(左)毕业典礼后与导师俞教授合影
文本框: 孙宏林博士(左一)

  

 

 

 

 

 

 

 

 

 

 


 

 

 

 

 

北大计算语言所

其他硕士、博士学位论文目录

 

时间

学位

姓名

学 位 论 文 题 目

 

毕 业 学 校

2002.6

博士

李素建

汉语组块计算的若干研究

白硕

中国科学院计算技术研究所

2002.6

博士

刘云

汉语篇名的篇章化研究

李宇明

华中师范大学语言学系

2002.6

博士

王惠

现代汉语名词义位的组合分析研究

符淮青

北京大学中文系

2001.5

博士

李佐文

话语提示语及其功能研究

王德春

上海外国语大学英语学院

1999.5

博士

于江生

语义学的数学基础

程民德,彭立中

北京大学数学学院

1998.6

博士

王厚峰

汉语分析的计算模型研究

康立山,戴大为

武汉大学计算机科学系

1995.6

硕士

张化瑞

导线舞动的随机模型和平衡稳定性研究

官飞

清华大学工程力学系

文本框: 于江生博士(左前)与XEROX欧洲研究中心的同事

 

 

 

 

 

 


 

 

 

 

 

 

文本框: XEROX欧洲研究中心的学者来访
椭圆形标注: 这就是我们实验室的位置
文本框: 北大理科一号楼