2000年 >> 2001年 2002年 2003年

 

都是些数理统计中最基本的内容。陈希孺院士的《机会的数学》J.L.Folks的《统计思想》(英文书名:Ideas of Statistics)等可作通俗读物。

 

2001年 >> 2000年 2002年 2003年

 

北京大学计算语言学研究所正在构建的一部以WordNet为基本框架的语义词典。

 

Chomsky的MP中用到了labeled tree,许多概念在树上体现。既然标记树如此重要,让我们看看它能帮助我们做哪些事情。

 

Frege的组合性原则是自然语言形式语义学最基本的假设,特征结构是较成熟的语义描述工具。这二者如何相辅相成?

 

范畴语法兼顾句法和语义,逻辑结构清晰,是Montague语法的源泉。而今天,我们谈论的却是它的代数描述!

 

语言分析的目标是为了得到语义表达,不管通过什么手段。置疑传统的从句法树到语义表达的做法。我们不需要句法树这个假设!

 

2002年 >> 2000年 2001年2003年

 

数学描述简洁明了,就看你如何用它来解决问题啦……

 

简单是VSM的优点。稍做手脚,它又能解决新问题。

 

让词典中的知识表示向更好的状态变化,词典的应用效果必不可少。

 

想了解Bayes分析中最基本的东西,最好看J.O.Berger的Statistical Decision Theory and Bayesian Analysis

 

计算词典学,它的困难常超出人们的想象。什么是“好”的词典结构?什么是“好”的知识表示?

 

这个问题至今仍悬而未决。让我们先用统计方法做点尝试……

 

请关注Yarowsky等人的工作,以及WSD与搭配的关系。

 

Fisher在1938年的工作,可最佳地分离两个给定的类。想想,它与支持向量机(SVM)有什么联系?

 

理论基础是统计决策论与Bayes分析。机器学习理论中最简单、最完整的部分。几乎成为所有机器学习新方法是否有效的比较标准。

 

学习者生存(The learner survives)。

 

理解Fisher线性分类器时必不可少的一个引理,很有用哟……

 

一个经典的非参数分类器,有完美的理论。本文主要侧重估计k近邻法错误率的上界,结果不错,只是样本容量要求越大越好。

 

奇异值分解(SVD)是矩阵计算的内容,可应用于信息检索(IR),效果不错(片子中有实例)。另外,SVD方法不依赖于具体语言。

 

第二届中日自然处理专家会议(2002)的报告。内容包括:新术语的自动抽取(利用文本分类和collocation的成熟技术),新术语间关系的自动发现(利用定义模板)。WordNet框架在上述两个问题中都起到了辅助推理的作用,片子举了两个在VSM中的简单应用。

 

第五届东亚术语论坛上的片子,与上面的那个有些许差别:添加了collocation实验的数据分析和部分结果。

 

计算语言学研究所自然语言处理讨论班报告。思路:从搭配到可能新词,再到新词的检验。新词的自动发现将有助于切分/词性标注和信息检索等技术的发展。

 

介绍了比较两个统计模型优劣的t检验和判定单因子的F检验。

 

报告人:张学工教授(清华大学自动化系)

 

报告人:温珍珊。内容:Introduction和Concept Learning and General-to-Specific Ordering。[注] 常宝宝博士推荐T. M. Mitchell的书Machine Learning1997)作为《机器学习》讨论班的入门书,谢谢常博士的指点——这的确是本好书。

 

报告人:靳志辉。内容:Decision Tree Learning。

 

报告人:靳志辉。内容:Artificial Neural Networks。

 

报告人:于江生。内容:Evaluating Hypothesis。

 

报告人:于江生。内容:Bayesian Learning。

 

报告人:常宝宝博士。内容:Computational Learning Theory。

 

报告人:昝红英。内容:Instance-based Learning。

  • 《机器学习》(第9-10章)

 

报告人:温珍珊。用的是Mitchell的教学片子。

  • 《机器学习》(第11-13章)

 

报告人:靳志辉。

 

报告人:温珍珊

 

报告人:靳志辉

 

2003年 >> 2000年 2001年 2002年

  • 最大熵方法及其在自然语言处理中的应用

 

报告人:常宝宝博士。参考文献是A. L. Berger等人的A Maximum Entropy Approach to Natural Language Processing

 

报告人:于江生。介绍了词汇搭配信息自动获取的四种统计模型;报告了实验分析结果(实验针对《人民日报》98年上半年的语料)。证明了在样本足够大的条件下, 用于两个连续词语的独立性假设检验的u test和chi-square test是一回事。

 

报告人:于江生、温珍珊、靳志辉。首先,介绍了SVD方法的数学原理;然后是它在文本聚类中的应用。我们将演示基于SVD方法的文本聚类(用MatLab实现)。SVD方法有太多的“活口”,可选参数过多而影响实用效果:譬如,term的选择、投影空间维数的选择、类的个数的选择、term-doc矩阵元素表示方法的选择(可以是频次、频率或布尔值等)、距离的选择、聚类方法的选择等等。很难评价SVD方法在文本聚类上的效果,说好说坏都没有令人信服的依据。问题不是SVD方法本身:通过SVD我们可以得到矩阵A的秩为k的最佳逼近B,从数据压缩的角度看,B在秩为k的前提下已经达到全局最优。SVD并不关心矩阵A的含义,而用于自然语言处理时,我们不得不考虑term-doc矩阵的合理性——毕竟它不是一个简单的矩阵计算问题。还有许多的工作可以做,不过,剩下的都是困难的。

 

报告人:于江生。多元统计分析提供了一整套的聚类方法,理论虽然仍不完善,但在实际应用中已经显示出极强的活力,特别是和其他方法联合使用的时候。我们将以文本聚类和词聚类为例,介绍几种常用的聚类方法,并演示如何用SAS实现它们。

 

介绍了EM算法及其应用:(1)高斯混合模型的参数估计;(2)删失数据;(3)隐Markov模型(HMM)参数估计的Baum-Welch算法。 最大似然估计(MLE)真是一个大宝藏啊! 

 

简略地介绍了IIS算法 。避开了验前概率、验后概率和熵等话题,仅仅依靠计数就得到了最大熵算法,使之成为MLE(Maximum Likelihood Estimation)在基于特征的指数模型上的一个实例。

 

Bickel的名著《Mathematical Statistics --- Basic Ideas and Selected Topics》(第一版)的第一章。2001年,Bickel出版了该书的第二版,有较大的更动。

 

大数定律和中心极限定理是数理统计的基石,在Bickel的书的附录里有提纲挈领的描述。另外,格涅坚科的概率论教材和Feller的书里对该内容也有精彩的介绍。

  • 2003年下半年高等数理统计学和机器学习讨论班内容:
  1. Advanced Mathematical Statistics
  2. Bayesian Methods
  3. Nonparametric Statistics
  4. Bioinformatics and Machine Learning
  • 地点:北京大学理科一号楼1454室
  • 时间:周三下午1:00-4:30(机器学习),周六下午1:00-6:00(高等数理统计学,中间有半个小时的咖啡休息用于自由讨论,咖啡由于江生提供)
  • 部分参考书:
  1. P. J. Bickel and K. A. Doksum (2001), Mathematical Statistics --- Basic Ideas and Selected Topics (Second Edition), Vol(1). Prentice-Hall, Inc.(errata1errata2

 

 

  1. J. Berger (1985), Statistical Decision Theory and Bayesian Analysis, Springer-Verlag New York, Inc.
  2. M. A. Tanner (1996), Tools for Statistical Inference --- Methods for the Exploration of Posterior Distributions and Likelihood Functions
    (Third Edition). Springer-Verlag New York, Inc.
  3. T. Mitchell (2003), Statistical Approaches to Learning and Discovery. The course of Machine Learning at CMU.
  4. T. P. Hettmansperger (1998), Robust Nonparametric Statistical Methods. John Wiley & Son, Inc.
  5. P. Baldi and S. Brunak (2001), Bioinformatics: The Machine Learning Approach (Second Edition). MIT.
  6. D. J. Balding, M. Bishop, and C. Cannings (2001), Handbook of Statistical Genetics. John Wiley & Sons, LTD.
  7. W. J. Ewens and G. Grant (2001), Statistical Methods in Bioinformatics: An Introduction. New York, Springer.
  • 最小描述长度和词的自动发现

 

报告人:揭春雨博士教授(香港城市大学)

 

报告人:温珍珊(2003年9月13日)。内容:Mathematical Statistics --- Basic Ideas and Selected TopicsSecond Edition)第一章前三节。 第一部分介绍了什么是一个统计模型以及参数化。第二部分定义了损失函数和风险函数,介绍了频率学派和贝叶斯学派对决策的不同理解,以一个实例考察了贝叶斯风险和minmax风险。有关统计决策理论和贝叶斯分析的内容在高等数理统计学讨论班的后期将给出详细的介绍。

 

报告人:靳志辉(2003年9月20日)。内容:Mathematical Statistics --- Basic Ideas and Selected TopicsSecond Edition)第一章后三节。给定数据X,在MSE标准下E(Y|X)是对Y的最优预测,本节给出了它与Y之间关系的详细描述。统计量是数据的简约,什么样的统计量是好的呢?首先我们希望它不丢失参数信息。某参数的充分统计量包含了该参数的所有信息,按其定义它使得样本条件分布与参数无关。一般情况下判定一个统计量是某参数的充分统计量是困难的,Fisher-Neyman分解定理非常漂亮地给出了一个充要条件(片子中给出了离散情形的证明)。指数分布族(包括二项分布、Poisson分布、正态分布等)的充分统计量可以自然地得到,它的期望和方差也容易算得。指数分布族的另外一个特点是它的自然充分统计量(作为一个随机向量)的维数不依赖于样本的大小。

 

报告人:温珍珊(2003年9月24日)。内容:利用Princeton大学的WordNet进行词义消歧(Word Sense Disambiguation,WSD)的训练和测试语料库的格式。

 

1)报告人:欧阳佑(2003年10月8日)。内容: 数字化符号序列中的生物学数据;生物序列的信息量;生物分子功能和结构预测。(2)报告人:于江生(2003年10月8日)。内容: 基因组测序概述;Poisson过程和Poisson分布;霰弹测序的概率模型。

·         参数估计的方法 (由于讨论占用了大部分的时间,该报告的下部分将在10月14日下午1:30继续。感谢讨论班的报告人靳志辉、温珍珊、幸运、欧阳佑、王宁等同学提供我LaTeX源码并允许我将他们的片子放在我的主页上 ,感谢清华大学生物系周一鸣博士的友情指导,对讨论班所有参与者辛勤的工作和持续的热情表示敬意。这些资料纯属学术性质,作者拥有它们的版权和解释权,在声明来源的前提下可免费用于教学科研。但是,未经作者允许不得擅自将它们转载、稍做修改据为己有或用于商业行为,所造成的不良后果皆由肇事者一人承担。特此声明。)

 

1)报告人:靳志辉(2003年10月10日)。内容: 上次报告的补充部分——介绍了先验分布的共轭族,并给出了实例:样本分布是B(n,\theta)时,其共轭先验分布是\beta(r,s),r,s>0。如果我们把先验分布看成一个泛函,共轭先验分布族则对该泛函封闭。“选用共轭先验分布当然是出于数学上方便的考虑,不可能有何理论根据。在先验分布的选择是出于主观时,选用其他分布未必比用共轭分布有更多的根据,这时用共轭先验分布看来也是无可非议。共轭先验分布族包含若干参数,在实际使用时还有一个如何制定这些参数值的问题。”——选自陈希孺的《高等数理统计学》pp129。(2)报告人:温珍珊(2003年10月10日)。内容: 首先介绍了Minimum Contrast Estimate(MCE,以LSE为例)和估计方程(以矩估计为例)。在独立同分布情况下,矩估计方法可以看成替换原则和扩张原则的一个实例。早在19世纪,Gauss和Legendre就利用LSE做天文问题的参数估计,LSE在方差分析和回归理论中非常重要。温珍珊介绍了LSE和加权LSE在线性回归模型中的应用,证明了weighted least squares normal equations。由于MLE不一定存在,存在也不一定唯一,研究其唯一存在的充要条件就显得非常必要。首先,温珍珊介绍了MLE存在性引理,由此引理得到多参数指数族的MLE唯一存在的一个充要条件。剩下的问题就是如何得到具体的MLE,方法如下:(1)二分法,(2)坐标爬坡法,(3)Newton-Raphson方法和(4)EM算法。其中,第3种方法的收敛速度要优于前两种方法,而EM算法是一类通用的参数估计方法,不仅仅限于指数族(见讨论班以前的报告)。EM算法是最大似然估计方法的一个实例,20世纪70年代以来逐渐流行,所以我们实在该为MLE方法立座丰碑,它的思想和影响着实让人感叹。

 

1)报告人:幸运(2003年10月15日)。内容:首先介绍了Cox-Jaynes公理体系、贝叶斯推断和归纳 。贝叶斯学派虽然允许先验概率有主观性,但随着数据量的增加,先验概率的作用相对减少,这似乎调和了频率派对它的微辞。一般来说,没有一个普适的准则可以指导我们确定先验分布。在完全无知的条件下,均匀分布的熵最大(对参数估计而言均匀分布是最混乱的了),而数学家都是悲观主义者,选择均匀分布为先验分布就是一件很自然的事情了。按照最大熵原则,正态分布、Gamma分布、Dirichlet分布 在某些条件下可作为先验分布。 最大似然估计(MLE)是最大后验概率(MAP)估计在模型先验地服从均匀分布前提下的一个特例,我么往往需要采取迭代或随机方法(如梯度下降法、模拟退火算法)得到近似解或满意解。两个模型类的比较是一个有趣的问题,在参数估计之前必须合理地解决它。通过计算“实测概率”我们可以得到似然度的期望,越大越优。在可用数据充足的情况下我们总倾向选择简单模型,通过选择对复杂模型进行惩罚的先验概率,我们得到一把锋利的“奥卡姆剃刀”,可以让复杂模型得到相对较小的似然度。MDL与贝叶斯的观点既密切相关又有细微的差别(见揭春雨教授的片子或李明教授的《描述复杂性理论》的第5章《归纳推理》的第4小节)。 (2)报告人:欧阳佑(2003年10月16日 晚6:30-9:00)。内容: 首先介绍了二次损失函数(这部分内容在预测中靳志辉已经讲过了),解释了训练集要使得偏差和方差达到一个均衡,否则将出现欠拟合和过拟合。 估计器的组合揭示了“三个特点不同的臭鞋匠顶个诸葛亮”这一朴素的道理,所以我们要在同一目标下尽可能地使“专家组成员”各有特色。接着,欧阳介绍了信息论的一些基本概念(熵、相对熵、互信息等),并给出Jensen不等式一个漂亮的证明。最大熵准则作为最小相对熵准则的一个特例,它们在某些情况下都可以指导我们选择先验分布,虽然这不具有普遍性(譬如,在方差已知的情况下,正态分布是符合最大熵准则的——这个结论有严格的证明)。

At the end of discussion,

We reach at philosophy,

Where all is meaningless,

Except the belief.

 

报告人:于江生(2003年10月18日)。内容: 统计决策理论和贝叶斯分析有着扯不断的联系,报告首先介绍了贝叶斯学派与频率学派的恩恩怨怨。不管是哪个学派,参数空间和行为空间是统计决策前必须搞清楚的。要注意的是参数在贝叶斯学派那里是一个随机变量(这一观点显得人性化),而在频率学派那里仅仅是一个未知的确定的常数(频率学派俨然以上帝的口吻说这话)。还是那个老问题:To be God or to be man?贝叶斯学派通过定义损失函数,利用参数的后验分布或者先验分布(无数据的情况下)得到贝叶斯期望损失 ,找使其最小之行为。频率派的统计决策理论则走了另一条路:通过(非随机化的或随机化的)决策法则得到某个类型的风险函数,进而找到最优决策。这其中又分为遵循minmax原则的彻底的频率派和遵循贝叶斯风险原则的妥协的频率派(片子pp28给出了一个形象的描述)。通过比较,很容易发现贝叶斯学派的统计决策方法比频率派的要简洁轻盈。按照pp14《革命者须知》里的规定,我们站在贝叶斯学派的立场上从以下几个方面批判经典统计推断:(1)未考虑具体应用情况滥用统计推断;(2)假设检验没有提供第二类错误(或者功效)的任何信息;(3)以大数定律为托词过多地关心有可能发生但未发生的事件而没有给样本以公正合理的重视;(4)频率学派和贝叶斯学派都承认弱条件原则和充分性原则,而Birnbaum定理保证这两个原则蕴涵似然原则。通过例26我们揭示频率派的统计推断在似然原则上自相矛盾闹出了笑话——这是对频率学派的假设检验方法的“致命一击”,大数定律这一托词难以拯救它的尴尬。当然,这些所谓的“批判”都不能彻底推翻经典的数理统计,只是对它其中某些部分的合理性提出了质疑。大家讨论得十分热烈以至于暂时不得不以一首小诗结束报告:讨论的最后,我们走到了哲学,那里一切都没有意义,除了信仰。

 

报告人:欧阳佑(2003年10月22日)。内容(靳志辉评论):主要介绍了概率图模型和使用贝叶斯方法进行概率建模。(1)随机变量之间的独立性关系可以使用概率图模型来表示,在满足马尔可夫特性的随机域中,对于无向情形,可以通过概率图模型把高维概率分布用图中所有团的势函数来表示,这就是马尔可夫随机域中的因子分解性;有向情形中也有类似的因子分解性。(2)贝叶斯方法在统计处理中占有重要地位,片子中首先以序列模型中最简单的单骰子和复合骰子模型为例子介绍贝叶斯方法建模,考察了在该模型下先验分布分别取均匀分布和Dirichlet分布时的MAP估计和MP(mean posterior)估计,Dirichlet分布具有两个优点:(A)它是多项分布的自然共轭先验分布;(B)它是给定分布P的空间上的最大熵分布;在数据量较小的情况下,取Dirichlet分布作为先验分布优于均匀分布。贝叶斯方法地另一个重要地应用是统计力学。统计力学模型在生物处理中有着重要的应用,但是传统中统计力学的大部分处理通常是基于最大熵原理的,从概率统计地角度上看这是一种缺陷。因此我们试图从概率的角度通过贝叶斯的方法进行推导,把最大似然和最大熵相统一。在此基础上简要地介绍了统计力学的相关知识,包括常用地波尔兹曼-吉布斯分布——满足给定约束条件且熵最大的分布。

 

报告人:于江生(2003年10月22日晚7:00-9:30,中科院计算所)。内容:(1)概要性地介绍了T. Mitchell的著作Machine Learning的大致内容(机器学习的一些主要分支和方法)。(2)简要地介绍 了统计机器学习的主要工具。(3)以分类为例,直观地描述了简单Bayes分类器(及其在WSD中的应用)、k近邻法、Bayes最优分类器、Fisher线性分类器、支持向量机(SVM)等常见分类器的设计思想。

  1. Bayes学派的唯心主义在确定效用函数U(r)的过程中表现得淋漓尽致。有趣的是,对U(r)的一致性检查却又表现出对主观中的客观性的足够尊重。
  2. 决策论离不开损失函数,也就注定与主观性有生死与共的姻缘。认识到主观的重要性是统计学的一大进步。

 

报告人:于江生(2003年10月25日)。内容: 首先补充介绍了上周六高等数理统计学讨论班报告中没有讲完的充分统计量和凸性。 我们证明了“当通过风险函数来评价决策法则时,只需要考虑定义在充分统计量上面的法则”。Jensen不等式是一件利器,我们介绍了它的两大重要应用:(1)利用Jensen不等式证明“如果损失函数是凸的,则只需要考虑非随机化决策法则”;(2)利用Jensen不等式证明Rao-Blackwell定理。 损失函数是统计决策理论的关键之一,效用为构造损失函数提供了理论依据。尽管如此,损失函数的构造仍然很困难,加上对其稳健性的质疑,使得统计决策理论蒙上了阴影。话又说回来,要刻画有理性的人的优先模式的确不是件易事,效用函数能做到如此已经难得。在效用理论中,我们着重分析了合理性公理的直观含义。我们介绍了三个“标准的”损失函数:平方误差损失、线性损失和0-1损失,并把统计推断问题、预测问题都纳入统计决策理论的框架。

 

1)报告人:幸运(2003年10月29日)。内容: 介绍了序列对齐的两个经典的动态规划算法——Needleman-Wunsch算法和Smith-Waterman算法,其中后者是对前者的限制(求局部得分最大且未出现负值的子序列)。 (2)报告人:周一鸣博士(清华大学生物系)。内容:周博士以通俗幽默的语言给我们讲解了生物信息学的发展过程和一些基本概念。在晚上的火锅讨论中,周博士提出了几个可做的问题,给我们机器学习小组输入了新鲜的血液。

 

报告人:温珍珊(2003年11月1日)。内容:。

  • 似然函数和后验分布的正态逼近
    1. Jeffrey法则
    2. HPD区域
  • 哲学评注:即使是经典的统计学也无法摆脱模型选择的主观性,所以以“客观”和“主观”不可能区别频率派和贝叶斯学派。严格地说,统计学注定是与主观性纠缠在一起的。另外,“无信息先验”或许是一个不合理的问题,因为现实世界中很难找到应用实例,除非统计学家是个不谙世事的婴儿,多多少少都能有些许的信息可供我们得到参数的分布。
  • 蛋白质结构预测

 

1)报告人:欧阳佑(2003年11月5日)。内容:欧阳佑负责Tanner著作(见参考文献 ,贝叶斯学派的好作品)的介绍,其中EM算法及其变种、MCMC是核心。 该报告是本书的第二章,(A)首先欧阳介绍了正态总体(均值未知,方差已知)的后验分布,揭示了“数据淹没先验”(data swamp the prior)导致贝叶斯派和频率派殊途同归。(B)接着介绍了线性模型中在某些条件下回归系数、误差项方差等的后验分布。如果似然函数能写成data-translate形式(一般情况下很难做到),参数的无信息先验分布就很容易得到。一般地,我们可以利用Jeffrey法则得到这个先验分布(见pp23-24,以二项分布为例,参数的无信息先验分布的Jeffrey解是一个贝塔分布β(1/2,1/2)),这部分内容是本章的核心之一。(C)在估计误差Δ=θ-estimate(θ)服从正态分布(均值为0)的前提下,频率派和贝叶斯派对Δ给出了不同的解释(Tanner没有给出任何评论)。(D)本章的另外一个核心内容是Box和Tiao定义的最高后验密度(Highest Posterior Density,HPD)区域,这个概念合理地刻画了参数θ取得大概率的区域。Box和Tiao进一步指出给定概率α,HPD区域在参数空间体积最小。以线性模型为例,贝叶斯派和频率派在无信息先验的条件下达成一致,这一事实无疑支持了方差分析的贝叶斯理由。(2)报告人:周一鸣博士。内容: 着重介绍了蛋白质的二级结构预测(α螺旋和β折叠)。

  • 先验信息和主观概率
    1. 无信息先验分布(Jeffreys方法)
    2. 最大熵方法
    3. 利用边缘分布获得参数先验分布
    4. 多层先验方法
  • 哲学评注:“客观”是上帝的词汇,人是没有资格谈论它的。对于上帝的意图,人只有靠猜测,而且只能用实验效果来评价猜测得好还是坏。需要小心使用熵,因为在很多研究中我们很难断定哪些事件是基本事件,尤其是自然语言处理。

 

报告人:于江生(2003年11月8日)。内容: 参数的先验密度函数的获取是Bayes分析的一个关键问题。(1)在无信息的情况下,Jeffreys提出利用期望Fisher信息数(或信息矩阵)得到先验密度,对位置问题和尺度问题都有相对合理的解释。我们对Laplace在有限参数空间上的“无知性原则”推广到连续参数空间的做法提出质疑,并给出无信息先验的一种理解。(2)最大熵方法用于获取先验密度在很多情况下是有效的,Jaynes对它有详尽的描述。(3)用边缘分布确定先验有一整套的方法,譬如ML-2方法、矩方法、距离方法等。(4)在同时知道结构和主观先验信息的条件下,多层先验方法比一次完成的先验主观判定要更稳健。(5)Berger在对频率派所谓“客观性”的批判可谓入骨三分,同时他也谦虚地提及统计学家的作用——统计学家不涉足先验和损失函数的定义,这完全是领域专家的事情。作为一个被咨询者,统计学家只提供决策模型或方法。

 

1)报告人:欧阳佑(2003年11月12日)。内容:如何利用Laplace方法对参数后验分布的矩做高阶近似。若g(x)是密度函数,关于J(y)=∫f(y|x)g(x)dx<∞我们有两个问题:(i)如何计算J(y)?(ii)如何得到服从J(y)的随机样本?

A)总体密度为g(x)的随机样本容易得到时,

  1. Monte Carlo方法利用总体密度为g(x)的随机样本做近似Σf(y|xi)/n。
  2. 利用组合方法获取J(y)的随机样本。

B)总体密度为g(x)的随机样本不易得到时,

  1. 用重要抽样(Importance Sampling)得到J(y)的近似。思想是:首先利用g(x)的近似I(x)得到随机样本,其中I(x)的随机样本比较容易得到;然后利用加权平均得到J(y)的近似。
  2. 当权重函数g(x)/I(x)有界时,利用拒绝/接受算法产生J(y)的随机样本。该算法的关键是产生[0,1]上服从均匀分布的随机数。

2)报告人:于江生。内容:利用投影样本的方差对SVM的分割超平面做了一点点改进。另外,若某个支持向量是噪声,如何将之识别出来也一个很关键的问题。

 

报告人:靳志辉(2003年11月15日)。内容:。

 

报告人:幸运(2003年11月19日)。内容:。报告人:欧阳佑。内容:。

  • 渐进逼近

 

1)报告人:温珍珊(2003年11月22日)。内容:。(2)报告人:靳志辉。内容:。

 

1)报告人:温珍珊。内容:。(2)报告人:欧阳佑。内容:。

 

报告人:于江生(2003年11月29日)。内容:(1)后验分布;(2)贝叶斯推断;(3)贝叶斯决策论。

 

1)报告人:幸运。内容:。(2)报告人:欧阳佑(2003年12月3日)。内容:。(3)报告人:温珍珊。内容:。

 

报告人:于江生(2003年12月6日)。内容:闲聊。

 

报告人:于江生(2003年12月13日)。内容:(1)经验贝叶斯分析;(2)多层贝叶斯分析;(3)贝叶斯的稳健性。

 

报告人:王宁(2003年12月21日 下午1:30)。内容:。

  • 补充报告

 

1)报告人:温珍珊(2003年12月24日)。内容:。 (2)报告人:靳志辉。内容:。

2003年统计机器学习讨论班到此结束,感谢所有参与者和报告人的热情。Berger著作的第七章《预后验与序贯分析》以后再说。

 

报告人:于江生(2003年12月27日)。内容:(1)贝叶斯的容许性及大量重复同一过程的评价;(2)贝叶斯派的计算;(3)贝叶斯派的 信息交流;(4)信息源合并及决策者为多人的决策;(5)贝叶斯分析小结。

  • 特征选取的新方法

 

报告人:于江生(2007年4月17日)。内容:(1)介绍了当前特征选取的filtering methods,wrapper methods和embedded methods。(2)特征选取的贝叶斯方法。

2008年 >> 2000年 2001年 2002年 2003年

 

 

l          自然语言处理概述

 

 

l          核方法简介

 

 

l          读书报告1:神经网络在博弈论中的应用

 

报告人:蔡延亮(2008年10月14日星期二),Science 2008, Predicting Human Interactive Learning by Regret-Driven Neural Networks