拯救数据科学的“半贝叶斯人”

一位科学家在他的论文中写道："人类知识的大部分是围绕因果关系而不是概率关系组织的，而概率微积分的语法并不足以描述这些关系......正因如此，我认为自己只是半个贝叶斯人"。

或许一场关于自然语言处理的精彩辩论可以告诉我们何谓“半个贝叶斯人”，让我们把时光拨回到几年前。

一场精彩的辩论

辩论的双方分别是：号称“现代语言学之父”Noam Chomsky、身为谷歌研发总监的Peter Norvig。他们分别是自然语言处理领域的旧派和新派代表。

当谈到该领域的发展方向时，Chomsky说到：

“想象一下，有人说他想要消灭物理系并转而使用‘正确’的方式。所谓‘正确’的方式是将真实世界发生的事情录制成无数录像带，然后将这数十亿字节的数据输入最大、最快的计算机，并进行复杂的统计分析 - 你知道的，对所有东西都用一下贝叶斯方法 - 你就能对接下来会发生的事情做一些预测。事实上，你做的预测会比物理学家能给出的好得多。“如果‘成功’被定义为对大量混乱的未分析数据的合理近似，那么这样做的结果比物理学家的更接近‘成功’。显而易见，这样一来，诸如绝对光滑平面之类的思想实验就不复存在了。但这样做，你将不会得到科学所一直致力于达到的那种理解水平 - 你所得到的只是对正在发生的事情的近似。”

Chomsky在许多其他场合也强调了这种观点：当前对‘成功’自然语言处理的定义 —— 即预测准确性 —— 并不科学。将“一些巨大的语料库”投入到“复杂的机器”，仅仅是“未分析数据的近似处理”简直就像撞大运，并不能使我们“真正理解”语言。

他认为，科学的首要目标是发现关于系统实际运作的“解释性原理”，而实现目标的“正确方法”则是“让理论引导数据”：通过精心设计的实验抽离掉“不相关干扰”，以此来研究系统的基本性质 - 就像自伽利略以来的现代科学研究方法一样。简而言之：“只处理待分析的混乱数据不太可能让你明白任何原理，就算你是伽利略也不行。”

Norvig随后以一篇长文回应了Chomsky的主张，这篇文章挑战了Chomsky在科学上的‘成功’的观念，并为使用概率模型象征人类语言处理进行了辩护。Norvig指出，语言处理中几乎所有主要的应用领域 - 搜索引擎、语音识别、机器翻译和问答 - 都是由训练有素的概率模型主导，因为它们比基于理论/逻辑规则的旧工具表现得更好。

他认为，Chomsky关于科学上的“成功”的标准 - 强调找到原因而忽视方法的重要性 – 是误入歧途，这可以引用Richard Feynman的话加以说明：“没有论证，物理学可以进步;但没有事实，我们寸步难行。”

说起来其实还挺low的，Norvig顺带提了一句 - 概率模型“每年创造数万亿美元的收入，而Chomsky理论的产物几亿美元都不到。” (注：数据来自在亚马逊上Chomsky著作的销售额)

Norvig揣测，Chomsky对“对一切应用贝叶斯方法”的蔑视实际上来自于Leo Breiman所描述的统计模型中两种文化之间的分裂。

1)数据建模文化，它假设自然是一个内部变量随机联系的黑箱，建模者的任务就是确定最符合这些联系的模型;

2)算法建模文化，它假设黑箱中的关联太复杂而不能用简单模型来描述，此时建模者的任务就是使用能最好地用输入量估计输出量的算法，而不再期望黑箱内变量真正的潜在联系可以被理解。

Norvig认为Chomsky可能对概率模型(数据建模文化)本身并没有什么意见，他只是针对具有“亿万参数”且难以解释的算法模型，因为它根本无法解决“为什么”的问题。

Norvig属于2号阵营，他们认为像语言这样的系统过于复杂、随机，很难用一小组参数来表示;抽离出复杂性就类似于制造一个实际上不存在的、“完全符合永恒领域的神秘设施”，因此“忽略了语言是什么以及它是如何工作的。”

Norvig在另一篇论文中重申，“我们应该停止以创造完美理论为目的的行为。我们应当拥抱系统复杂性、并接受数据就是有用的这一特点。”。他指出，在语音识别、机器翻译甚至是几乎所有使用网页数据的机器学习应用中，例如基于数百万计具体特征的n-gram统计模型或线性分类器的这些简单模型，比试图发现普遍规律的精美模型表现更好。

这次辩论最让人们受触动的不是Chomsky和Norvig的分歧，而是他们的共识：他们都同意，不试图去理解变量就用统计学习方法分析大量数据往往会产生比试图给变量之间的关系建模更好的预测效果。

而且我们也并非唯一被这一现象困扰的人：那些被访谈过许多的具有数学科学背景的人也认为这是违反直觉的 - 最符合事物基本结构关系的方法难道不应该也是预测得最为准确的吗?我们怎么能在不知道事物如何实际运作的情况下做精准的预测呢?

预测与因果推论

即使在经济学和其它社会科学等学术领域，预测能力和解释能力的概念也通常被混为一谈 - 显示出高解释力的模型通常被认为是具有高度预测性的。但是，构建最佳预测模型的方法与构建最佳解释模型的方法完全不同，建模决策通常要考虑两个目标之间的权衡。为了说明这两种方法上的差异，下面是“An Introduction to Statistical Learning”(ISL，统计学习导引)中一段关于预测和推理建模的简短摘要。

预测建模

预测模型的基本原理相对简单，使用一组已知的输入X来估计Y。如果X的误差项平均为零，则可以使用以下方法预测Y：

其中ƒ是由X提供的关于Y的系统信息，当给定X时，它给出结果Ŷ(Y的预测)。只要能准确地预测Y，ƒ的确切函数形式通常是不重要的，它被视为“黑箱”。

这种模型的准确度可以分解为两部分，可减少的误差和不可减少的误差：

为了提高模型的预测准确性，模型主要目标是通过使用最合适的统计学习技术来使可减少的误差最小，从而估计ƒ。

推理建模

当我们的目标是理解X和Y之间的关系，比如Y是如何作为X的函数而变化时，ƒ不能被视为“黑箱”，因为我们无法在不知道函数形式的情况下理解X对Y的影响ƒ。

几乎总是如此，在推理建模时，使用参数化方法来估计ƒ。参数化是指通过假设参数形式的ƒ并通过假设的参数来简化对ƒ的估计的方法。这种方法有两个一般步骤：

假设ƒ的函数形式。最常见的假设是ƒ是关于X的线性函数：

使用数据拟合模型，也即找到参数值β0、β1、...、βp，使得：

最常用的拟合模型的方法是普通最小二乘法(OLS)。

灵活性/可解释性的权衡

你可能已经在想：我们怎么知道ƒ是否具有线性形式?因为ƒ的真实形式是未知的，我们也不知道，如果我们选择的模型与真实的ƒ相差太远，那么估计就会有偏差。那为什么我们要先做出如此肯定的假设呢?这是因为模型的灵活性和可解释性之间存在内在的权衡。灵活性是指模型可以生成的用以适应ƒ的多种不同的可能函数形式的形状范围，因此模型越灵活，它产生的形状就能符合得越好，预测精度就越高。但是更灵活的模型通常更复杂并且需要更多参数来拟合，并且ƒ的估计通常变得太复杂以至于任何预测因子的关联都难以解释。另一方面，线性模型中的参数相对简单且可解释，即使它在准确预测方面做得不是很好。这是ISL中的一张图表，它说明了不同统计学习模型中的这种灵活性-可解释性之间的权衡：

正如你所看到的，具有更好预测精度、同时也更灵活的机器学习模型(例如支持向量机和Boosting方法)的可解释性非常低。对ƒ的函数形式进行较肯定的假设使模型更具解释性，推理建模在这个过程中也放弃了对预测准确性的追求。

因果识别/反事实推理

但是，请等一等!即使用了能很好符合并且高度可解释的模型，你仍然不能将这些统计数据用作证明因果关系的独立证据。这是因为，“相关性不是因果关系”啊!这里有一个简单的例子：假设你有一百个旗杆及其阴影的长度和太阳位置的数据。你知道阴影的长度是由杆的长度和太阳的位置决定的，但是即便你将杆的长度设置为因变量而把阴影长度作为自变量，你的模型仍然会十分符合统计显著性系数。显然，你不能说杆子的长度受阴影长度影响。这就是为什么我们不能仅通过统计模型进行因果推理，我们还需要背景知识和理论来证明我们的结论。因此，因果推理的数据分析和统计建模通常要受到理论模型的严格指导。

即使你确实有一个坚实的理论依据说X导致Y，确定因果关系仍然非常棘手。这是因为，评估因果效应涉及要识别在没有发生X的“反事实世界“里会发生什么，这显然是你观察不到的。这还有另一个简单的例子：设想一下你要确定维生素C对健康的影响。你有某人是否服用维生素的数据(如果他们这样做则X = 1;否则为0)，以及一些二元化的健康状况(如果他们健康则Y = 1;否则为0)，如下所示：