概率的应用Ⅰ: 随机应答问卷调查(Randomised Response Survey) 和 哈迪温伯格定律(Hardy-Weinberg Law)

统计学是计量经济学的基础, 而概率学又是统计学的基石。

概率学和统计学最大的区别在于,概率推测不确定时间长期的可能性,而统计则完全相反,我们先收集结果后推测过程。

举一个具体例子:

假设有一个桶,里面有一些红色的珠子和一些黑色的珠子。概率学家知道里面各有多少珠子,想要找出抽到一个红色珠子的可能性。而统计学家则需要从桶里拿出一些珠子来计算桶里红色珠子的比率。

说真的,学习统计和概率总是让我很头疼,因为内容太枯燥了,每次上课只学理论就会觉得很无聊。不过统计和概率的真正意义在于应用,每次做题就能理解好多上课没听懂的理论。

因为这学期主要在学概率,今天就来和大家分享两个概率的实际应用,希望大家也能在概率里找到乐趣。

1 ) 随机应答问卷调查 (Randomised Response Survey)

有时候研究人员做实验,如果调查问卷里有一些比较私人或者敏感的问题,人们可能为了面子会给出与事实不相符的答案。举一个十分典型又日常的例子,当初看《非诚勿扰》的时候,男嘉宾播放VCR介绍自己的感情经历,大多数都会说自己曾经有过3段情感经历,几乎很少会有男嘉宾会多过这个数字,可事实确实如此吗?这个答案也是不得而知了。

研究人员为了避免这个问题,在问卷调查中得出确实的答案,想到了一个办法:Randomised Response Technique (Warner, 1965, Journal of American Statistical Association)

假如我们想要做一个问卷调查:你是否进入过异性厕所?

样本量,n = 100

一般人们的回答是:

a) 我进过异性厕所

b) 我没有进过异性厕所

不同于一般直接让人们回答这个问题,现在我们将(a) 和 (b) 按照一定比率发给被调查者,然后被调查者根据他们拿到的(a) 或(b)来回答是或不是。

这样一来我们就能得到被调查者的真实答案,因为调查人员最终得到的结果只有是或不是,而调查人员也不知道结果对应的是(a)或(b)哪一句。

假设,按8:2的比率发出(a)和(b)两个句子,我们能得到一个概率树。

这样我们就能得到 \pi , “我进过异性厕所的”总概率,确保了数据获取的准确率。

2) 哈迪温伯格定律(Hardy-Weinberg Law)

“哈迪温伯格定律”是生物学和遗传学中概念,指在理想状态下,各等位基因的频率和等位基因的基因型频率在遗传中是稳定不变的,即保持着基因平衡。

假设这世界上有两种染色体A和a,所以我们会得到AA, Aa 和 aa 三种基因组合。3种基因各有p, q, r比率。

下一代的基因组成是从父母的基因中各拿一个染色体,组成一对。

假设第二代AA, Aa 和 aa 三种基因的比率分别为p’, q’, r’。

哈迪温伯格定律解释说AA, Aa 和 aa, 的比率将一直是p’, q’, r’, 不变。

假设从父母中继承到A或a的概率和在总人口中抽取A或a的概率是相同的。

P(A) = P( A|AA ) * P( AA ) + P( A| aa ) * P( aa ) + P( A| Aa ) * P( Aa )

= 1 * p + 0 * q + 0.5 * r

= p + 0.5r

同理可得 P(a) = q + 0.5r

第二代的p’, q’, r’ 比率即为

p’ = P(A) * P(A) = (p + 0.5r)^2

q’ = P(A) * P(a) = (q + 0.5r)^2

r = 2 * P(A) * P (a)

= 2(p +0.5r) (q + 0.5r)

第二代中有A 的可能性为

P(A) = P( A|AA ) * P( AA ) + P( A| aa ) * P( aa ) + P( A| Aa ) * P( Aa )

= 1 * p’ + 0 * q’ + 0.5 * r’

= p’ + 0.5r’

= (p + 0.5r)^2 + 2(p + 0.5r) (q + 0.5r)

= p + 0.5r (和第一代结果相同)

这样就从概率的角度证明了哈迪温伯格定律。

今天和大家分享了两个概率的应用,让我们认识到概率的应用范围十分广泛,可以跨越不同领域涉及到生物学,对实验研究,收取数据也很有帮助。希望我在学习概率的路上能学到各种有趣的应用,也和大家一起分享,一起了解概率,喜欢概率。

注:第一次在知乎上发文,对如何输入公式不是很熟悉,这次的格式不是很整齐,下一次会注意的

来源:知乎 www.zhihu.com

作者:Lucia

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载