手机版 欢迎访问人人都是自媒体网站
我们现在已经走过了很久的历程,终于完成了这个系列的写作,今天是我们的收官之作,我们聊点轻松的,今天没有公式,没有代码。
如何构建学科体系
数据世界观
数据分析整体框架
问题分析/数据预处理/数据预分析
数据分析核心:建模
模型空间概述
数据科学边界(这篇文章)
……
数据科学 = 数学/统计学 + 科学方法论 + 计算机 (+ 业务经验)我们在刚刚接触一个新奇的事物的时候,总有一种冲动:这种东西可以改变全宇宙。
比如:我们刚接触区块链的时候,啊,区块链就要改变全宇宙了。其实区块链也只是一种去中心化的分布式的数据库技术而已,当我们问区块链什么时候可以改变世界的时候,其实再问一种数据库技术什么时候改变世界?
科学刚诞生的时候,人类世界开始了去魅的过程,越来愈多的事情被证伪,被科学拉下神坛,正当科学家们踌躇满志的时候,马克韦伯在一篇题为<作为学术的志业>的演讲中说:我们这个时代必定是分裂的一代,一方面科学告诉我们事实是什么,却无法告诉我们什么是善良,什么是美。
短短的一句话终结了科学万能的神话,我们刚接触数据科学的时候,也觉得这是个数据入侵一切的世界,今天我们就来看看数据科学不能解决什么?
科学的边界:无法测量的对象,无法研究这里先补充一点测量学的基础知识,我们如何测量一个研究对象呢?
测量主要考虑的俩个因素:效度和信度。
信度是指其可信度,既是在多大程度上是正确的(数据测量的稳定性);
效度是指能够多有效的表示所需表达的含义(映射的准确性)。
举个栗子:以一份量表(测量智力,记忆力之类的标准化试卷)为例,其信度就是指同一个人在几次参加同一份试卷的考试(假设此人并未有改变)分数不会有大的差异,而效度是指这份试卷能勾多大程度测量你的智力水平。再如:用一把尺子来量一个人的体重,其信度是有的,但是没有效度。如果一个事物具有效度,那一定具有信度,反之则不然。
现实中,我们不一定可以找到有效测量对象的指标或者参照,即使找到了也不一定可以保证测量的稳定性。
举个栗子:科学是如何研究潜意识的,目前科学达到的最高的水平,也只是通过特定脑区的脑电波变化来反映潜意识。首先这个测量的效度就很低,脑电波变化如何能反映潜意识呢?同一潜意识活动如何稳定的被测量?
科学的边界:价值类问题 无法有效研究关于这部分的论述,前人已经做了精彩的论述,我援引韦伯在<学术与政治>中的论述。韦伯在书中谈到的一个重点,是真善美统一性的瓦解。学术知识的目标是求真,发现自然世界与人类社会的事实真相。
在西方传统的观念中,真善美是一个和谐整体,发现了事实真相就能确立伦理的标准,由此分辨好坏对错,而且还能确定美的本质,从而得以鉴别美与丑。但是现代学术的发展表明,真是一种事实判断,而善或美都是价值判断,三者背后没有统一的依据。
如果一名学者在“表达自己的价值判断,那么他对事实理解的完整性就终结了”。这意味着韦伯认同英国哲学家休谟的观点,事实与价值属于两种不同的问题领域,前者是“实然”问题,关乎“实际上是什么”,而后者是“应然问题,判断“应当是什么”,实然与应然之间没有逻辑的统一性。
比如:今天我穿了件蓝色的上衣,这是一个事实陈述,大概不会有异议,假如你说这是绿色的,那么你要么是故意胡说,要么就是“色盲”。我们可以用仪器来测量衣服的“波长”,用数据证明这是物理学定义的“蓝色”。
但还有另一种说法,说这种蓝色“特别好看”,这就不是事实陈述,而是在做价值判断了。 要是有人提出不同的判断,坚持说这种蓝色难看极了,你很难用同样客观有力的证据来反驳。
这个简单的例子告诉我们两个道理:
第一,美和真属于不同的领域,没有统一的判断依据;
第二,事实判断具有客观性,在原则上可以通过证据和理性辩论让大家达成一致,而价值判断具有很强的主观色彩,理性辩论无法保证能解决争议,达成共识。
计算机的边界:图灵机限制/摩尔定律限制/信息论假设关机计算机的极限主要来自这几个方面:
图灵机的极限:图灵机仅仅可以计算一部分问题,而图灵机是今天计算机的原型.图灵机无法计算一类让自己无法停机的问题。
香农信息论基本假设:计算机无法随机,无法表示无理数。
摩尔定律随着芯片体积缩小而失效:摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的。
其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP