关闭

关闭

关闭

封号提示

内容

首页 大数据会带来金融风控革命吗

大数据会带来金融风控革命吗.doc

大数据会带来金融风控革命吗

Abigail艳娜
2018-04-04 0人阅读 举报 0 0 暂无简介

简介:本文档为《大数据会带来金融风控革命吗doc》,可适用于综合领域

吉林快3—吉林快三拥有大量关于大数据会带来金融风控革命吗.doc的实用类文档资料,所有文档由知名合作机构以及专业作者提供,线上总资料超过两个亿,保证满足您的需求。

大数据会带来金融风控革命吗学习辅助网wwwnetIT数据中心微信账户:iIT一、大数据并非新事物早在年着名才成为互联网信息技术行业的流行词汇未来学家阿尔文托夫勒就在《第三次浪潮》一书中将大数据热情地赞颂为“第三次浪潮”。不过直到年前后“大数据”才成为互联网信息技术行业的流行词汇。年随着互联网金融的空前热门也才真正意义上将“大数据”推到了高潮。如果探究互联网金融与大数据流行之间的关联背后有一个很关键的因素就是互联网金融一直无法解答一个核心命题风险控制。即互联网没有找到比传统金融更具优势的风控方法从而使得互联网金融在兴起的过程中饱受质疑。而横空出世的大数据成为了互联网金融支持者的一个重要精神支柱。大数据越不可测就越具备想象力对互联网金融而言就越具解释力。那么什么是大数据呢,我谈谈自己的看法。大概四五年前美国《商业周刊》资深作家约翰伯恩一本畅销书《蓝血十杰》对今天中国互联网金融和大数据理论爱好者们产生了极大的影响。这本书讲述了十个年轻人出身名校哈佛心怀理想是天才中的天才。他们二战期间成为了美国空军的后勤英雄卓有成效地将数字化管理模式应用于战争为盟军节约了十亿美元的耗费帮助盟军取得了胜利。这说明数据的分析和管理很早就被用于国家战争和商业运营了为什么现在非要在数据前面加个“大”字呢,上次在鸿儒论道听社科院何帆教授的课程他提到从本质上讲一切的社会现象都是统计现象并不像实验室里的试验那样有明确的因果关系。如经济学的供求定理就是一个统计规律。但是人类认知能力中最差的也是统计思维。诺贝尔奖得主、心理学家卡尼曼曾经讲过人类头脑中有两套思维。一套思维是本能的比如我们的语言能力、模仿能力、第六感等等都是与生俱来的。如麻省理工学院的语言学家乔姆斯基指出小孩子为什么到岁就能学会说话而要到十几岁才能学会微积分呢,语言学得这么快不是小孩子自己能学会的是他出生时大脑中就预装了一套系统。此外察言观色的能力也不用特意学或教小孩子就已经会了。所以这是人类的第一套系统也是能够让我们快速反应的系统。第二套系统是当我们做数学推理尤其是统计分析时需要用到的。第二套系统运转很慢因为占的内存太大往往我们犯错误就是因为决策太快在统计判断的方面出现问题。所以我们在谈大数据的时候都认为是个新潮的概念但是作为方法论而言大数据已莘莘学子必备的交流网站学习辅助网wwwnet学习辅助网wwwnet经有很长的历史了。那为什么现在大家突然讲大数据了呢,主要是因为现在的数据越来越多一方面随着IT革命存储和计算能力在不断提高未来可能会出现无限存储、瞬间计算的新时代另一方面能够被数据化的东西也越来越多过去只有数字而会计制度出来后经济活动开始可以通过记账数据化。现在大家拿的pad和电子阅读器中的文字、图像也是数字化的。随着能够变成数据的东西越来越多计算和处理数据的能力越来越强大家突然发现这个东西很有意思。一旦把统计学和现在大规模的数据融合在一起就会颠覆很多我们原来的思维。二、大数据就是非相关数据的相关性现在大数据被说得神乎其神的一个重要原因是普遍认为大数据可以有效推演和设定未来的走向极为精准地推断某些事件出现的概率体现在金融业里就是可以很好地控制风险。那么真的如此吗,写于年的科幻小说《银河帝国》就讲述了在银河帝国最繁荣的时候国内最有才华的数学家谢顿说他能够预知未来历史的变化以及潜在的危机只要数据量足够大。当时的人口已经是上万亿足够他准确预测未来的变化。所以谢顿悄悄建了一个“基地组织”还有“第二基地组织”。当出现所谓的“谢顿危机”时候大家就把他事先录好的录像调出来他在录像里会阐述已经预测到的此次危机及其的可能性并告知人们要怎么做。书里的谢顿教授首先是个数学家同时也是个心理学家。他从上千兆的社会民众中进行行为心理学的样本分析来推断社会的演变。他把各种偶发性因素都设立了变量的幅度范围一旦出现异变就予以扑杀以使社会回归到设定的进程去。他也做了一些基本的定义这些定义都隐含了一个社会假设那就是“作为研究对象的人类总数必须达到足以用统计的方法来加以处理还有一个必要的假设是群体中必须没有人知道本身已是心理分析的样本如此才能确保所有的反应都是真正的随机”。可以看出大数据的意义在于从海量的数据里寻找出一定的相关性然后推演出行为方式的可能性。从这个角度来看很多人所谈的大数据是相关数据的优化和整理概念压根不是一回事。何谓非相关数据的相关性,比如说公共卫生领域研究传染病是很难的因为发病快病人马上就死了很难像癌症那样去研究它的病理学是什么。那最后是怎么发现传染方式的呢,以霍乱为例实际上就是有两张地图一张是得霍乱病人的分布图另外一张是伦敦市水井的分布图最后发现两张图之间有一些联系规律所以觉得可能跟饮水有关。在科学不发达的过去我们是通过水井跟霍乱这两种非相关数据的分布寻找到了相关性虽然不知道为什么也无法解释但是却能做出较好的防范。这种非相关数据的相关性是偶然发现的并非刻意寻找的结果。原因在于过去没有数据汇集技术导致数据量太少根本无法对非相关数据进行集中比对。另外一方面也是因为数据的处理能力有限即使数据汇集了也无法有效进行数据处理要找出各种数据的相关性的手段极为有限。莘莘学子必备的交流网站学习辅助网wwwnet学习辅助网wwwnet所以过去的数据挖掘也好数据分析也罢更多还是对带有相关性的数据的整理和分析事前都是有逻辑作为基础的。包括《蓝血十杰》里面的行为也包括阿里金融的所谓大数据风控等本身就是可推导的数据在此之上进行概率计算。如果这些都定义为大数据那么大数据就不是什么新概念。要讲大数据必然是海量的不同维度数据的相关性分析对于本身具备相关性的数据顶多称为数据优化罢了。我自己觉得大数据的出现更多是基于两个方面:第一是互联网使得数据产生量大大增加有了现实的不同数据的比对和处理的可能性第二是计算能力大幅度提高原先单一的中央式计算方式变成了以云计算为特征的分布式计算方式使得处理能力海量增加最终可以把统计学和现在大规模的数据融合在一起从而发现很多有意思的事情。一方面是发现了很多有相关性的事件但是不知道为什么相关另外一方面是发现很多原先认为是没有关联的事情原来内在都是有联系的。最终可以成为我们决策的依据大大提升我们的管理效率或者处理事情的能力也极大地颠覆我们原来的思维。我曾开玩笑说我们最早的大数据思维是什么呢,是周易衍生出来的命理学派绝对是大数据的思维。你算个卦然后说某个人晚上死他就死了。两者没有任何的关系啊但是从统计结果来看往往就是准确率极高。是什么维持了两者相关很多时候有因果关系很多时候无因果关系当然也可能是还不知道的无法验证的因果关系。我在《支付革命》里提出过少扯大数据多谈小数据。为什么呢,因为大数据要尽量收集更多的非相关数据来计算其相关性必然带有极大的成本和结果的不确定性。成本大是因为数据收集成本和整理成本都很高结果不确定是因为都是非相关数据你之前是很难确定这些数据的相关性的需要不断碰撞和测试不但耗费成本而且很可能穷尽之后发现这些数据真的是不相关所以投入和产出就经常极不对称。上次碰到惠普的副总裁提大数据的概念他说按照他们的理解全球有能力进行所谓大数据应用的公司不会超过家我自己的推测也差不多。很多公司即使可以用大数据往往所获得的收益也根本不足以覆盖巨额的成本。我在一次峰会上听到很多PP公司在说它们可以通过业务沉淀出极大的数据然后用大数据技术来提高风控质量。这叫啥,叫典型的无知者无畏。大数据与“黑天鹅”事件一、大数据的相关性基础条件黑天鹅’事件也仍然是没有办法被准确预测到的。“一句话即便在大数据时代种种‘因为所有根据过去的理论数据模型进行的假设都无法准确推演未来它们不过是为了未来某个黑天鹅做着准备。”大数据涉及海量非相关数据的相关性的统计其相关性的存在基础又是什么呢,非相关数据很多时候两者的相关性是真相关也可能是伪相关。需要注意这种相关性要成为可推演的行为逻辑首要前提就是确保这种相关性的基础是恒定不变的。莘莘学子必备的交流网站学习辅助网wwwnet学习辅助网wwwnet再以前文霍乱与水质关系为例这里存在一个基础前提就是霍乱弧菌在水中存活时间较长有些菌株还可以在水中越冬。所以一次污染后有可能使水体较长时间保持传播能力。而且当水栖动物被污染后霍乱弧菌有可能在其体内存活较长的时间继续污染水体。所以经水传播的特点是呈现暴发状态。如果这个霍乱弧菌不是通过水传播了那这种相关性就消失了。因此我们要注意和警惕的是大数据并非是一个万能的事物它的缺陷在于立足于统计学基础之上必然是会因为统计样本的变化而发生变化的。尤其在适用于人群分析的时候。拿前面的《银河帝国》来举例把社会公民作为样本来进行分析通过过去的样本行为得出未来的可能结论。这里的理论基础是在人群的社会性特征不发生改变的情况下作为社会构成的绝大部分人思考问题的方式不会有太大的差异行为逻辑也是相对固定的。如果是将一个人特列出来可能很有个性但当人口样本数量足够大时就会发现其实每个人都是一模一样的。但是要注意这个理论成立的核心前提是社会性特征要保持不变。因为只有在相对稳定的基础性环境里被列为样本分析的群体才会是一致行为逻辑。在基础性环境发生变化的情况下人的行为跟过去必然是不同的。一个简单的推论是如果一个人未来做的事情跟过去一致那么这个社会必然是不发展的。因为即使有人做出了创新性突破但是当社会多数群体都拒绝创新使用的话社会还是停滞的。因此在一个发展的社会里社会群体必然是不断改变其行为模式的。而一旦行为模式改变所有过去的数据积累所构建的相关性都会消失因为人们不再按照过去的生活习惯进行生活了。当然很多人会说社会前进必然使得数据也是前进的所以还是可以用新的数据来推断未来。这里的悖论在于由于大数据的核心是通过分析过去而判断未来隐含的前提条件必然是未来跟过去的基础性特征一致。而且数据由于需要海量积累匹配处理后的推论结果永远是慢于社会前进的步伐的。二、过去能否决定未来所以问题的焦点在于过去是否一定能决定未来,如果大数据无法解答这个命题那么它必然在很多领域是失效的。我们先看一个简单的堆沙子的实验。在海边堆沙子无论你怎么堆积必然是要倒塌的问题在于什么时候倒塌,通过数学模型一直无法测算出精确的结果也就是无法计算出到第几粒沙子的时候沙堆就会倒。这里如果用过去决定未来的逻辑进行推演第粒沙子没倒第粒没倒第粒没倒……第粒也没倒我们可否有效认定第粒就不会倒了呢,事实上过去的每粒沙子的往上堆积都是在为最后一粒沙子的倒塌做准备。过去几年的金融危机告诉我们原来的经济学、金融学理论都存在巨大缺陷。按照传统的标准正态分布状的金融学模型年的金融危机大概亿年才会爆发一次地球都没莘莘学子必备的交流网站学习辅助网wwwnet学习辅助网wwwnet有那么长的寿命怎么就让我们赶上了呢,为什么打开新闻遇到了年不遇的旱灾年不遇的水灾历史上从来没有过的雾霾天气等等怎么都让我们赶上了呢,这种黑天鹅事件即使在大数据时代也仍然是没有办法预测的因为这些数据都是为了未来某个黑天鹅事件做的准备。在《黑天鹅》这本书里面有一句非常好的话:“你不知道的事情比你知道的事情更重要。”在以前很多东西我们没有办法把它数据化也没有办法把它预测出来。但现在数据足够多它会给你一种幻觉让人觉得能找到看得见、摸得着的规律让人们觉得有足够的能力把握未来。但往往在人们过于自信的时候会犯更大的错误。到目前为止越是大的系统性危机人们越束手无策。美国金融危机爆发后美联储前主席格林斯潘到美国国会去作证他说“我发现了一个缺陷但我不知道它有多么严重也不知道它会持续多久这件事情使我深感苦恼。”有一个国会议员马上打断他说:“格林斯潘先生你的意思是不是说你根本不知道为什么会发生这次金融危机,”格林斯潘说:“是的因为在过去多年甚至更长的时间里我都有非常雄辩的证据证明我的做法会如愿以偿。”这么大一场危机到来了美联储的掌舵人却不知道为什么会发生金融危机~所以在未来真正需要我们高度警惕的是即使你有了大数据也没有办法完全知道系统性的风险和危机例如“黑天鹅”事件。事实上人类历史的场合中黑天鹅事件的层出不穷已经是被验证的定论社会的每一次技术突破其实就是黑天鹅事件。也就是说黑天鹅事件本来就是人类自我创造和努力的结果。牛顿莫名其妙地被苹果砸了头创造引力理论然后极大地改变了社会的发展逻辑使得人类呈现不同的生活方式从而使得过去所有既定的规则都发生了变化而事实上人类社会已经表现出了加速进化的趋势这个趋势还在加速过程之中技术的迭代更新更加迅猛最终使得过去决定未来的可能性越来越小。从秦朝到清朝的上千年时间里事实上人类生活是没有发生太大改变的都是日出而作、日落而息的农耕主导型社会而大工业革命之后的社会以及电气化时代的来临加速了社会进化过程时代周期的缩短已然是个趋势几千年的时代周期立刻压缩为十年为单位的周期甚至更短因此使得人类的生活方式更呈现出差异化和偶然性。过去决定未来是无法反映出时代进步和调整的可能性的。过去所做的推断永远只代表了过去那个阶段为止的最高极限本身是不会自我演化和发展的。很多年前我写人工智能的文章就提出过一个假象的理论模型倒是跟大数据有点类似。因为所有的前提都是建立在当时的极限值上所有的推演变化其实都在过去的科技水平之上所以人工智能永远只能达到生产者那个阶段的智力水平它本身无法改变这个局限而实现自我进化。这必然决定了它要依附在生产制造它的群体的进化之上只有如此它才可能继续进化。这里也可以提下其实从人生历史上看还有一条进化之路其实是通过相互对抗而不断莘莘学子必备的交流网站学习辅助网wwwnet学习辅助网wwwnet进化对抗性的存在其实也是进化的基础。人类的进化就是通过不断消灭别的物种的过程来实现的这就可以得出这样一个结论如果把竞争对手都搞死了其实我们也失去了进化的可能性。三、信号与噪音一个数据分析师写过一本书叫《信号与噪音》其中讲到真正的信号是有用的信息还有很多没用的信号是干扰决策的噪音。“我们总觉得信息量越大能够得到的真理就越多。其实不是的信息增长的速度要远远快于真理增长的速度。”所以不要以为你的数据越多就能离真理越近有时候信息越多噪音越多反而干扰决策。换句话说知识的边际收益是递减的。因此在“过去决定未来”的这个逻辑上需要明确几个方面:一、经济生活加速技术革命随时到来的情况下稳定期限到底能维持多久二、判断主体的前提是主体不知道自己被作为样本三、社会生活中稳定的群体是谁,不稳定的群体是谁,稳定的群体更容易被样本化而呈现可推演性。不稳定的个人意志往往改变社会脑残和精英主导了社会的前进四、人会因为未来而改变过去的可能性到底有多大,在投资领域我引用雪球网友给我的文章做的评论里的一段话做个附文感觉写得很不错。他将统计学运用到投资领域大数据理论还延伸出不少着名的投资理论和投资实践。比如施洛斯的低估值投资方法便是提高投资成功率的真知灼见之一。沃尔特施洛斯认为投资是一件简约的事情长期投资=正确决定(低估值成长性)时间。总而言之学会用概率统计思维和非线性复杂性思维进行思考对投资是有好处的。有的行业更加稳定变化缓慢投资预测时更容易有确定性这也是传统投资大师最喜欢的行业。而有些行业则更加不可预测适用非线性物理学的能量法则而非概率统计的正态分布。《醉汉的脚步随机性如何主宰我们的生活》里提到:“如果电影票房按正态分布那大多数电影赚到的钱都该落在某个平均值附近有三分之二的电影票房将落在这个平均值周围一个标准差的范围内。但在电影业中的电影带来了的票房收入。这类由热点驱动的产业尽管完全无法预测却遵循了一个完全不同的分布其中均值和标准差的概念毫无意义。”这些对于我们的投资有哪些启示呢,投资于变化缓慢或者容易预测的行业也就是更加符合正态分布的行业避开高科技、娱乐、文化等非正态分布的行业。《黑天鹅》一书提出的反脆弱性是另外一种思路也可以借鉴。即使是对于非正态分布的行业基于低估值的大数法则也有用武之地。例如狮门影业就是典型它只专注于小成本的几个细分市场例如恐怖片、禁忌片等每次电影制作成本都很低亏了问题不大但若有几个成为blockbuster它就赚大了。至于航运企业那些活得久的老家伙都很保守只在低迷时期造船也是类似的道理。莘莘学子必备的交流网站学习辅助网wwwnet学习辅助网wwwnet银行业其实不是好行业不具备《黑天鹅》作者所述的反脆弱性。老巴投资的富国银行是唯一的例外它最保守。如果比尔米勒明白这个道理他就不会抄底雷曼了。在比尔米勒看来“护城河”最宽的地方就是世纪年代大萧条“难道我应该在假设中设置一项‘假设有朝一日我们回到奴隶制’么,”比尔米勒如果真正明白了他号称经常研究的混沌理论、非线性动力学、复杂性理论他就应该对金融业的黑天鹅有深刻认识从而远远避开这个行业的公司除非是富国银行这个少有的奇葩。但他贪图便宜抄底雷曼是典型的知行不一。即使有上述两条还是要明白最关键的是运气大势胜于一切。适者生存适应的是环境环境变了胜者也会变化。所以要时刻关注假设和前提的变化关注规则的变化关注边缘地带。因为创新都来自于边缘地带要关注颠覆式创新。那么如何才能发现边缘地带,必须不断学习时刻否定自己学会拥抱变化。《周边视野探测引发公司成败的弱信号》里提到金宝汤公司(CampbellSoup)的前任营销总监梅尔基奥雷说:“我所见过的成功人士所做的最重要的一件事就是他们把每一天都当作全新的一天去体验和学习。我抛开所有以前的想法当作自己一无所知地去体验每一天。让人们失败的真正原因是是他们确信自己已经知晓如何做事每天只是花费时间来验证他们的观点而已。我从来不认为我已经掌握了全部答案。我经常会把人们的怪异想法作为参考比如如果我们使用卡车来运送玉米饼或者水果会怎么样呢,如果你被困在原有的思维模式中你就不会拥有广阔的视野你的视野就仿佛是坐井观天看到的是井口那么大的天地。”亚马逊创始人贝佐斯说:“聪明人会持续修改他们对特定事物的理解重新考量先前已解决过的问题。聪明人也对新观点、新资讯和挑战他们既有思考模式的想法抱持着开放的态度。”贝佐斯鼓励大家拥有暂时而不是永久的想法保持弹性以作改变。他说:“想法错误或做错决定的那些人总是过度执着于只能支持某一特定观点的细节。而懂得思考的人会不断地省思并对其他观点抱持开放的心胸。”《创造性破坏》里指出具备路易斯巴斯德所谓“心理准备”的人才会关注到异常现象的存在。“亚历山大弗莱明不是第一位发现细菌培养器皿受到霉菌孢子污染的人却是第一位注意到附着在那一层胶化物体上面明显的环状绒毛斑点所具有的更深层意义的人”。四、被移动互联重构的社会接下来我们进一步来论证“过去是否能决定未来”这个简单的命题。通常情况下绝大多数人的行为其实都是按照某种规律进行的也就是过去如何做未来也一般会如何做。例如平时早晚会有出行高峰周末CBD的人很少等等都反映了社会人群的行为逻辑是可推演、可预测的只要数据量足够大。但是这里有两个非常重要的假设性前提:一是社会现实的基础未发生大变化另外一个是你所应用的群体必须是样本的主体。先来看前提条件一平时早晚会有出行高峰是因为大多数人都是朝九晚五地上班但是莘莘学子必备的交流网站学习辅助网wwwnet学习辅助网wwwnet如果明天战争来了还会是如此状态么,必然不是战争把原先的社会基础给打破了人的行为逻辑必然也就发生改变了。再按照过去的数据推演就无效。再来看前提条件二更简单你如果用早晚出行高峰去预测我的行为那就一点成功的可能性也没有因为我都是白天睡觉、晚上上班我就属于样本分析群体里的异类属于那部分不呈现样本分析的群体性特征的人。我们从这两个前提出发第一那些打破基础性环境的所谓黑天鹅事件频繁么,可测么,我自己感觉是不可测并且会越来越频繁。从而得出结论未来社会中群体性可预测的事情会越来越少尤其是移动互联网兴起之后。在移动互联网出现之前人类社会骨子里还是个部落族长制社会这种社会的特征是需要绝大多数人形成共同的价值观然后基于此来展开社会分工协作。即使你不认同这种共同的价值观一种被称为法律或者道德的东西也会迫使你按照这种规则做事情。总之一旦形成了主流价值观的趋势你只有接受和不接受的权利。由于这种价值观在一定时期是固定的这就使得社会整体的行为逻辑是可以很大程度上被推演和归纳的。所以我们会发现在国家和民族内都有共同的生活习惯尽管很多生活习惯是被强加的并不代表认同。在过去的社会里你如果是一个生活在群体性特征下的异类你的前途基本上很渺茫会被不断地边缘化处于自生自灭的境地。当然这个还算好的如果你要反对这个社会的主流价值观你的下场一般就是哥白尼之类的了。当然也有极个别的成功案例就是被边缘化和不认同后通过他自己的努力或者是运气不但活下来了还活得挺好。毕竟这样的人真不多。但是互联网出现之后情况有了很大的变化。一个被自己原先所在群体边缘化的人通过互联网往往能找到另外一些和他一样被群体边缘化的人然后一拍即合构建起一个新的群体。所以从这个角度来看互联网其实是极大地促进了社会群体的分化。社会更趋向多元化的分布主流价值观会被打破越来越多的价值观会涌现。这就使得对群体性行为的预测难度加大就算每个群体的行为都可以被预测但所有群体叠加之后整个社会行为的预测难度会很大。互联网时代价值观的对错与否不再是唯一标准。个体对于所谓的价值认定也出现极大分化一个人认为很没价值的东西就有人做出完全不同的判断主流价值观不断被分化。最典型的就是成功学这个主流群体可能认为毫无价值的东西其实受众远远多于批判的人。以前我们的社会讲究什么,讲究规矩例如播音员要字正腔圆写文章要条理清晰逻辑分明。现在发现不是了你普通话越不标准得观众还越喜欢你文章没人看得懂得无数少男少女为之疯狂。这意味着社会旧有的运行秩序会被重构背后所反映的是样本分析、群体分析的难度在加大。任何一个偶发性的东西都会因为这些群体行为的不可测而变得难以捉摸例如有段时间很莫名其妙地流行起来呈现无流行的“贾君鹏你妈妈喊你回家吃饭”“元芳你怎么看,”都目的性无意识的偶然性因素极大增加。你去豆瓣看有个“打死不穿秋裤组”几十万粉丝还有个群“打死也要穿秋裤组”也几十万粉丝就是这个特征。莘莘学子必备的交流网站学习辅助网wwwnet学习辅助网wwwnet由此判断未来的社会形态将呈现出“现代社会的部落制形态”过去那种集中式、大一统的社会可能会进一步走向多元、分散甚至去中心化但由此带来的是整个社会更易陷入小团体有意识整体无意识的社会方向从而使得社会的前进方向更具随机性。于是也更容易理解为什么现在互联网上吵架那么多,互联网的这种特性极大地降低了吵架的成本让傻瓜碰到傻瓜的机会大大增加。以前找个人吵架也挺难的现在容易多了随便放个屁都能臭到人家不吵架也难。并且在没有足够人群支持的情况下吵架其实是需要胆子的而一旦有一群相同观点的人支持你的时候人的胆子会增加吵架因为有了看客而更容易引发。未来社会的另一个特征是不可测事件的频发性。我在前面提过一个观点到底是谁推动了社会的进步,社会由三种人构成:天才、脑残、普通民众。大部分人是普通民众天才和脑残都是极少数人。以前我们接受的教育是人民群众推动历史前进现在我不这么看我感觉社会要么是精英推动要么是脑残推动但是肯定不是普通人推动。为什么这么说呢,因为我们发现人类社会进化的过程其实就是一个不断搞死别的物种的过程而这个过程中基因突变很重要。基因突变是在进化过程中能打败别人和取得绝对优势的至关重要的一个环节。突变之后的个体展现出了更高层次的技能从而给群体创造了一个进化的方向并且带领群体开启这个进化过程。这个突变本身就反映了随机性和不确定性。发生突变的个体从人类社会来说就是精英或者脑残。所以我一直不认为我们走到今天这一步是必然的。在另外一个空间可能并不是人主宰地球。这里面再深入下去我们还会发现很有意思的事情。人类的进化并不是按照最优路径进行的从进化通道来看基因本身也会同时出现多种方向并不是最先进的基因决定了进化方向。进化的方向往往带有极大的偶然性随着外界环境的变化而变化但外界环境又带有极大的不确定性大量的事情是非必然的。最好的例子是恐龙。恐龙的灭亡很大程度是因为小行星的碰撞这个突发的偶然性事件使得统治了地球近亿年的恐龙在很短的时期里全部死去代表了当时最先进生产力的恐龙就此灭亡地球的进化方向转向了。没有任何数据可以推导出这个偶发性的外部因素以及由此所造成的影响。人类进化历程也必然如此前进是必然的如何前进却是偶然的。由于样本分布太少数据不够充分那些推动人类历史进程的天才或脑残现实中恰是无法进行数据推演的。简而言之正确归纳和推演社会普遍群体的某一逻辑其背后需要稳定的社会环境基础而稳定的社会环境基础却往往会被少数脑残或者天才所改变。因此结论是社会群体的推演其实是无法预测的而且移动互联时代更加剧了进程的不确定性。现在这种不确定性日益明确我们反倒认为大数据的基础其实在坍塌。我们继续看大数据存在的一些假设前提条件其中有一个认为互联网世界提供了全数据。《大数据》这本书的莘莘学子必备的交流网站学习辅助网wwwnet学习辅助网wwwnet联合作者牛津大学互联网中心的维克托迈尔舍恩伯格教授曾说他最喜欢的对于大数据集合的定义是“N=所有”这里不再需要采样因为我们有整个人群的数据。这就好比选举监察人不会找几张有代表性的选票来估计选举的结果他们会记点每一张选票。当“N=所有”的时候确实不再有采样偏差的问题因为采样已经包含了所有人。这个说法很有意思因为互联网的海量容纳数据的可能性的确给了全数据一个很好的假设前提但是假设始终只是假设现实却总是现实。这个假设论证大数据意义的同时也提出了一个致命的问题即“N=所有”可实现么,如果N不等于所有是否也意味着大数据其实是不可能实现的任务这就是我在很多地方一直强调的全数据的可实现性。如果无法实现和提供全数据那就意味着大数据可能是失效的在下文互联网人格章节里我提过一个概念如何看待民意的问题。理论上很多人都把微博作为舆论情绪的主要调查样本因为这里的数据第一可得第二可统计但是事实上微博上的舆论情绪代表了真正的民意么,显然不是的。很多时候我说打开微博暗无天日关掉微博风轻云淡。发现世界压根没有微博上说的那么糟糕理由很简单微博的使用群体并不能代表社会的普遍性群体中国十三亿人有十二亿人压根没有使用微博的习惯他们的情绪被忽视了。一个忽略了绝大部分群体的数据能代表最终的舆论倾向么,基础数据的样本偏差直接带来了结果偏差无法覆盖足够多的样本所带来的最终统计结果其准确性必然是极差的。前面我提过大数据的本质必然是统计学的社会应用它没有带来新的真理没有改变统计学的基础原理因此没有必要刻意拔高它的现实意义。过去统计学中碰到的所有问题大数据依然会碰到。现在很多关于大数据的言论其实都带有一点文字游戏的特征已经带有很强的心理暗示和商业营销行为在内。最经典的案例是少女怀孕那个案例曾经非常的有名但是却经不起推敲。美国折扣连锁店Target的传奇式成功(由《纽约时报》的CharlesDuhigg于年报道)以后估计都难以效法。Duhigg解释了Target公司是如何从它的顾客身上搜集到大量的数据并熟练加以分析它对顾客的理解简直到了出神入化的程度。Duhigg讲的最多的故事是这样的:一名男子怒气冲冲地来到明尼苏达州的某一Target连锁店向店长投诉该公司给他十几岁的女儿邮寄婴儿服装和孕妇服装的优惠券。店长大方地向他道了歉。可不久后店长又收到这名男子的电话要求店长再次道歉只是这一次店长告知那名男子那个少女确实怀孕了。在这名男子还没有意识到的时候Target通过分析少女购买无味湿纸巾和补镁药品的记录就猜到了这个事实。做这样的案例分析之前我们从统计学角度出发首先要考虑的问题是这样的案例背后我们所没看到的其他因素最简单的一个因素就是到底有多少没有怀孕的人也收到了类似的优惠券,这个很重要直接关系到统计准确率的问题。事实上这个少女可能仅仅只是个特例因为很多跟她一样的女孩子其实都收到了优惠券因为Target给所有人都寄了只是恰巧碰到了少女怀孕这个案例。两者一比较就会发现大数据的光环没了在看大数据成功案例之前其实我们要更多关注反面案例到底有多少而不是正面案例有多少一千万碰到一个的算法跟精准命中的算法虽然最终都是命中但是商业价值是大打折扣的。莘莘学子必备的交流网站学习辅助网wwwnet学习辅助网wwwnetvia:itcom摘自:江南愤青人人都是昏析师点击文末“阅读原文”查看最新数据资讯“WeMedia”是第一自媒体联盟覆盖万人群『IT互联网数据中心』为其成员。(账户:iIT)学习辅助网wwwnet学习路上必备的交流学习网站莘莘学子必备的交流网站学习辅助网wwwnet

类似资料

该用户的其他资料

康恩贝集团发展战略规划.doc

北京2015年眼科学主治医师专业实践能力试题.doc

客服晋升制度.doc

作文.doc

波特兰花园别墅销售部统一接待规范.doc

职业精品

精彩专题

Thanksgiving Day,感恩有你

1620年,著名的“五月花”号船满载被迫害的清教徒到达美洲,但随即他们遭遇寒冬,在印第安人的帮助下,移民们度过困难,为感谢印第安人的真诚帮助,便诞生了感恩节。

用户评论

0/200
上传我的资料

热门资料排行换一换

  • 评价林则徐论文

  • catia斜齿轮_画法

  • 玉蜻蜓唱腔浅析

  • 2012年浙商年度风云人物投票评选

  • 迟滞比较器-电子设计基础报告

  • 米花糖制作工艺及分析

  • 三十而立,四十而不惑

  • 英语名人名言

  • 飞花令-含江字的诗词

  • 资料评价:

    / 18
    所需积分:0 立即下载

    VIP

    在线
    客服

    免费
    邮箱

    吉林快3—吉林快三服务号

    扫描关注领取更多福利