手机浏览器扫描二维码访问
其实不然,数据要比数字大得多。
互联网上任何内容,比如文字、图片和视频都是数据。
医院里包括医学影像在内的所有档案也是数据;
公司和工厂里的各种设计图纸也是数据;
出土文物上的文字、图示,甚至它们的尺寸、材料,也都是数据。
甚至我们人类的活动本身,也可以看做是一种特殊的数据。
全世界各个领域的数据不断向外扩展,渐渐形成了另一个特点,那就是很多数据开始出现交叉。
各个维度的数据从点和线渐渐练成了网。
或者说,数据之间的关联性极大的增强,在这样的背景下,就出现了大数据。”
顿了一下,徐良调整了一下PPT。
“那么数据和大数据怎么运用呢?
大致可以分为以下流程。
获取数据→分析数据→建立模型→预测未知。
我们举一个简单的例子。
现在我们想要了解一家电影院的观众年龄分布,以便做市场推广。
假定我们把观众群分为15岁以下,16~25岁,26~40岁和41岁及以上四个人群。
要了解每个人群的比例,一个简单的办法就是到电影院门口去问一问那些看电影的人的年龄。
比如我们通过调查了解到大约有343人在15岁以下,459人在16~25岁,386人在26~40岁,490人在41岁及以上。
根据这个数据,我们大致可以得出以下结论:
15岁及以下的观众占20%左右,16~25岁的观众超过四分之一,但不到三成;
26~40岁的观众略少于四分之一,41岁及以上的观众最多,大约占到三成。
但是,如果我们只在周末的晚上抽样调查10个人,我们就会发现。
有三个15岁及以下的观众,五个16~25岁的观众,2个26~40岁的观众。
我们显然不能说25岁以下的观众占了八成,而41岁及以上的中年人从来不来电影院,这样的结论。
但我想各位也都承认一点,在统计样本不充分的情况下,得到的结果跟实际结果存在很大的偏差。
所以,越想要得到准确的统计结果,需要的统计数据量就越大。
在上面的例子中,统计的样本总数是1678人。
但是如果我们一定要说‘41岁及以上的观众就是29.2%’,或者‘15岁及以下观众一定超过20%’。
这样非常肯定的的话,大家就可能会挑战这个结论。
因为,统计是有随机性的,也是有误差的。
仅仅上千人的数据得不到这样准确的结论。
统计除了要求数据量必须充分之外,还要求采样的数据必须有代表性。
有些时候不是数据量足够大,同阶级过就一定准确。
一个很简单的例子,一个爱情影片和一个战争影片,它的受众并不相同。
所以如果我们只采集爱情影片上映当月的观影人群,就不具有普遍的代表性。
那么怎么避免这种情况,获得准确的结论呢?
19世纪的俄国数学家切比雪夫对这个问题给出了他的结论,即切比雪夫不等式。
...
池棠穿书了,穿成娃综文里的恶毒女配。 女主傻白甜人设,炫老公炫儿子火爆全网,她恶毒人设,打骂儿子引来无数网暴。 她在娃综里奔赴火葬场,为女主爆红添砖加瓦? 池棠姐就是大女主剧本,自己的...
妖魔东京我的手办变成诡异是躺赢一直爽精心创作的科幻,旧时光文学实时更新妖魔东京我的手办变成诡异最新章节并且提供无弹窗阅读,书友所发表的妖魔东京我的手办变成诡异评论,并不代表旧时光文学赞同或者支持妖魔东京我的手办变成诡异读者的观点。...
主角重生于1986年的东北农村,这个年代不禁猎不禁枪,山中野兽众多,野生人参肆意生长,河里珍贵河鲜无数。 主角过起了偶尔打打猎,挖挖大人参,钓钓大河鲜的美好日子,他只要求自己的家人吃好穿暖,幸福简单就可以了。各位书友要是觉得狩猎在1986还不错的话请不要忘记向您QQ群和微博里的朋友推荐哦!...
持幽冥魔剑,承天道神力,修轮回之光,登王者之路,最强魔尊降世,谁与争锋!...
...