时代背景: ①云计算、大数据、物联网三者一起促成三次信息浪潮;
注:
表 1 三 次 信 息 化 浪 潮 表1~三次信息化浪潮 表1 三次信息化浪潮
②存储、计算、网络不断地发展给大数据时代的到来提供了技术支持;
注:存储:存储设备容量的不断增加计算:CPU性能不断地增强网络:网络带宽不断提升
③同时数据产生方式的变革也促进了大数据时代;
注:数据产生方式由最初的运营式,如超市购买系统;到后来的用户原创式,如个人发布博客、朋友圈等;到现在的感知式系统都在产生大量的数据,如监控,个人手机使用等
1.大数据的概念?What exactly is big data?
答:简而言之,大数据是更大、更复杂的数据集,尤其是来自新数据源的数据。这些数据集非常庞大,传统的数据处理软件根本无法管理它们。但这些海量数据可用于解决您以前无法解决的业务问题。(oracle公司)
同时还有一个"4V"的普遍说法:
1)Volume:数据量大;
2)Variety:数据种类繁多;
3)Velocity:处理书读快;
4)Value:价值密度低;
2.大数据的影响
2.1.对科学研究的影响:
大数据时代的到来将我们从计算科学带入到数据密集型科学;
2.2.对人们思维方式的影响
1)全样而非抽样;
2)效率而非精确;
3)相关而非因果;
(笔者思考:对于如今的计算运算能力,不再需要以样本去估算总体;
机器学习中对某些特征与标签之间的探索就是在探索相关,而没有追求因果)
金融:社交情绪分析、信贷风险
网购:推荐系统
安全领域:大数据隐私
个人生活:用户画像
城市:智慧城市
等等
大数据的计算的两大层次是数据的存储与管理以及数据处理和分析,两者对应的核心技术分别是分布式存储和分布式处理。
(顾名思义,分布式存储是解决海量数据的存储问题,分布式处理是解决海量数据的处理问题)
1.5 大数据的计算模式有哪些?大数据产品的服务的领域是不同的,主要分为4种模式,
批处理:不满足时效要求(秒级响应),代表MapReduce、Spark;
流计算:针对流数据的实时计算,马上响应,代表S4、Storm;
图计算:处理图结构数据产品,如Pregel;
查询分析计算:交互式查询,在海量数据中查询,代表Hive,Dremel;
云计算:通过网路以服务的方式为用户提供非常廉价的计算机资源,如百度云;
云计算有三种服务方式:IaaS,PaaS,SaaS
云分为三种类型:公有云,私有云,混合云;
云计算的关键技术:
云计算解决了海量数据的分布式存储和分布式处理两大问题;
主要特征为:虚拟化,多租户