首页
运维教程
Linux基础
系统服务
系统架构
数据库
shell脚本
虚拟化
大数据
DevOps
企业案例
运维开发
python
go语言
运维安全
行业资讯
网络基础
系统安全
运维面试
学习路线
学习方法
面试题库
职场解惑
软件
运维软件
办公软件
书籍资源
技术陪跑营
重要信息
首页 运维教程大数据大数据运维学习前必须知道的几个常识

大数据运维学习前必须知道的几个常识

前言

学习任何技术或者技能都需要了解与这个技能相关的一些理论,任何技术都需要理论的支撑;同样的任何技术或者技能都需要了解他的历史。

今天我们来看几个与大数据相关的理论

CAP理论

CAP 理论指的是任何一个分布式计算系统都不能同时保证如下三点:

  • Consistency(一致性):所有节点上的数据时刻保持同步。
  • Availability(可用性):每个请求都能接收到一个响应,无论响应成功或失败。
  • Partition tolerance(分区容错性):系统应该能持续提供服务,无论网络中的任何分区失效。
    在这里插入图片描述
    敲黑板:

一个分布式系统不可能同时满足一致性,可用性,和分区容忍性这三个需求,最多同时满足两个。

强一致性: 任何时刻,任何用户都能读取到最近一次更新的数据
单调一致性: 任何时刻,任何用户一旦读到某个数据在某次更新后的值,那么就不会再读到比这个值更旧的值
会话一致性: 任何用户在某次会话中,一旦读到某个数据在某次更新后的值,那么本次会话中就不会再读到比这个值更旧的值。
弱一致性: 用户无法在确定时间内读到最新更新的值

如果我们选择了强一致性,又要满足分区容错性,就势必会牺牲一部分可用性。

注意:
– CAP理论只适用于分布式系统

CAP理论的典型分布式系统

选择CP: HBASE
选择 AP: zookeeper,HDFS
选择CA: elasticsearch

大数据技术栈

  1. 数据采集和传输层: flume. logstash, sqoop,kafka,pulsar,HUE
  2. 数据存储层: HBase,Kudu, HDFS,
  3. 数据分析层: Spark,flink,Storm, MapReduce,HIVE,Tezpig,mahout,phoenix
  4. OLAP引擎: Druid , Kylin,lmpala, presto
  5. 资源管理层: yarn,kubernetes, mesos
  6. 工作调度器: Oozie , Azkaban
  7. 监测管理: openTSDB ,Ambari,ganglia
  8. 其他: zookeeper,chubby
  9. 文档存储: mongoDB, CouchDB

大数据:注重海量数据存储与处理,基本处于PaaS ,平台即服务
云计算:侧重于硬件资源虚拟化,基本处于LaaS ,基础设施即服务

不过现在的阿里云,亚马逊云等公有云,以及不单单是卖虚拟化的计算资源了,也会涉及到大数据,图像识别,数据库,云安全等,所以现在的云计算已经涵盖了laaS,PaaS,SaaS等方方面面。

除了按照这种技术栈来区分之外,有时候还会按照数据的实时处理程度分为: 批量计算和实时在线技术。
批量计算就是我们常说的离线计算。一次性处理大量数据,吞吐量大,但延时较高。适合数据ETL等场景。

大数据的适用场景

最近跟一家公司对接,他们做的就是大数据的河海农业数据分析。比如展示某一个地区的2010-2020年,10年的降水量。

最近炒得比较火的是交通大数据,实时采集交通信号灯,二氧化碳传感器,汽车位置和速度传感器,以及来自网上的社交媒体的数据,来进行分析。 帮助乘客重新规划路线,节省时间。

金融行业的智慧金融,可以分析客户的数据,来给用户精准提供贷款或者推荐商品。

人工智能,最火的例子就是google的AlphaGo, 人工智能可以进行自主学习,不断完善。 当然除了下棋,还有人脸识别,语音识别,机器翻译,无人驾驶,智能机器人等领域都有很大的威力。

大数据小故事

某比萨店的电话铃响了,客服人员拿起电话。

客服:XXX比萨店。您好,请问有什么需要我为您服务 ?

顾客:你好,我想要一份披萨

客服:先生,烦请先把您的会员卡号告诉我。

顾客:16846146***。

客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?

顾客:你为什么知道我所有的电话号码?

客服:陈先生,因为我们联机到CRM系统。

顾客:我想要一个海鲜比萨……

客服:陈先生,海鲜比萨不适合您。

顾客:为什么?

客服:根据您的医疗记录,你的血压和胆固醇都偏高。

顾客:那你们有什么可以推荐的?

客服:您可以试试我们的低脂健康比萨。

顾客:你怎么知道我会喜欢吃这种的?

客服:您上星期一在中央图书馆借了一本《低脂健康食谱》。

顾客:好。那我要一个家庭特大号比萨,要付多少钱?

客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。

顾客:那可以刷卡吗?

客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。

顾客:那我先去附近的提款机提款。

客服:陈先生,根据您的记录,您已经超过今日提款限额。

顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?

客服:大约30分钟。如果您不想等,可以自己骑车来。

顾客:为什么?

客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。

顾客当即晕倒。。

总结

本节主要了解CAP理论和大数据的应用场景,让自己对大数据有个初始的概念。后面我们会按照步骤进行依次学习。

本文链接:http://www.geekyunwei.com/1493.html

网友评论comments

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

暂无评论

Copyright © 2021 极客运维 公众号《极客运维之家》
扫二维码
扫二维码
返回顶部