首页
运维教程
Linux基础
系统服务
系统架构
数据库
shell脚本
虚拟化
大数据
DevOps
企业案例
运维开发
python
go语言
运维安全
行业资讯
网络基础
系统安全
运维面试
学习路线
学习方法
面试题库
职场解惑
软件
运维软件
办公软件
书籍资源
技术陪跑营
重要信息
首页 运维教程大数据当人们在说大数据的时候到底在说什么?

当人们在说大数据的时候到底在说什么?

前言

今天新开了一个 【大数据】分类,在整个的运维体系中,你稍微努力下,拿到12K-14k还是蛮容易的,但是想要拿到18k就稍微有些困难。 想要冲刺20K,就几乎成了个梦想。

在以往的授课中,的确有人学历,年龄,都不够的情况下拿到了20K, 但这种情况已经与技术 无关了,完全是靠沟通能力和运气。

如果你想在现有的运维体系中突破20K的薪资,在不考虑副业的情况下,只有通过继续深造,比如学学大数据的内容, 不是因为你会了大数据的知识,薪资才提高的,而是因为大数据公司的薪资相对较高。

这就和你作为普通专科只能去小企业一样,你有了211本科就增加了去大公司的机会,相对来说大公司给的薪资高,与你是不是211有一定关系,但并不是因为你有了211本科就一定能去大公司。

大数据的定义

提到大数据,很多人会想起一些国外的电影,比如在《斯诺登》中就有一个识别恐怖分子的桥段,用的就是大数据手段,通过分析公民电话和社交软件的数据,最终定位恐怖分子。

当然我们生活中也有很多地方,比如电商平台,广告投放系统,导航系统,共享单车系统,旅行推荐系统等。

说个题外话,最近发现平时跟人聊天,手机也会根据你的聊天内容来推送你想要的商品。 比如上次在办公室聊到了信用卡,第二天就有银行推荐办卡的短信发过来。

那什么是大数据呢?
维基百科有个定义: 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取,管理和处理的数据集合。

  • 数据量大,不管是采集,存储,计算的数据都很大,以PB,EB ,ZB为单位
  • 类型繁多,比如日志,音频,图片,视频,地理位置
  • 速度极快,时效高。 比如推荐系统
  • 价值密度低,商业价值高,比如数据挖掘
    想想抖音每天有多少视频上传,微博,微信每天有多少人转发小视频,发图片。

传统的数据处理和大数据技术互为补充

在这里插入图片描述

服务器的三大体系

从系统架构来看,目前商用服务器大体可以分为三类:
– SMP :对称多处理器结构
– NUMA: 非一致性存储访问结构
– MPP 海量并行处理结构

1. SMP (Symmetric Multi-processor)

称多处理器结构,是指服务器中多个CPU对称工作,无主次或从属关系。各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,对SMP服务器进行扩展的方式包括增加内存、使用更快的CPU、增加CPU、扩充I/O或者添加磁盘存储

SMP 的CPU利用率最好的情况是2-4个CPU

2. NUMA(Non-Uniform Memory Access)

由于SMP在扩展能力上的限制,人们开始探究如何进行有效地扩展从而构建大型系统的技术,NUMA就是这种努力下的结果之一。利用NUMA技术,可以把几十个CPU(甚至上百个CPU)组合在一个服务器内

在这里插入图片描述

NUMA使用cpu模块,每个cpu模块通常由4个组成,并且有独立的本地内存及IO槽口,使性能更佳。 但缺点是访问远地内存所造成的延迟远远大于本地内存,增加CPU,并不能线性增加系统性能。

3. MPP (Massive Parallel Processing)

MPP 由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统
目前的技术可实现512个节点互联,数千个CPU ,每个节点都可以运行自己的操作系统和数据库。

数据处理系统架构的演进

SMP –SMP+MPP混合 –MPP — hadoop

大数据时代需要关注的几个点:
– 容量: 海量数据不可能单机存储,为确保数据稳定和安全,还需要存多个副本,所以需要分布式存储
– 性能: 数据量大,单机很难完成单独运算,只能使用分而治之的思想,大量的计算节点来分担运算量
– 成本: 使用分布式系统,可以使用通用硬件来解决线性扩展,同时性能接近线性提升。

大数据运维工作职责

  • 集群管理: hadoop,hbase ,spark kafak,redis
  • 故障处理: 商用硬件故障及其他故障
  • 变更处理,配置管理和发布管理
  • 容量管理: 存储空间,运行链接数等
  • 性能调优: 不同的组件,性能的概念不一样,比如kafka注重的是吞吐量,hbase注重实时性可用性。
  • 架构优化: 优化大数据平台架构,支持平台能力和产品的不断迭代

大数据运维需要的能力

  1. 硬件,OS,网络,安全等相关知识
  2. 脚本能力: SHELL ,sql ,python,go
  3. 大数据组件知识: 设计思想,适用范围,底层架构,常用命令,常用配置或者参数,常见问题处理方法
  4. 工具能力: zabbix,ELK,企业自己研发的工具
  5. 解决问题的能力: 搜索能力(谷歌,百度,stackoverflow),java能力(根据代码异常分析问题产生的原因),英语阅读能力

运维的核心能力

  • 重启: 重启有问题的机器或者进程,使其正常工作,但是重启前一定要通知到正在用机器的所有人员,并确定自己知道机器上所有服务以及这些服务的启动方式,如有可能先设置开机自启动
  • 切换 : 主备切换,主主切换,逐点排查
  • 查杀: 杀死有问题的进程或者不正常的连接

这三个方法可以处理90%以上的故障,但大多数时候治标不治本。

大多数公司的大数据系统使用廉价的二手机器,甚至虚拟机,硬件故障是常态,通过告警,日志,维护命令去识别故障,组织硬件更换,比如HADOOP 常见的故障就是硬盘损坏。

一般出现问题,都是集中在资源问题,权限问题,代码问题中的一种。

总结

工作就是娱乐,用娱乐的心态去工作,你将飞速进步。 很多人玩游戏遇到困难从未想过放弃,学习遇到困难就很容易放弃,这是典型的本末倒置。

更多内容关注 极客运维 www.geekyunwei.com

本文链接:http://www.geekyunwei.com/1495.html

网友评论comments

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

暂无评论

Copyright © 2021 极客运维 公众号《极客运维之家》
扫二维码
扫二维码
返回顶部