Linux培训

Linux运维新手需要知道哪些知识?

发布：Linux培训
来源：职场技巧分享
时间：2020-12-10 16:16

今天小编要跟大家分享的文章是关于Linux运维新手需要知道哪些知识?正在从事Linux运维工作的新手来和小编一起看一看吧，希望本篇文章能够对大家有所帮助。

Linux运维新手需要知道哪些知识

一、什么是大型网站运维?

首先明确一下，全文所讲的”运维“是指大型网站运维，与其它运维的区别还是蛮大的。然后我们再对大型网站与小型网站进行范围定义，此定义主要从运维复杂性角度考虑，如网站规范、知名度、服务器量级、pv 量等考虑，其它因素不是重点。

因此，我们先定义服务器规模大于 1000 台，pv 每天至少上亿(至少国内排名前 10)，如sina、baidu、 QQ 等等;其它小型网站可能没有真正意义上的运维工程师，这与网站规范不够和成本因素有关，更多的是集合网络、系统、开发工作于一身的“复合性人才”。

所以，非常重要一定需要明白：运维对其它关联工种必须非常了解熟悉：网络、系统、系统开发、存储、安全、DB 等;我在这里所讲的运维工程师就是指专职运维工程师。

我们再来说说一般产品的“出生”流程：

1、首先公司管理层给出指导思想，PM 定位市场需求(或copy 成熟应用)进行调研、分析、最终给出详细设计。

2、架构师根据产品设计的需求，如 pv 大小预估、服务器规模、应用架构等因素完成网络规划,架构设计等(基本上对网络变动不大，除非大项目)

3、开发工程师将设计 code 实现出来、测试工程师对应用进行测试。

4、好，到运维工程师出马了。首先明确一点不是说前三步就与运维工作无关了，恰恰相反，前三步与运维关系很大。

应用的前期架构设计、软/硬件资源评估申请采购、应用设计性能隐患及评估、IDC、服务性能安全调优、服务器系统级优化(与特定应用有关)等都需运维全程参与，并主导整个应用上线项目;运维工程师负责产品服务器上架准备工作，服务器系统安装、网络、IP、通用工具集安装。

运维工程师还需要对上线的应用系统架构是否合理、是否具备可扩展性、及安全隐患等因素负责，并负责最后将产品(程序)、网络、系统三者进行拼接并最优化的组合在一起，最终完成产品上线提供用户使用，并周而复使：需求->开发(升级)->测试-> 上线

应用上线后，运维工作才刚开始，具体工作可能包括：升级版本上线工作、服务监控、应用状态统计、日常服务状态巡检、突发故障处理、服务日常变更调整、集群管理、服务性能评估优化、数据库管理优化、随着应用PV 增减进行应用架构的伸缩、安全、运维开发工作：

a、尽量将日常机械性手工工作通过工具实现(如服务监控、应用状态统计、服务上线等等)，提高效率。

b、解决现实中服务存在的问题，如高可靠性、可扩展性问题等。

c、大规模集群管理工具的开发，如1 万台机器如何在1 分钟内完成密码修改、或运行指定任务?2000台服务器如何快速安装操作系统?各分布式IDC、存储集群中数PT级的数据如何快速的存储、共享、分析?等一系列挑战都需运维工程师的努力。

在此说明一下其它配合工种情况，在整个项目中，前端应用对于网络/系统工程师来说是黑匣子，同时开发工程师职责只是负责完成应用的功能性开发，并对应用本身性能、安全性等应用本身负责，它不负责或关心网络/系统架构方面事宜。

当然软/硬件采购人员等事业部其它同事也不会关心这些问题，各司其职，但项目的核心是运维工程师。所有其它部门的桥梁。

二、运维工作师需要什么样的技能?

1、开发能力，这点非常重要，因为运维工具都需要自已开发，开发语言：perl、python、php(其中之一)、shell(awk,sed,expect….

等)，需要有过实际项目开发经验，否则工作会非常痛苦。

2、通用应用方面需要了解：操作系统(目前国内主要是linux、bsd)、webserver相关(nginx,apahe,php,lighttpd,java)、数据库(mysql,oralce);系统优化，高可靠性;这些只是加分项，不需必备，可以边工作边慢慢学，这些东西都不难。当然在运维中，有些是有分工偏重点不一样。

3、系统、网络、安全，存储，CDN，DB等需要相当了解，知道其相关原理。

三、什么是合格的运维工程师?

1、保证服务达到要求的线上标准，如99.9%;保证线上稳定，这是运维工程师的基本责职所在。

2、不断的提升应用的可靠性与健壮性、性能优化、安全提升;这方面非常考验主动性和创新思维。

3、网站各层面监控、统计的覆盖度，软件、硬件、运行状态，能监控的都需要监控统计，避免监控死角、并能实时了解应用的运转情况。

4、通过创新思维解决运维效率问题;目前各公司大部份运维主要工作还是依赖人工操作干预，需要尽可能的解放双手。

5、运维知识的积累与沉淀、文档的完备性，运维是一个经验性非常强的岗位，好的经验与陷阱都需积累下来，避免重复性范错。

6、计划性和执行力;工作有计划，计划后想法设法达到目标，不找借口。

7、自动化运维;能对日常机械化工作进行提炼、设计并开发成工具、系统，能让系统自动完成的尽量依靠系统;让大家更多的时间用于思考、创新思维、做自已喜欢的事情。

以上只是技术上的一些层面，当然个人意识也是很重要的。

四、运维关键技术点解剖

大规模集群管理问题

集群不是泛指各功能服务器的总合，而是指为了达到某一目的或功能的服务器、硬盘资源的整合(机器数大于两台)，对于应用来说它就是一个整体，目前常规集群可分为：高可用性集群(HA)，负载均衡集群(如lvs)，分布式储、计算存储集群(DFS，如 googlegfs ,yahoohadoop)，特定应用集群(某一特定功能服务器组合、如db、cache层等)。目前互联网行业主要基于这四种类型。

对于前两种类似，如果业务简单、应用上post操作比较少，可以简单的采用四层交换机解决，达到服务高可用/负责均衡的作用，对于资源紧张的公司也有一些开源解决办法如lvs+ha,非常灵活;

对于后两种，那就考验公司技术实力及应用特点了，第三种DFS主要应用于海量数据应用上，如邮件、搜索等应用，特别是搜索要求就更高了，除了简单海量存储，还包括数据挖掘、用户行为分析。

如何科学的管理集群，有以下关键几点：

1、监控

主要包括故障监控和性能、流量、负载等状态监控，这些监控关系到集群的健康运行，及潜在问题的及时发现与干预;

a、服务故障、状态监控：主要是对服务器自身、上层应用、关联服务数据交互监控;例如针对前端webserver，我们就可以有很多种类型的监控，包括应用端口状态监控，便于及时发现服务器或应用本身是否crash、通过icmp包探测服务器健康状态，更上层可能还包括应用各频道业务的监控，常用方法是采用面业特征码进行判断，或对重点页面进行签名，以网站被黑篡改(报警、并自动恢复被篡改数据)等等。

b、其它就是集群状态类的监控或统计，为我们合理管理调优集群提供数据参考、包括服务瓶颈、性能问题、异常流量、攻击等问题。

2、故障管理

a、硬件故障问题;对于成百上千或上万机器的N多集群，服务器死机、硬件故障概率是非常大的，几乎每时每刻都有服务硬件问题，死机、硬盘损坏、电源、内存、交换机。

针对这种情况，我们在设计网站架构时需要充分考虑到这些问题，并将其视为常态;更多的依靠应用的冗余机制来规避这种风险，但给系统工程师足够宽裕的处理时间

b、应用故障问题;可能是某一bug被触发、或某一性能阀值被超越、攻击等情况不一而定，但重要的一点，是要有对这些问题的预防性措施，这需要运维工程师平时做足功夫，包括应急响应速度、故障处理的科学性、备用方案的有效等。

3、自动化

简而言之，就是将我们日常手动进行的一些工作通过工具，系统自动来完成，解放我们的双手及枯燥的重复性劳动。

自动完成以往每天人工干预的工作，使其自动完成、汇报结果，并具备一定的专家系统能力，能做一些简单的是/非判断、优化选择等。

应该说，自动化运维是运维工程师职业化的一个追求，利已利公，虽然这是一个异常艰巨的任务：不断变更的业务、不规范化的应用设计、开发模式、网络架构变更、IDC变更、规范变动等因素，都可能会对现有自动化系统产生影响。

所以需要模块化、接口化、变因参数化等。因此自动化相关工作，是运维工程师的核心重点工作之一，也是价值的体现。

以上就是小编今天为大家分享的关于Linux运维新手需要知道哪些知识的文章，希望本篇文章能够对正在从事Linux运维工作的小伙伴们有所帮助，想要了解更多Linux相关知识记得关注达内 Linux培训官网，最后祝愿小伙伴们工作顺利，成为一名优秀的Linux运维工程师。

【免责声明：本文图片及文字信息均由小编转载自网络，旨在分享提供阅读，版权归原作者所有，如有侵权请联系我们进行删除。】