Linux培训

关于Linux的匿名管道你了解多少？

发布：Linux培训
来源：职场技巧分享
时间：2019-06-24 17:47

今天小编要跟大家分享的文章是关于关于Linux的匿名管道你了解多少?相信很多在Linux平台工作的童鞋,都很熟悉管道符'|',通过它,我们能够很灵活的将几种不同的命令协同起来完成一件任务.就好像下面的命令:

echo 123 | awk '{print $0+123}' # 输出246

不过这次咱们不来说这些用法,而是来探讨一些更加有意思的,那就是管道两边的数据流"实时性" 和管道使用的小提示.

其实我们在利用管道的时候,可能会不经意的去想,我前一个命令的输出,是全部处理完再通过管道传给第二个命令,还是一边处理一边输出呢?可能在大家是试验中或者工作经验中,应该是左边的命令全部处理完再一次性交给右边的命令进行处理,不光是大家,我在最初接触管道时,也曾有这么一个误会,因为我们通过现象看到的就是这样。

关于Linux的匿名管道你了解多少？

但其实只要有简单了解过管道这工具,应该都不难得出解释:

管道是两边是同时进行,也就是说,左边的命令输出到管道,管道的右边将马上进行处理.

一、管道的定义

管道是由内核管理的一个缓冲区，相当于我们放入内存中的一个纸条。管道的一端连接一个进程的输出。这个进程会向管道中放入信息。管道的另一端连接一个进程的输入，这个进程取出被放入管道的信息。一个缓冲区不需要很大，它被设计成为环形的数据结构，以便管道可以被循环利用。当管道中没有信息的话，从管道中读取的进程会等待，直到另一端的进程放入信息。当管道被放满信息的时候，尝试放入信息的进程会堵塞，直到另一端的进程取出信息。当两个进程都终结的时候，管道也自动消失。

二、管道工作流程图

关于Linux的匿名管道你了解多少？

通过上面的解释可以看到,假设COMMAND1 | COMMAND2,那么COMMAND1的标准输出,将会被绑定到管道的写端,而COMMAND2的标准输入将会绑定到管道的读端, 所以当COMMAND1一有输出,将会马上通过管道传给COMMAND2,我们先来做个实验验证下:

# 1.py

import time

import sys

while 1:

print '1111'

time.sleep(3)

print '2222'

time.sleep(3)

[root@iZ23pynfq19Z ~]# python 1 | cat

在上面的命令,我们可以猜测下输出结果:究竟是睡眠6秒之后,输出"1111222",还是输出"1111"睡眠3秒,再输出"2222",然后再睡眠3秒,再输出"1111"呢?答案就是:都不是! what!这不可能,大家可以尝试下,我们会看到终端没反应了, 为什么呢?这就要涉及到文件IO的缓冲方式了,关于文件IO,可以参考我的另一篇文章: 浅谈文件描述符1和2,在最下面的地方提到文件IO的三种缓冲方式:

· 全缓冲: 直到缓冲区被填满，才调用系统I/O函数, (一般是针对文件)

· 行缓冲:遇到换行符就输出(标准输出)

· 无缓冲: 没有缓冲区，数据会立即读入或者输出到外存文件和设备上(标准错误

因为python是默认采用带缓冲的fputs(参考py27源码: fileobject.c: PyFile_WriteString函数), 又因为标准输出被改写到管道,所以将会采取全缓冲的方式(shell命令具体要看实现,因为有些是用不带缓冲write实现,如果不带缓冲区,会直接写入管道),所以将会采取全缓冲的方式,也就是说,直到缓冲区被填满,或者手动显示调用flush刷入,才能看到输出.那我们可以将代码改写成下面两种方式吧

# 方式1: 填满缓冲区, 我这边大小是4096字节, 你们也可以试下这个值, 估计都一样

import time

import sys

while 1:

print '1111' * 4096

time.sleep(3)

print '2222' * 4096

time.sleep(3)

# 方式2: 手动刷入写队列

import time

import sys

while 1:

print '1111'

sys.stdout.flush() // 因为是标准输出, 所以直接通过sys的接口去flush

time.sleep(3)

print '2222'

sys.stdout.flush()

time.sleep(3)

输出结果:

# 第一种方式:

[root@iZ23pynfq19Z ~]# python 1 | cat

1111.....(超多1, 刷屏了..)

睡眠3秒..

2222.....(超多2, 刷屏了..)

# 第二种方式:

[root@iZ23pynfq19Z ~]# python 1 | cat

1111

睡眠3秒..

2222

睡眠3秒..

1111

....

在这里我们已经能够得出结果,如果像我们以前所想的那样,要等到COMMAND1全部执行完才一次性输出给COMMAND2,那么结果应该是无限堵塞..因为我的程序一直没有执行完..这样应该是不符合老前辈们设计初衷的,因为这样可能会导致管道越来越大..然而管道也是有大小的~具体可以去看posix标准,所以我们得出结论是:只要COMMAND1的输出写入管道的写端(不管是缓冲区满还是手动flush), COMMAND2都将立刻得到数据并且马上处理.

那么管道两边的数据流"实时性" 讨论到就先暂告一段落,接下来将在这个基础上继续讨论: 管道使用的小提示.

在开始讨论前,我想先引入一个专业术语,也是我们偶尔会遇到的,那就是: SIGPIPE

或者是一个更加具体的描述: broken pipe (管道破裂)

上面的专业术语都是跟管道读写规则息息相关的,那咱们来看下管道的读写规则吧:

· 当没有数据可读时

§ O_NONBLOCK (未设置)：read调用阻塞，即进程暂停执行，一直等到有数据来到为止。

§ O_NONBLOCK (设置)：read调用返回-1，errno值为EAGAIN。

· 当管道满的时候

§ O_NONBLOCK (未设置)：write调用阻塞，直到有进程读走数据

§ O_NONBLOCK (设置)：调用返回-1，errno值为EAGAIN

· 如果所有管道写端对应的文件描述符被关闭，则read返回0

· 如果所有管道读端对应的文件描述符被关闭，则write操作会产生信号SIGPIPE

· 当要写入的数据量不大于PIPE_BUF时，linux将保证写入的原子性。

· 当要写入的数据量大于PIPE_BUF时，linux将不再保证写入的原子性。

在上面我们可以看到,如果我们收到SIGPIPE信号,那么一般情况就是读端被关闭,但是写端却依旧尝试写入

咱们来重现下 SIGPIPE

#!/usr/bin/python

import time

import sys

while 1:

time.sleep(10) # 手速不够快的童鞋可以将睡眠时间设置长点

print '1111'

sys.stdout.flush()

这次执行命令需要考验手速了,因为我们要赶在py醒过来之前,将读端进程杀掉

python 1 | cat

------------------------

# 另一个终端

[root@iZ23pynfq19Z ~]# ps -fe | grep -P 'cat|python'

root 10775 4074 0 00:05 pts/2 00:00:00 python 1

root 10776 4074 0 00:05 pts/2 00:00:00 cat # 读端进程

root 10833 32581 0 00:06 pts/0 00:00:00 grep -P cat|python

[root@iZ23pynfq19Z ~]# kill 10776

输出结果

[root@iZ23pynfq19Z ~]# python 1 | cat

Traceback (most recent call last):

File "1", line 6, in <module>

sys.stdout.flush()

IOError: [Errno 32] Broken pipe

Terminated

从上图我们可以验证两个点:

· 当我们杀掉读端时,写端会收到SIGPIPE而默认退出,管道结束

· 当我们杀掉读端时,写端的程序并不会马上收到SIGPIPE,相反的,只有真正写入管道写端时才会触发这个错误

如果写入一个读端已经关闭的管道,将会收到一个 SIGPIPE,那读一个写端已经关闭的管道又会这样呢?

import time

import sys

# 这次我们不需要死循环, 因为我们想要写端快点关闭退出

time.sleep(5)

print '1111'

sys.stdout.flush()

# 因为我们想要读端等到足够长的时间, 让写端关闭, 所以我们需要利用awk先睡眠10秒

[root@iZ23pynfq19Z ~]# python 1.py | awk '{system("sleep 10");print 123}'

------------------------

[root@iZ23pynfq19Z ~]# ps -fe | grep -P 'awk|python'

root 11717 4074 0 00:20 pts/2 00:00:00 python 1.py

root 11718 4074 0 00:20 pts/2 00:00:00 awk {system("sleep 10");print 123}

root 11721 32581 0 00:20 pts/0 00:00:00 grep -P awk|python

# 5秒过后

[root@iZ23pynfq19Z ~]# ps -fe | grep -P 'awk|python'

root 11685 4074 0 00:20 pts/2 00:00:00 awk {system("sleep 10");print 123}

root 11698 32581 0 00:20 pts/0 00:00:00 grep -P awk|python

# 10秒过后

[root@iZ23pynfq19Z ~]# python 1 | awk '{system("sleep 10");print 123}'

123

在上面也已经证明了上文提到的读写规则:如果所有管道写端对应的文件描述符被关闭,将产生EOF结束标志，read返回0,程序退出。

总结

通过上面的理论和实验,我们知道在使用管道时,两边命令的数据传输过程,以及对管道读写规则有了初步的认识,希望我们以后在工作时,再接触管道时,能够更加有把握的去利用这一强大的工具。

以上就是小编今天为大家分享的关于Linux的匿名管道你了解多少?的文章，希望本篇文章能够对你了解Linux匿名管道有所帮助。想要了解更多Linux相关知识记得关注达内 Linux培训官网。最后祝愿小伙伴们工作顺利!

作者：Lin_R

链接：#/LinBigR/blog/857974

【免责声明：本文图片及文字信息均由小编转载自网络，旨在分享提供阅读，版权归原作者所有，如有侵权请联系我们进行删除。】

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可全国推荐就业！

上一篇：Linux运维该知道的Linux Shell通配符、元字符、转义符使用攻略!

下一篇：Linux运维人员应该知道的免费Linux下载工具

Linux相关推荐阅读

25岁学习云计算晚吗

linux运维工程师培训机构哪家好

学云计算出来能干嘛

云计算技术是学什么的

达内教育云计算培训正规的吗

达内教育云计算就业可靠吗

达内教育Linux培训是正规的吗

达内教育云计算培训就业可靠吗

2025年云计算运维工程师在哪学习比较好

大数据和云计算专业好找工作吗

开班时间

Java开发 12月30日立即报名
云计算 12月30日立即报名
网络安全 12月30日立即报名
Python 12月30日立即报名
数据分析 12月30日立即报名
C++ 12月30日立即报名
物联网 12月30日立即报名
Web前端 12月30日立即报名
软件测试 12月30日立即报名
AI大模型 12月30日立即报名
鸿蒙 12月30日立即报名
智能办公 12月30日立即报名
商业视效 12月30日立即报名
AGI商业变现 12月30日立即报名
UI设计 12月30日立即报名
新媒体电商 12月30日立即报名

关于达内

达内简介联系我们隐私声明法律公告业务合作

其他服务

培训证书查询投诉与建议

投诉邮箱

tousu@tedu.cn

客服电话

400-111-8989

选择城市和中心

北京

达内北京天坛中心

黑龙江省

达内大庆中心

吉林省

达内长春中心

辽宁省

内蒙古

达内呼和浩特中心

天津

河北省

达内河北中心

山西省

陕西省

达内西安省体中心

山东省

河南省

江苏省

安徽省

上海

达内上海长寿路中心

湖北省

达内武汉光谷中心

四川省

达内成都钻石中心

重庆

达内重庆中心

湖南省

达内长沙中心

江西省

达内南昌人民公园中心

浙江省

贵州省

达内贵阳中心

福建省

云南省

达内昆明中心

广西省

达内南宁中心

广东省

达内广州云计算中心

海南省

达内海南中心

台湾

达内台北中心

Linux培训

关于Linux的匿名管道你了解多少？

预约申请免费试听课

云计算就业前景如何

云计算就业培训靠谱吗

学云计算的好处

杭州云计算培训班怎么选

Linux相关推荐阅读

相关栏目

开班时间