下面會涉及到一些底層的函數(shù)庫以及系統(tǒng)調(diào)用,不想看過程的直接跳到最后看結(jié)論好了。
一段代碼,通過 tail -f 看打的 log,發(fā)現(xiàn)很長時間都沒有輸出,然后突然一下子輸出了好多條,猜想可能跟 buffer 之類的有關(guān)系。這個問題其實很早就遇到過,最初以為是什么 bug,直到看到自己寫的代碼也出現(xiàn)類似的現(xiàn)象之后才決定看看是怎么回事。
先來看看下面這一小段代碼。
$ cat demo1.py
import time, sys
for i in range(50):
sys.stdout.write("test")
time.sleep(0.2)
$ python demo1.py
testtesttesttesttesttes……ttesttesttesttesttesttesttesttesttesttesttesttesttesttesttesttesttest$
可以看到,這堆 test 字符串是等了若干秒之后一下子輸出的。
如果我們把 sys.stdout.write("test") 改為 sys.stdout.write("testn") 即加上換行符號,或者使用 print 函數(shù)來輸出,發(fā)現(xiàn)現(xiàn)象不一樣了:
$ cat demo2.py
import time, sys
for i in range(50):
sys.stdout.write("testn")
time.sleep(0.2)
$ python demo2.py
test
test
test
test
test
…
$ cat demo3.py
import time, sys
for i in range(50):
print "test"
time.sleep(0.2)
發(fā)現(xiàn)不管是 demo2 還是 demo3,屏幕上均以平均 0.2s 的頻率輸出 test 字符。
把 demo3 的 print "test" 換成 print "test",(結(jié)尾加一個半角逗號)再看看是什么現(xiàn)象。
再用 python3 的 print("test") 試試,嘗試加上 end 參數(shù)比如,print("test", end="n"), print("test", end="t"),print("test", end="") 再試試有什么不同的結(jié)果。
再來看一個 demo:
$ cat demo4.py
import time, sys
for i in range(50):
sys.stdout.write("test")
sys.stdout.flush()
time.sleep(0.2)
加上 sys.stdout.flush() 看看跟上面的比有什么不同的效果。
最后一個,代碼是 demo3.py,但是運行的方式不同:
$ python demo3.py > output
注意實時觀察 output 文件的大小,發(fā)現(xiàn)并沒有隨時間而增大,而是 demo3.py 運行結(jié)束了之后才變化的。
上面就是之前遇到的一些現(xiàn)象,這里面涉及到其實是 UNIX 下面的 STDIO buffer 問題。下面會深入現(xiàn)象揭開本質(zhì),沒時間的看最后的結(jié)論即可。
IOS C 標(biāo)準(zhǔn)定義了一套叫標(biāo)準(zhǔn) I/O 的庫,也叫 buffered I/O,這套庫被包括 UNIX 在內(nèi)的系統(tǒng)所實現(xiàn),包括我們?nèi)粘J褂玫谋姸喟l(fā)行版本。而大家熟知的 open, read, write, lseek, close 這些 I/O 系統(tǒng)調(diào)用函數(shù)則是 POSIX 定義的,他們通常稱為 unbuffered I/O,就是為了跟標(biāo)準(zhǔn) I/O 庫作出區(qū)分。這些底層的系統(tǒng)調(diào)用函數(shù),大多都是圍繞 fd 展開,而標(biāo)準(zhǔn) I/O 則是圍繞著 STREAM 展開,標(biāo)準(zhǔn) I/O 庫其實可以理解為對系統(tǒng) I/O 函數(shù)的封裝,因為標(biāo)準(zhǔn) I/O 庫最終還是要調(diào)用對應(yīng)的這些系統(tǒng) I/O 函數(shù),可以通過 fileno(FILE *FP) 獲取到 STREAM 對應(yīng)的 fd。
為什么說標(biāo)準(zhǔn) I/O 庫是 buffered I/O 了,因為他會自動的幫你處理 buffer 分配以及 I/O chunks 的選擇,這樣就不再需要為選擇 block size 而操心了,這個在使用系統(tǒng) I/O 調(diào)用的時候無法避免,比如 read/write 都需要考慮 buffer 地址以及讀取寫入的 buffer size,通常你需要在調(diào)用 read 時候定義一個 buffer size 的宏:
# define BUFFSIZE 4096
buffered I/O 的主要目的就是為了降低 read/write 這類的系統(tǒng)調(diào)用以及自動的為程序分配 buffer。但是他分為了下面三種類似的 buffering:
1. full buffer,當(dāng)標(biāo)準(zhǔn) I/O buffer 滿了時候發(fā)生一次 flush 操作,可以調(diào)用 fflush() 來完成,他將 buffer 里面的數(shù)據(jù) flush 到內(nèi)核緩沖區(qū)中。
2. line buffer,遇到換行符(一般就是 "n") 也就是寫完一行的時候發(fā)生一次 flush,
3. unbuffered,有多少讀寫多少。
Linux 一般是這樣實現(xiàn)的:
1. stderr 是 unbuffered,這會讓錯誤信息及時的出現(xiàn)。
2. stdin/stdout stream 如果不跟終端相關(guān)聯(lián),比如 pipe,redirect,fopen 打開的文件,則是 full buffer;如果跟終端相關(guān)聯(lián),則是 line buffer
上面這兩條規(guī)則其實就是速度跟系統(tǒng)之間的一個 tradoff,很好理解。
可以通過 setbuf/setvbuf 來修改 buffer 的模式,具體的使用方式 man 2,需要注意的是,這兩個函數(shù)要在 stream 打開之后其余 I/O 操作之前調(diào)用,讓然,如果你需要做一些特殊的事情,完全可以在昨晚某些 I/O 操作之后再調(diào)用,比如下面要舉的第二個 demo。setvbuf 比 setbuf 有更大的優(yōu)勢,比如可以修改 buffer 的大小等等。
關(guān)于 STREM 對應(yīng)的 buffer 類型,其大小可以通過這段代碼來做一個驗證,比如我的機器的幾個 buffer size 都是 8KB。
而 int fflush(FILE *fp) 這個函數(shù)就是解決我們上面問題的核心了,該函數(shù)會將當(dāng)前 STREAM 中的數(shù)據(jù) flush 到內(nèi)核緩沖區(qū),如果 fp 是 NULL,則 stdout 流被 flush 一次。準(zhǔn)確的說,fflush 只能用于輸出流,而不能用于輸入流,具體的原因見這里。
這里的一個 demo 很好的解釋了 fflush/setvbuf 做的事情,嘗試把 setvbuf 中的 size_t size 參數(shù)從原先的 1024 調(diào)小到 20 試試看。
很明顯,通過這種 buffer 的方式,把一部分的寫先 buffer 起來然后統(tǒng)一調(diào)用一次系統(tǒng)調(diào)用,可以大量的減少 user space 跟 kernel space 之間的切換。
可能會有人想到 fsync 這個系統(tǒng)調(diào)用,它跟 fflush 做的事情好像是一樣的,其實仔細辨別的,二者做的事情根本不在一個平面上。
fflush(FILE *stream) 作用的是 FILE*,對于 stdout 來說,他是將標(biāo)準(zhǔn) IO 流的 buffer 從用戶空間 flush 到內(nèi)核緩存中。這也是調(diào)用 exit 要做的事情。
fsync(int fd) 控制的是何時將 data&metadata 從內(nèi)核緩沖區(qū) flush 到磁盤中,他的傳入?yún)?shù)是一個 fd。對 fsync 來說,F(xiàn)ILE* 是透明的也就是所他并不知道 FILE* 的存在,一個是在 user space 一個是在 kernel space。
所以,如果我們不想有 full/line buffer 而是盡可能快的獲取到輸出流的話,就需要通過調(diào)用 fflush(stdout) 指明。
上面解釋的僅僅是 C 的,對于 Python 而言,底層調(diào)用的東西幾乎一樣,Python 它自己通過 C 實現(xiàn)了 fflush(),具體的代碼可以看這里。其實不單單是 fflush,不少包括 read/write 在內(nèi)的底層調(diào)用 Python 都是用 C 實現(xiàn)的。
對用到 Python 的 fflush 則是 sys.stdout.flush()。
不管是 fflush() 還是 sys.stdout.flush(),都需要對立即返回的 stdout 手動的調(diào)用,比較麻煩。所幸的,上面提到的 setvbuf 就可以直接幫我們做這件事,在 stream 打開后調(diào)用 setvbuf() 即可,其 mode 參數(shù)可以選擇下面三種:
1. _IOLBF,line buffer
2. _IOFBF, full buffer
3. _IONBF,no buffer
要完全禁用的話按照下面這種方式調(diào)用:
setvbuf(stdout, 0, _INNBF, 0);
對應(yīng)到 python 的,至少還有下面的幾種方式可以避免此類問題:
1. 直接關(guān)閉 stdout 的 buffer,類似 setvbuf:
sys.stdout = os.fdopen(sys.stdout.fileno(), 'w', 0)
2. 有個比較 ugly 的方式,把輸出流改到 stderr 上,這樣不管什么時候都能保證盡快的輸出。
3. 直接腳本的時候加上 -u 參數(shù)。但是需要注意下,xreadlines(), readlines() 包含一個內(nèi)部 buffer,不受 -u 影響,因此如果通過 stdin 來遍歷會出現(xiàn)問題,可以看看這兩個連接提供的內(nèi)容(1, 2)。
4. 將其 stream 關(guān)聯(lián)到 pseudo terminal(pty) 上,script 可以做這事情的:
script -q -c "command1" /dev/null | command2
或者通過 socat 這個工具實現(xiàn),
再來看個跟 pipe 相關(guān)的問題, 這個命令常?;剀囍鬀]有反應(yīng):
$ tail -f logfile | grep "foo" | awk {print $1}
tail 的 stdout buffer 默認會做 full buffer,由于加上了 -f,表示會調(diào)用 fflush() 對輸出流進行 flush,所以 tail -f 這部分沒什么問題。關(guān)鍵在 grep 的 stdout buffer,因此它存在一個 8KB stdout buffer,要等該 buffer 滿了之后 awk 才會接收到數(shù)據(jù)。awk 的 stdout buffer 跟終端相關(guān)聯(lián),所有默認是 line buffer。怎么解決這個問題了,其實 grep 提供了 –line-buffered 這個選項來做 line buffer,這會比 full buffer 快的多:
tail -f logfile | grep –line-buffered "foo" | awk {print $1}
除了 grep,sed 有對應(yīng)的 -u(–unbuffered),awk(我們默認的是 mawk) 有 -W 選項,tcpdump 有 -l 選項來將 full buffer 變成 line 或者 no buffer。
不僅僅是 stdin/stdout/stderr 有 buffer 問題,pipe 同樣有 buffer 的問題,相關(guān)的文檔可以看這里(1, 2)。
上面的方式都涉及到了具體的函數(shù)調(diào)用,修改參數(shù)的不具有普遍原理,對于普通用戶來說,不大可能這么操作。其實 coreutils 已經(jīng)給我們提供了一個叫 stdbuf 的工具。expect 還提供了一個叫 unbuffer 的工具,通過它可以將輸出流的 buffer 給禁止掉,另外,在 pipe 的應(yīng)用中,可能會出現(xiàn)一些問題,具體的 man 一下。因此,上面的問題可以更具有普遍性:
tail -f logfile | stdbuf -oL grep "foo" | awk {print $1}
看到這里最上面的幾個問題現(xiàn)在應(yīng)該非常容易回答了。
ref:
更多信息請查看IT技術(shù)專欄