国产精品乱子乱xxxx,国产又爽又黄的视频免费看

當(dāng)前位置：首頁 > 范文|應(yīng)用文 > IT技術(shù)專欄 > 腳本欄目

Shell腳本實現(xiàn)亂序排列文件內(nèi)容的多種方法（洗牌問題）

來源：易賢網(wǎng) 閱讀：1164 次日期：2015-01-30 14:12:40

溫馨提示：易賢網(wǎng)小編為您整理了“Shell腳本實現(xiàn)亂序排列文件內(nèi)容的多種方法（洗牌問題）”,方便廣大網(wǎng)友查閱！

洗牌問題：洗一副撲克，有什么好辦法？既能洗得均勻，又能洗得快？即相對于一個文件來說怎樣高效率的實現(xiàn)亂序排列？

ChinaUnix 確實是 Shell 高手云集的地方，只要你想得到的問題，到那里基本上都能找到答案。r2007 給出了一個取巧的方法，利用 Shell 的 $RANDOM 變量給原文件的每一行加上隨機的行號然后根據(jù)這個隨機行號進(jìn)行排序，再把臨時加上去的行號給過濾掉，這樣操作之后得到的新文件就相當(dāng)于被隨機“洗”了一次：

代碼如下:

while read i;do echo "$i $RANDOM";done<file|sort -k2n|cut -d" " -f1

當(dāng)然如果你的源文件每行的內(nèi)容比較復(fù)雜的話就必須對這段代碼進(jìn)行改寫，但只要知道了處理的關(guān)鍵技巧，剩下的問題都不難解決。

另外一篇來自蘇蓉蓉的用 awk 來實現(xiàn)洗牌效果的隨機文件排序代碼分析（原貼在這里，以及對此帖的一個后續(xù)討論，如果你沒有登錄帳號的話可以到這里查看精華區(qū)文章）則寫的更為詳細(xì)：

--------------------------------------------------------------------

關(guān)于洗牌問題，其實已經(jīng)有了一個很好的shell解法，這里另外給三個基于AWK的方法，有錯誤之處還請不吝指出。

方法一：窮舉

類似于窮舉法，構(gòu)造一個散列來記錄已經(jīng)打印行出現(xiàn)行的次數(shù)，如果出現(xiàn)次數(shù)多于一次則不進(jìn)行處理，這樣可以防止重復(fù)，但缺點是加大了系統(tǒng)的開銷。

代碼如下:

awk -v N=`sed -n '$=' data` '

BEGIN{

FS="\n";

RS=""

}

{

srand();

while(t!=N){

x=int(N*rand()+1);

a[x]++;

if(a[x]==1)

{

print $x;t++

}

' data

方法二：變換

基于數(shù)組下標(biāo)變換的辦法，即用數(shù)組儲存每行的內(nèi)容，通過數(shù)組下標(biāo)的變換交換數(shù)組的內(nèi)容，效率好于方法一。

代碼如下:

#! /usr/awk

BEGIN{

srand();

}

{

b[NR]=$0;

}

END{

C(b,NR);

for(x in b)

{

print b[x];

}}

function C(arr,len,i,j,t,x){

for(x in arr)

{

i=int(len*rand())+1;

j=int(len*rand())+1;

t=arr[i];

arr[i]=arr[j];

arr[j]=t;

}

方法三：散列

三個方法中最好的。

利用AWK中散列的特性(詳細(xì)請看：info gawk 中的7.x ),只要構(gòu)造一個隨機不重復(fù)的散列函數(shù)即可，因為一個文件每行的linenumber是獨一無二的，所以用：

隨機數(shù)＋每行l(wèi)inenumber ------對應(yīng)------> 那一行的內(nèi)容

即為所構(gòu)造的隨機函數(shù)。

從而有：

代碼如下:

awk 'BEGIN{srand()}{b[rand()NR]=$0}END{for(x in b)print b[x]}' data

其實大家擔(dān)心的使用內(nèi)存過大的問題不必太在意，可以做一個測試：

測試環(huán)境：

PM 1.4GHz CPU,40G硬盤，內(nèi)存256M的LAPTOP

SUSE 9.3 GNU bash version 3.00.16 GNU Awk 3.1.4

產(chǎn)生一個五十幾萬行的隨機文件,大約有38M：

代碼如下:

od /dev/urandom |dd count=75000 >data

拿效率較低的方法一來說:

洗牌一次所用時間:

代碼如下:

time awk -v N=`sed -n '$=' data` '

BEGIN{

FS="\n";

RS=""

}

{

srand();

while(t!=N){

x=int(N*rand()+1);

a[x]++;

if(a[x]==1)

{

print $x;t++

}

' data

結(jié)果（文件內(nèi)容省略）：

代碼如下:

real 3m41.864s

user 0m34.224s

sys 0m2.102s

所以效率還是勉強可以接受的。

方法二的測試:

代碼如下:

time awk -f awkfile datafile

結(jié)果（文件內(nèi)容省略）：

代碼如下:

real 2m26.487s

user 0m7.044s

sys 0m1.371s

效率明顯好于第一個。

接著考察一下方法三的效率：

代碼如下:

time awk 'BEGIN{srand()}{b[rand()NR]=$0}END{for(x in b)print b[x]}' data

結(jié)果（文件內(nèi)容省略）：

代碼如下:

real 0m49.195s

user 0m5.318s

sys 0m1.301s

對于一個38M的文件來說已經(jīng)相當(dāng)不錯了。

--------------------------------------------------------------------

附帶存一個來自 flyfly 寫的 python 版本亂序代碼：

代碼如下:

#coding:gb2312

import sys

import random

def usage():

print "usage:program srcfilename dstfilename"

global filename

filename = ""

try:

filename = sys.argv[1]

except:

usage()

raise()

#open the phonebook file

f = open(filename, 'r')

phonebook = f.readlines()

print phonebook

f.close()

#write to file randomly

try:

filename = sys.argv[2]

except:

usage()

raise()

f = open(filename, 'w')

random.shuffle(phonebook)

f.writelines(phonebook)

f.close()

更多信息請查看IT技術(shù)專欄

上一篇：Shell腳本實現(xiàn)生成SSL自簽署證書

下一篇：getcwd cannot access parent directories錯誤解決方法

易賢網(wǎng)手機網(wǎng)站地址：Shell腳本實現(xiàn)亂序排列文件內(nèi)容的多種方法（洗牌問題）

由于各方面情況的不斷調(diào)整與變化，易賢網(wǎng)提供的所有考試信息和咨詢回復(fù)僅供參考，敬請考生以權(quán)威部門公布的正式信息和咨詢?yōu)闇?zhǔn)！

相關(guān)閱讀腳本欄目

Bottle框架中的裝飾器類和描述符應(yīng)用詳解10月30日

Python探索之SocketServer詳解10月30日

Python探索之實現(xiàn)一個簡單的HTTP服務(wù)器10月30日

python探索之BaseHTTPServer-實現(xiàn)Web服務(wù)器介紹10月30日

13個最常用的Python深度學(xué)習(xí)庫介紹10月30日

深入理解Python中的*重復(fù)運算符10月30日

python logging日志模塊詳解10月30日

System表空間不足的報警問題淺析10月22日

Android開發(fā)自定義TextView省略號樣式的方法10月22日

MySQL 清除表空間碎片的實例詳解10月22日

Ubuntu下MySQL安裝及配置遠(yuǎn)程登錄教程10月22日

Python 2.x如何設(shè)置命令執(zhí)行的超時時間實例10月22日

windows 64位下redis安裝教程10月22日

Android 自定義 HorizontalScrollView 打造多圖片OOM 的橫向滑動效果10月22日

淺談Node Inspector 代理實現(xiàn)10月22日

java web開發(fā)之購物車功能實現(xiàn)示例代碼10月22日

Android開發(fā)中GridView用法示例10月22日

Django ORM框架的定時任務(wù)如何使用詳解10月22日

SpringMail使用過程中的報錯解決辦法10月22日

Android 使用自定義RecyclerView控件實現(xiàn)Gallery效果10月22日

易賢網(wǎng)移動網(wǎng)站

2025國考·省考課程試聽報名

報班類型
姓名
手機號
驗證碼