|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
要多动手,不要怕什么搞坏了怎么办,你不搞坏,不去动手,就永远不会有收获,既然你在linux中是自由的,那就发挥自己的权利;
你是不是已经有过要盘算一个十分年夜的数据(几百GB)的需求?或在内里搜刮,或别的操纵——一些没法并行的操纵。数据专家们,我是在对你们说。你大概有一个4核或更多核的CPU,但我们符合的工具,比方grep,bzip2,wc,awk,sed等等,都是单线程的,只能利用一个CPU内核。
借用卡通人物Cartman的话,“怎样我能利用这些内核”?
要想让Linux命令利用一切的CPU内核,我们必要用到GNUParallel命令,它让我们一切的CPU内核在单机内做奇妙的map-reduce操纵,固然,这还要借助很罕用到的–pipes参数(也叫做–spreadstdin)。如许,你的负载就会均匀分派到各CPU上,真的。
BZIP2
bzip2是比gzip更好的紧缩工具,但它很慢!别折腾了,我们有举措办理这成绩。
之前的做法:- catbigfile.bin|bzip2--best>compressedfile.bz2
复制代码 如今如许:- catbigfile.bin|parallel--pipe--recend-kbzip2--best>compressedfile.bz2
复制代码 特别是针对bzip2,GNUparallel在多核CPU上是超等的快。你一不留心,它就实行完成了。
GREP
假如你有一个十分年夜的文本文件,之前你大概会如许: 如今你能够如许:- catbigfile.txt|parallel--pipegreppattern
复制代码 大概如许:- catbigfile.txt|parallel--block10M--pipegreppattern
复制代码 这第二种用法利用了–block10M参数,这是说每一个内核处置1万万行——你能够用这个参数来调剂每一个CUP内核处置几行数据。
AWK
上面是一个用awk命令盘算一个十分年夜的数据文件的例子。
惯例用法:- catrands20M.txt|awk{s+=$1}END{prints}
复制代码 如今如许:- catrands20M.txt|parallel--pipeawk{s+=$1}END{prints}|awk{s+=$1}END{prints}
复制代码 这个有点庞大:parallel命令中的–pipe参数将cat输入分红多个块分拨给awk挪用,构成了良多子盘算操纵。这些子盘算经由第二个管道进进了统一个awk命令,从而输入终极了局。第一个awk有三个反斜杠,这是GNUparallel挪用awk的必要。
WC
想要最快的速率盘算一个文件的行数吗?
传统做法: 如今你应当如许:- catbigfile.txt|parallel--pipewc-l|awk{s+=$1}END{prints}
复制代码 十分的奇妙,先利用parallel命令‘mapping’出大批的wc-l挪用,构成子盘算,最初经由过程管道发送给awk举行汇总。
SED
想在一个伟大的文件里利用sed命令做大批的交换操纵吗?
惯例做法:- seds^old^new^gbigfile.txt
复制代码 如今你能够:- catbigfile.bin|parallel--pipe--recend-kbzip2--best>compressedfile.bz20
复制代码 …然后你可使用管道把输入存储到指定的文件里。
英文原文:UsemultipleCPUCoreswithyourLinuxcommands
网络操作命令:ifconfig、ip、ping、netstat、telnet、ftp、route、rloginrcp、finger、mail、nslookup |
|