在Bash中循环遍历文件的内容

如何使用Bash遍历文本文件的每一行?

用这个脚本:

echo "Start!"for p in (peptides.txt)doecho "${p}"done

我在屏幕上得到这个输出:

Start!./runPep.sh: line 3: syntax error near unexpected token `('./runPep.sh: line 3: `for p in (peptides.txt)'

(稍后我想用$p做一些更复杂的事情,而不仅仅是输出到屏幕。


环境变量壳牌是(来自env):

SHELL=/bin/bash

/bin/bash --version输出:

GNU bash, version 3.1.17(1)-release (x86_64-suse-linux-gnu)Copyright (C) 2005 Free Software Foundation, Inc.

cat /proc/version输出:

Linux version 2.6.18.2-34-default (geeko@buildhost) (gcc version 4.1.2 20061115 (prerelease) (SUSE Linux)) #1 SMP Mon Nov 27 11:46:27 UTC 2006

文件peptides.txt包含:

RKEKNVQIPKKLLQKQYFHQLEKMNVKIPKKLLQKGDLSTALEVAIDCYEKQYFHQLEKMNVKIPENIYRRKEKNVQVLAKHGKLQDAINILGFMKLEDVALQILL
2416407 次浏览
cat peptides.txt | while read linedo# do something with $line heredone

以及单行变体:

cat peptides.txt | while read line; do something_with_$line_here; done

如果没有尾随换行符,这些选项将跳过文件的最后一行。

您可以通过以下方式避免这种情况:

cat peptides.txt | while read line || [[ -n $line ]];do# do something with $line heredone

一种方法是:

while read p; doecho "$p"done <peptides.txt

正如注释中指出的,这有修剪前导空格、解释反斜杠序列以及如果缺少终止换行则跳过最后一行的副作用。如果这些是问题,你可以这样做:

while IFS="" read -r p || [ -n "$p" ]doprintf '%s\n' "$p"done < peptides.txt

例外情况下,如果环路主体可以从标准输入读取,您可以使用不同的文件描述符打开文件:

while read -u 10 p; do...done 10<peptides.txt

在这里,10只是一个任意数字(不同于0、1、2)。

备选案文1a:虽然循环:一次单行:输入重定向

#!/bin/bashfilename='peptides.txt'echo Startwhile read p; doecho "$p"done < "$filename"

备选1b:同时循环:一次单行:
打开文件,从文件描述符中读取(在本例中为文件描述符#4)。

#!/bin/bashfilename='peptides.txt'exec 4<"$filename"echo Startwhile read -u4 p ; doecho "$p"done

这并不比其他答案好,但这是在没有空格的文件中完成工作的另一种方法(参见注释)。我发现我经常需要单行程序来挖掘文本文件中的列表,而无需使用单独的脚本文件的额外步骤。

for word in $(cat peptides.txt); do echo $word; done

这种格式允许我将所有内容放在一个命令行中。将“echo$word”部分更改为您想要的任何内容,您就可以发出以分号分隔的多个命令。以下示例使用文件的内容作为您可能编写的其他两个脚本的参数。

for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done

或者,如果您打算像使用流编辑器一样使用它,您可以将输出转储到另一个文件,如下所示。

for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done > outfile.txt

我使用了上面写的这些,因为我使用的是每行一个单词创建的文本文件。(见注释)如果你有不想拆分单词/行的空格,它会变得更丑,但相同的命令仍然如下工作:

OLDIFS=$IFS; IFS=$'\n'; for line in $(cat peptides.txt); do cmd_a.sh $line; cmd_b.py $line; done > outfile.txt; IFS=$OLDIFS

这只是告诉shell仅在换行符上拆分,而不是空格,然后将环境返回到以前的状态。此时,您可能需要考虑将其全部放入外壳脚本中,而不是将其全部压缩到一行中。

祝你好运!

#!/bin/bash## Change the file name from "test" to desired input file# (The comments in bash are prefixed with #'s)for x in $(cat test.txt)doecho $xdone

使用一个同时循环,像这样:

while IFS= read -r line; doecho "$line"done <file

备注:

  1. 如果您没有正确设置IFS,您将丢失缩进。

  2. 您应该几乎总是在read中使用-r选项。

  3. 不要读取for的行

这是我的真实生活示例,如何循环另一个程序输出的行,检查子字符串,从变量中删除双引号,在循环之外使用该变量。我想很多人迟早会问这些问题。

##Parse FPS from first video stream, drop quotes from fps variable## streams.stream.0.codec_type="video"## streams.stream.0.r_frame_rate="24000/1001"## streams.stream.0.avg_frame_rate="24000/1001"FPS=unknownwhile read -r line; doif [[ $FPS == "unknown" ]] && [[ $line == *".codec_type=\"video\""* ]]; thenecho ParseFPS $lineFPS=parsefiif [[ $FPS == "parse" ]] && [[ $line == *".r_frame_rate="* ]]; thenecho ParseFPS $lineFPS=${line##*=}FPS="${FPS%\"}"FPS="${FPS#\"}"fidone <<< "$(ffprobe -v quiet -print_format flat -show_format -show_streams -i "$input")"if [ "$FPS" == "unknown" ] || [ "$FPS" == "parse" ]; thenecho ParseFPS Unknown frame ratefiecho Found $FPS

在循环之外声明变量,设置值并在循环之外使用它需要已完成<<<"$(…)"语法。应用程序需要在当前控制台的上下文中运行。命令周围的引号保留输出流的换行符。

子字符串的循环匹配然后读取name=value对,拆分最后一个=字符的右侧部分,删除第一个引号,删除最后一个引号,我们有一个干净的值可以在其他地方使用。

@彼得:这可能对你有用-

echo "Start!";for p in $(cat ./pep); doecho $pdone

这将返回输出-

Start!RKEKNVQIPKKLLQKQYFHQLEKMNVKIPKKLLQKGDLSTALEVAIDCYEKQYFHQLEKMNVKIPENIYRRKEKNVQVLAKHGKLQDAINILGFMKLEDVALQILL

假设你有这个文件:

$ cat /tmp/test.txtLine 1Line 2 has leading spaceLine 3 followed by blank line
Line 5 (follows a blank line) and has trailing spaceLine 6 has no ending CR

有四个元素会改变许多Bash解决方案读取的文件输出的含义:

  1. 空白行4;
  2. 两行上的前导或尾随空格;
  3. 保持每一行的含义(即每一行都是一个记录);
  4. 第6行不以CR终止。

如果您希望文本文件逐行包括空白行和没有CR的终止行,您必须使用一个if循环,并且您必须对最后一行进行替代测试。

以下是可能更改文件的方法(与cat返回的相比):

1)删除最后一行以及前导和尾随空格:

$ while read -r p; do printf "%s\n" "'$p'"; done </tmp/test.txt'Line 1''Line 2 has leading space''Line 3 followed by blank line''''Line 5 (follows a blank line) and has trailing space'

(如果改用while IFS= read -r p; do printf "%s\n" "'$p'"; done </tmp/test.txt,则保留前导空格和尾随空格,但如果最后一行没有以CR结尾,则仍会丢失最后一行)

2)使用cat的进程替换将一次性读取整个文件并失去个别行的含义:

$ for p in "$(cat /tmp/test.txt)"; do printf "%s\n" "'$p'"; done'Line 1Line 2 has leading spaceLine 3 followed by blank line
Line 5 (follows a blank line) and has trailing spaceLine 6 has no ending CR'

(如果您从$(cat /tmp/test.txt)中删除",您将逐字读取文件而不是一饮而尽。也可能不是预期的…)


逐行读取文件并保留所有行间距的最健壮和最简单的方法是:

$ while IFS= read -r line || [[ -n $line ]]; do printf "'%s'\n" "$line"; done </tmp/test.txt'Line 1''    Line 2 has leading space''Line 3 followed by blank line''''Line 5 (follows a blank line) and has trailing space    ''Line 6 has no ending CR'

如果您想剥离领先和交易空间,请删除IFS=部分:

$ while read -r line || [[ -n $line ]]; do printf "'%s'\n" "$line"; done </tmp/test.txt'Line 1''Line 2 has leading space''Line 3 followed by blank line''''Line 5 (follows a blank line) and has trailing space''Line 6 has no ending CR'

(没有终止\n的文本文件虽然很常见,但在POSIX下被认为是损坏的。如果您可以指望尾随\n,则不需要while循环中的|| [[ -n $line ]]。)

更多关于BASH FAQ

如果您不希望您的读取被换行符中断,请使用-

#!/bin/bashwhile IFS='' read -r line || [[ -n "$line" ]]; doecho "$line"done < "$1"

然后以文件名作为参数运行脚本。

其他答案没有涵盖的更多内容:

从分隔文件读取

# ':' is the delimiter here, and there are three fields on each line in the file# IFS set below is restricted to the context of `read`, it doesn't affect any other codewhile IFS=: read -r field1 field2 field3; do# process the fields# if the line has less than three fields, the missing fields will be set to an empty string# if the line has more than three fields, `field3` will get all the values, including the third field plus the delimiter(s)done < input.txt

使用进程替换从另一个命令的输出读取

while read -r line; do# process the linedone < <(command ...)

这种方法比command ... | while read -r line; do ...更好,因为这里的年间循环在当前shell中运行,而不是像后者那样在子shell中运行。请参阅相关帖子一个变量修改在一个年间循环不被记住

从空分隔的输入读取,例如find ... -print0

while read -r -d '' line; do# logic# use a second 'read ... <<< "$line"' if we need to tokenize the linedone < <(find /path/to/dir -print0)

相关阅读:BashFAQ/020-如何查找并安全地处理包含换行符、空格或两者的文件名?

一次读取多个文件

while read -u 3 -r line1 && read -u 4 -r line2; do# process the lines# note that the loop will end when we reach EOF on either of the files, because of the `&&`done 3< input1.txt 4< input2.txt

基于@chepner的答案这里

-u是一个bash扩展。为了POSIX兼容性,每个调用看起来都像read -r X <&3

将整个文件读取到数组中(Bash版本早于4)

while read -r line; domy_array+=("$line")done < my_file

如果文件以不完整的行结束(末尾缺少换行符),则:

while read -r line || [[ $line ]]; domy_array+=("$line")done < my_file

将整个文件读取到数组中(Bash版本4x及更高版本)

readarray -t my_array < my_file

mapfile -t my_array < my_file

然后呢

for line in "${my_array[@]}"; do# process the linesdone

相关文章:

这来得相当晚,但考虑到它可能会帮助某人,我正在添加答案。这也可能不是最好的方法。head命令可以与-n参数一起使用,从文件的开头读取n行,同样tail命令可以用于从底部读取。现在,要从文件中获取第n行,我们头n行,管道数据到管道数据的尾部只有1行。

   TOTAL_LINES=`wc -l $USER_FILE | cut -d " " -f1 `echo $TOTAL_LINES       # To validate total lines in the file
for (( i=1 ; i <= $TOTAL_LINES; i++ ))doLINE=`head -n$i $USER_FILE | tail -n1`echo $LINEdone

我喜欢使用xargs而不是whilexargs功能强大,命令行友好

cat peptides.txt | xargs -I % sh -c "echo %"

使用xargs,您还可以使用-t添加冗长并使用-p添加验证

这可能是最简单的答案,也许它不适用于所有情况,但它对我来说非常有效:

while read line;do echo "$line";done<peptides.txt

如果您需要在括号中包含空格:

while read line;do echo \"$line\";done<peptides.txt

啊,这和投票最多的答案几乎一样,但它都在一条线上。

另一种使用xargs的方法

<file_name | xargs -I {} echo {}

回声可以替换为其他命令或管道进一步。

猫peptides.txt中的p做回显"${p}"已完成