关于Linux：循环访问bash中的文件内容

Looping through the content of a file in Bash

如何使用bash迭代文本文件的每一行？

使用此脚本：

1
2
3
4
5

echo"Start!"
for p in (peptides.txt)
do
echo"${p}"
done

我在屏幕上得到这个输出：

1
2
3

Start!
./runPep.sh: line 3: syntax error near unexpected token `('
./runPep.sh: line 3: `for p in (peptides.txt)'

(稍后，我想用$p做一些比输出到屏幕更复杂的事情。)

环境变量shell是(来自env)：

1	SHELL=/bin/bash

/bin/bash --version输出：

1 2	GNU bash, version 3.1.17(1)-release (x86_64-suse-linux-gnu) Copyright (C) 2005 Free Software Foundation, Inc.

cat /proc/version输出：

1	Linux version 2.6.18.2-34-default (geeko@buildhost) (gcc version 4.1.2 20061115 (prerelease) (SUSE Linux)) #1 SMP Mon Nov 27 11:46:27 UTC 2006

文件peptips.txt包含：

1
2
3
4
5
6
7
8
9
10

RKEKNVQ
IPKKLLQK
QYFHQLEKMNVK
IPKKLLQK
GDLSTALEVAIDCYEK
QYFHQLEKMNVKIPENIYR
RKEKNVQ
VLAKHGKLQDAIN
ILGFMK
LEDVALQILL

相关讨论

一种方法是：

1
2
3

while read p; do
echo"$p"
done <peptides.txt

正如注释中所指出的，这有一些副作用，比如修剪前导空格，解释反斜杠序列，如果缺少终止换行符，则跳过尾随行。如果这些是问题，您可以做到：

1
2
3
4
5

while IFS="" read -r p || [ -n"$p" ]
do
printf '%s
'"$p"
done < peptides.txt

例外情况下，如果循环体可以从标准输入读取，则可以使用不同的文件描述符打开文件：

1
2
3

while read -u 10 p; do
...
done 10<peptides.txt

这里，10只是一个任意数字(不同于0，1，2)。

相关讨论

我应该如何解释最后一行？文件peptips.txt被重定向到标准输入，并不知何故重定向到整个while块？
"slurp peptides.txt到这个while循环中，所以‘read’命令有一些东西需要消耗。"我的"cat"方法类似，将一个命令的输出发送到while块以供‘read’使用，同样，只有它启动另一个程序来完成工作。
这对我不起作用。排名第二的答案，用猫和烟斗，确实为我工作。
此方法似乎跳过了文件的最后一行。
这可以从文件的底部反向执行吗？
@然后DSS将使用基于cat的解决方案，但将cat替换为tac。
@布鲁诺弗雷恩，我试过了，但塔克似乎使每一个空间一个新的线路。我需要用换行符分隔的整行。也许我做错了。
@布鲁诺弗雷恩，好的，我发现了这个：unix.stackexchange.com/a/7012..把cat改成tac，它就可以工作了。谢谢！
@DSS I的意思是来自warren young stackoverflow.com/a/1521470/6918的解决方案；只需将cat替换为tac，就可以反向读取这些行。
双引号的行！！echo"$p"和文件..相信我，如果你不相信，它会咬你的！！！！我知道！大声笑
那-u选项让我高兴极了；)谢谢！
如果最后一行没有用换行符终止，两个版本都无法读取。始终使用while read p || [[ -n $p ]]; do ...。
这不适用于以反斜杠""结尾的行。以反斜杠结尾的行将被前置到下一行(并且将被删除)。
@维达，这很奇怪。我所期望的是，在反斜杠后得到一个额外的n，这些行被连接起来。因为这意味着，反斜杠避开了
的反斜杠，导致它被逐字解释而不是新行。但反斜杠和换行符都消失了，这意味着它被用于某种预期的转义，但会与原始换行符合并成未打印的内容…有没有一个工具可以以某种方式显示未打印的字符？我会对结果感兴趣的。
@egorhans 转义字符，该字符是单个字符。谷歌搜索"ASCII表"。字符10是，字符13是
。Linux"xxd"工具将向您显示这些字符。带有a
a
\
的文件看起来像：610a 610a 5c0a(0a是十六进制的10，所以)。最后一种情况是"5C"字符或""正在转义单个字符。
@吠陀啊，好吧，现在我明白了。没有意识到文件内容会像在文件中那样被转储到执行流中，当然，
是一个字符。出于某种原因，我一直认为它在处理时会被返回到控制序列。不过，有点奇怪的是，一个逃逸的
是没有打印的表示的东西。在转义时，我们希望它解析为字符序列""。
你的灵魂因不同的文件描述符命令而受到祝福，这让我很高兴，因为标准输入替换产生的错误而浪费了8天时间。+ 1
第一个例子是在完成后缺少"；"。

1
2
3
4

cat peptides.txt | while read line
do
# do something with $line here
done

相关讨论

一般来说，如果你只用一个论点来使用"cat"，那你就是在做错事(或者说是次优)。
我已经试过了，而且它很管用(还有布鲁诺·德·弗雷恩的)。
是的，它并没有布鲁诺的效率高，因为它不必要地启动了另一个程序。如果效率很重要，那就用布鲁诺的方式。我记得我的方法，因为您可以将它与其他命令一起使用，"重定向自"语法不起作用。
这还有另一个更严重的问题：因为while循环是管道的一部分，它运行在子shell中，因此在循环中设置的任何变量在退出时都会丢失(请参见bash hacker.org/wiki/doku.php/mirroring/bashfaq/024)。这可能非常烦人(取决于你在循环中要做什么)。
@杰斯佩尔，你愿意用另一个例子来详细说明吗？
@食人魔：他是说你应该像布鲁诺在他接受的回答中那样做。两者都有效。布鲁诺的方法只是更有效一点，因为它不运行外部命令来读取文件。如果效率很重要，那就按布鲁诺的方式来做。如果不是，那就用对你最有意义的方法去做。
@食人魔33：沃伦是对的。"cat"命令用于连接文件。如果不连接文件，很可能不需要使用"cat"。
好吧，说得通。我想强调一下这一点，因为我在脚本中看到了许多使用过度的示例，其中"cat"只是作为获取单个文件内容的额外步骤。
我使用"cat file"作为许多命令的开始，纯粹是因为我经常使用"head file"作为原型。
@另外，Matkelcey，您还将如何将整个文件放到管道的前面？bash给了你一些字符串，这些字符串非常棒(特别是对于像if grep -q 'findme' <<<"$var"这样的东西)，但不可移植，我不想用它来启动一个大型的管道。像EDOCX1[1]这样的东西更容易阅读，因为所有东西都从左到右排列。这就像是用awk而不是cut进行strtoking，因为你不需要空的令牌——这是对命令的滥用，但这就是它的实现方式。
这可能没有那么有效，但比其他答案更易读。
+1为了可读性和模块性-通过将"cat…"替换为其他内容的输出，可以很容易地将此代码放入更复杂的管道中。
这比布鲁诺写的要坚定得多。当通过命令动态创建数据时，它特别有用。使用布鲁诺的解决方案，循环将在命令完成后接收任何数据。您的解决方案将命令结果在线传递到循环中，而不从系统获取缓冲区。例如，将"cat peptines.txt"替换为"find/"，或者在以前的解决方案中将"done
当你关心表现的差异时，你不会问这样的问题。
< peptides.txt | while read line...
然而，这对于grep、sed或任何其他在阅读前进行的文本操作都是非常好的。
如果循环中的任何命令通过ssh运行命令；stdin流被消耗(即使ssh不使用它)，并且循环在第一次迭代后终止，那么这将不起作用。
@米凯德，这是一个zsh主义；它在bash中不起作用。
正如我们所接受的答案一样，如果没有read -r，在某些角落的情况下，这将带来令人不快的惊喜。基本上总是使用read -r，除非您特别要求普通的遗留read的古怪行为。
它跳过最后一行。所以作为解决方法，最后必须添加空行。
@Januarvs：只有当文件的最后一行没有LF终止符时，它才会这样做，这也会导致许多其他事情失败。

选项1a:while循环：一次单线：输入重定向

1
2
3
4
5
6

#!/bin/bash
filename='peptides.txt'
echo Start
while read p; do
echo $p
done < $filename

选项1b:while循环：一次单线：打开文件，从文件描述符读取(在本例中是文件描述符4)。

1
2
3
4
5
6
7

#!/bin/bash
filename='peptides.txt'
exec 4<$filename
echo Start
while read -u4 p ; do
echo $p
done

选项2：for循环：将文件读入单个变量并进行解析。此语法将基于标记之间的任何空白来解析"行"。这仍然有效，因为给定的输入文件行是单字标记。如果每行有多个令牌，那么此方法将不起作用。另外，对于大型文件来说，将整个文件读取为单个变量不是一个好策略。

1
2
3
4
5
6
7

#!/bin/bash
filename='peptides.txt'
filelines=`cat $filename`
echo Start
for line in $filelines ; do
echo $line
done

相关讨论

这并不比其他答案更好，但这是在没有空格的文件中完成工作的另一种方法(请参见注释)。我发现我经常需要一行代码来挖掘文本文件中的列表，而不需要使用单独的脚本文件的额外步骤。

1	for word in $(cat peptides.txt); do echo $word; done

这种格式允许我将所有内容放在一个命令行中。将"echo$word"部分更改为您想要的任何内容，您可以发出多个用分号分隔的命令。下面的示例将文件的内容作为参数使用到您可能编写的其他两个脚本中。

1	for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done

或者，如果您打算像使用流编辑器(learn sed)那样使用它，您可以将输出转储到另一个文件，如下所示。

1	for word in $(cat peptides.txt); do cmd_a.sh $word; cmd_b.py $word; done > outfile.txt

我使用了上面写的这些，因为我使用了文本文件，在那里我创建了每行一个单词。(请参见注释)如果您有不想拆分单词/行的空格，它会变得更难看一些，但相同的命令仍然可以工作如下：

1 2	OLDIFS=$IFS; IFS=$' '; for line in $(cat peptides.txt); do cmd_a.sh $line; cmd_b.py $line; done > outfile.txt; IFS=$OLDIFS

这只是告诉shell只在换行符上拆分，而不是空格，然后将环境返回到以前的状态。不过，此时，您可能需要考虑将其全部放入shell脚本，而不是将其全部压缩为一行。

祝你好运！

相关讨论

还有一些其他答案没有涉及的问题：

从分隔文件读取

1
2
3
4
5
6
7

# ':' is the delimiter here, and there are three fields on each line in the file
# IFS set below is restricted to the context of `read`, it doesn't affect any other code
while IFS=: read -r field1 field2 field3; do
# process the fields
# if the line has less than three fields, the missing fields will be set to an empty string
# if the line has more than three fields, `field3` will get all the values, including the third field plus the delimiter(s)
done < input.txt

使用进程替换从另一个命令的输出读取

1
2
3

while read -r line; do
# process the line
done < <(command ...)

这种方法比command ... | while read -r line; do ...好，因为这里的while循环运行在当前shell中，而不是像后者那样运行在子shell中。请参阅相关文章while循环中修改的变量不被记住。

从以空分隔的输入读取，例如find ... -print0。

1
2
3
4

while read -r -d '' line; do
# logic
# use a second 'read ... <<<"$line"' if we need to tokenize the line
done < <(find /path/to/dir -print0)

相关阅读：bashfaq/020-我如何找到和安全地处理包含换行符和/或空格的文件名？

一次读取多个文件

1
2
3
4

while read -u 3 -r line1 && read -u 4 -r line2; do
# process the lines
# note that the loop will end when we reach EOF on either of the files, because of the `&&`
done 3< input1.txt 4< input2.txt

基于@chepner的回答：

-u是bash扩展。对于POSIX兼容性，每个调用看起来都类似于read -r X <&3。

将整个文件读取到一个数组中(bash版本早于4)

1
2
3

while read -r line; do
my_array+=("$line")
done < my_file

如果文件以不完整的行结尾(结尾缺少换行符)，则：

1
2
3

while read -r line || [[ $line ]]; do
my_array+=("$line")
done < my_file

将整个文件读取到数组中(bash版本4x及更高版本)

1	readarray -t my_array < my_file

或

1	mapfile -t my_array < my_file

然后

1
2
3

for line in"${my_array[@]}"; do
# process the lines
done

关于shell内置的read和readarray命令的更多信息-gnu
关于IFS的更多信息-维基百科
bashfaq/001-如何逐行(和/或逐字段)读取文件(数据流、变量)？

相关讨论

使用while循环，如下所示：

1
2
3

while IFS= read -r line; do
echo"$line"
done <file

笔记：

如果不正确设置IFS，将丢失缩进。

您几乎应该总是在read中使用-r选项。

不要用for读行

相关讨论

如果您不希望您的阅读被换行符打断，请使用-

1
2
3
4

#!/bin/bash
while IFS='' read -r line || [[ -n"$line" ]]; do
echo"$line"
done <"$1"

然后以文件名作为参数运行脚本。

假设您有这个文件：

1
2
3
4
5
6
7

$ cat /tmp/test.txt
Line 1
Line 2 has leading space
Line 3 followed by blank line

Line 5 (follows a blank line) and has trailing space
Line 6 has no ending CR

有四个元素可以改变许多bash解决方案读取的文件输出的含义：

空白行4；

两行上的前导空格或尾随空格；

维护每一行的含义(即每一行是一个记录)；

第6行未以CR终止。

如果您希望文本文件逐行包括空行和不带CR的终止行，则必须使用while循环，并且必须对最后一行进行备用测试。

以下是可能更改文件的方法(与cat返回的结果相比)：

1)丢失最后一行和前后空格：

1
2
3
4
5
6
7

$ while read -r p; do printf"%s
""'$p'"; done </tmp/test.txt
'Line 1'
'Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space'

(如果改为执行while IFS= read -r p; do printf"%s
""'$p'"; done ，则保留前导空格和尾随空格，但如果最后一行不以cr结尾，则仍将丢失该行)

2)使用cat的进程替换将一次读取整个文件，并失去单个行的含义：

1
2
3
4
5
6
7
8

$ for p in"$(cat /tmp/test.txt)"; do printf"%s
""'$p'"; done
'Line 1
Line 2 has leading space
Line 3 followed by blank line

Line 5 (follows a blank line) and has trailing space
Line 6 has no ending CR'

(如果你把"从$(cat /tmp/test.txt)上取下来，你一个字一个字地读文件，而不是一口一口地读。也可能不是有意的……)

逐行读取文件并保留所有间距的最可靠和最简单的方法是：

1
2
3
4
5
6
7
8

$ while IFS= read -r line || [[ -n $line ]]; do printf"'%s'
""$line"; done </tmp/test.txt
'Line 1'
' Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space '
'Line 6 has no ending CR'

如果您想剥离引导和交易空间，请删除IFS=部分：

1
2
3
4
5
6
7
8

$ while read -r line || [[ -n $line ]]; do printf"'%s'
""$line"; done </tmp/test.txt
'Line 1'
'Line 2 has leading space'
'Line 3 followed by blank line'
''
'Line 5 (follows a blank line) and has trailing space'
'Line 6 has no ending CR'

(没有终止
的文本文件虽然很常见，但在posix下被认为是中断的。如果您可以依靠尾随的
，那么在while循环中不需要|| [[ -n $line ]]。

更多信息请参见bash常见问题解答

相关讨论

1
2
3
4
5
6
7
8

#!/bin/bash
#
# Change the file name from"test" to desired input file
# (The comments in bash are prefixed with #'s)
for x in $(cat test.txt)
do
echo $x
done

相关讨论

下面是我的实际例子，如何循环其他程序输出的行，检查子字符串，从变量中删除双引号，在循环之外使用该变量。我想很多人迟早会问这些问题。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

##Parse FPS from first video stream, drop quotes from fps variable
## streams.stream.0.codec_type="video"
## streams.stream.0.r_frame_rate="24000/1001"
## streams.stream.0.avg_frame_rate="24000/1001"
FPS=unknown
while read -r line; do
if [[ $FPS =="unknown" ]] && [[ $line == *".codec_type="video""* ]]; then
echo ParseFPS $line
FPS=parse
fi
if [[ $FPS =="parse" ]] && [[ $line == *".r_frame_rate="* ]]; then
echo ParseFPS $line
FPS=${line##*=}
FPS="${FPS%\
<div class="suo-content">[collapse title=""]<ul><li>虽然答案是正确的，但我确实理解它是如何在这里结束的。基本方法与许多其他答案提出的方法相同。另外，它完全淹没在您的fps示例中。</li></ul>[/collapse]</div><hr>
<p>
@Peter: This could work out for you-
</p>

[cc lang="bash"]echo"Start!";for p in $(cat ./pep); do
echo $p
done

这将返回输出-

1
2
3
4
5
6
7
8
9
10
11

Start!
RKEKNVQ
IPKKLLQK
QYFHQLEKMNVK
IPKKLLQK
GDLSTALEVAIDCYEK
QYFHQLEKMNVKIPENIYR
RKEKNVQ
VLAKHGKLQDAIN
ILGFMK
LEDVALQILL

相关讨论