判断两个文件在Unix / Linux中是否相同的最快方法？

Fastest way to tell if two files are the same in Unix/Linux?

我有一个shell脚本，其中我需要检查两个文件是否相同。我对很多文件都这样做，在我的脚本中，diff命令似乎是性能瓶颈。

这条线是：

1
2
3

diff -q $dst $new > /dev/null

if ($status) then ...

是否有更快的方法来比较文件，也许是自定义算法而不是默认的diff？

我相信cmp将在第一个字节差处停止：

1	cmp --silent $old $new \|\| echo"files are different"

号

相关讨论

我喜欢@alex howansky为此使用了'cmp--silent'。但我需要积极和消极的回应，所以我使用：

1	cmp --silent file1 file2 && echo '### SUCCESS: Files Are Identical! ###' \|\| echo '### WARNING: Files Are Different! ###'

。

然后，我可以在终端或使用ssh运行这个命令，根据一个常量文件检查文件。

相关讨论

为什么不把这两个文件的内容都列出来呢？

尝试这个脚本，调用它，例如script.sh，然后按如下方式运行：script.sh file1.txt file2.txt

1
2
3
4
5
6
7
8
9
10
11

#!/bin/bash

file1=`md5 $1`
file2=`md5 $2`

if ["$file1" ="$file2" ]
then
echo"Files have the same content"
else
echo"Files have NOT the same content"
fi

相关讨论

抱歉，不确定您所指的是什么，我编写Unix脚本的时间不长。
如果两个文件相同，那么它们将具有相同的哈希值。例如，如果"file1.txt"的内容是"aaa"和"file2.txt"，那么当您得到md5散列：md5 file1.txt时，您将得到：5C9597F3C8245907EA71A89D9D39D08E，这将是与md5 file2.txt相同的输出，如果您计算出两个散列，并且它们是相同的，您可以确保它们都具有相同的内容：)
哦，对了，像是支票金额。我认为这是可能的；是否有一个简单的unix命令用于此目的？
md5是查找两个文件的md5哈希的unix命令。
另外，@jabaldondo，我想你只需要一个=符号来检查bash中两个字符串的相等性。
在mac osx上，使用"md5-q文件名"，因为对于-q，路径也是输出的。这意味着"$file1"=="$file2"测试永远不会成功。
仅供参考，这并不能保证有效，所以可能会有一个免责声明…
@你能解释一下为什么这个行不通吗？cmp似乎是处理这个问题的更干净的方法，但从理论上讲，这听起来应该有效吗？
@这个用户需要帮助，因为哈希算法不是一对一的。它们的设计使得散列空间很大，并且不同的输入很可能产生不同的散列。但事实是，散列空间是有限的，而要散列的可能文件的范围不是-最终会发生冲突。在密码学中，它被称为生日攻击。
@威尔，嗯，它有效地保证了工作。从数学上讲，它不起作用的几率大约在1/(2^511)左右。除非你担心有人故意制造碰撞，否则这种方法产生假阳性的想法实际上并不是一个严重的问题。不过，由于在文件不匹配的情况下不必读取整个文件，因此cmp仍然更高效。
@有效保证的Ajedi32是一种矛盾。它只是有很高的工作机会。这是一个值得一提的警告。
@威尔，是的，我明白了。但我怀疑，在这样的情况下，可能会有更高的几率，一条漫画射线会随机地在CPU中翻转一点，导致equality操作符产生一个错误的结果。哈希冲突的可能性是你最不担心的。
@Ajedi32整个宇宙射线效应要高得多，IBM估计每月在RAM中每256MB会有1个错误。
OP要求以最快的方式…搜索第一个不匹配的位(使用cmp)不会比哈希整个文件更快(如果它们不匹配)，特别是如果文件很大？
@Ajedi32虽然通常2^511看起来是一个很大的数字，但在哈希算法方面，它是很小的。在一个1Mib文件中，有8388608位，给出了大小精确为1Mib的文件总数，以及2^8388608位的可能组合。这意味着2^511的哈希空间将至少有2^8388608/2^511=2^8388097个冲突。文件大小中的每一个额外字节都会增加2^8。哈希冲突经常发生，脚本/程序需要能够处理它们。CMP不仅在本地存储上更快，而且更精确。
@beowulfnode42虽然在数学上讲任何哈希函数中的冲突都必须存在，但在加密安全的哈希函数中查找冲突并不是"定期"发生的事情。事实上，在一个现代的密码安全散列算法中发现任何这样的冲突都将被视为一件大事，并可能被视为一个信号，表明该算法不像以前想象的那样安全。(尽管张贴了一个sha-256或sha-512碰撞的例子，但请随意证明我错了。迄今为止，还不存在此类碰撞。)
@Ajedi32我们讨论的是用于文件比较的哈希，而不是密码术。事实上，两者都可以使用相同的函数(因为不同的原因和不同的方式)，这意味着在本地文件系统上散列2个完整文件的计算工作，只是为了确定这些文件几乎是相同/不同的，这是浪费时间。特别是由于用作op的散列函数被要求，通常使用具有较低位数的简单函数来节省计算时间，而不是高安全性的加密散列，例如CRC32，甚至是一个简单的双字异或。
@beowulfnode42这个答案使用的是MD5，而不是简单的CRC。不管怎样，我的观点并不是说散列比cmp好(事实上恰恰相反，正如我在最初的评论中所说的那样)，仅仅是因为碰撞的几率是可以忽略的，因此我认为说这种方法"不保证有效"是误导。
如果您要进行一对多的比较，MD5是最好的。您可以将MD5哈希存储为一个属性，或者存储在每个文件的数据库中。如果出现了一个新文件，并且您必须检查文件系统中是否存在相同的文件，那么您所要做的就是计算新文件的散列值并检查所有以前的文件。我确信Git在提交期间使用哈希检查文件更改，但它们使用sha1。
由于某种原因，我的箱子没有用md5作为命令。
@科洛布坎尼-特里-埃多克斯1〔2〕。
@Ajedi32 MD5已被破解多年。BishopFox.com/resources/tools/other free tools/&hellip；有一个MD5碰撞生成器软件可以在现代PC上运行，在45分钟内产生碰撞。同时，沙一号已经正式发布了碰撞，见粉碎。问题是，随着新的破解工作的开展，在野外有越来越多的文件具有相同的哈希代码，并且越来越多以前的安全代码不再存在。例如，如果sha-256如此安全，为什么还要有sha-512或更高版本？他们期望它会破裂。
@Beowulfnode42这就是为什么我在我的评论前面加上"除非你担心有人故意制造冲突"

对于不同的文件，任何方法都需要完全读取这两个文件，即使读取是在过去。

别无选择。因此，在某个时间点创建哈希或校验和需要读取整个文件。大文件需要时间。

文件元数据检索比读取大型文件快得多。

那么，是否有任何文件元数据可以用来确定这些文件是不同的？文件大小？或者甚至是文件命令的结果，它只读取文件的一小部分？

文件大小示例代码片段：

1
2
3
4
5

ls -l $1 $2 |
awk 'NR==1{a=$5} NR==2{b=$5}
END{val=(a==b)?0 :1; exit( val) }'

[ $? -eq 0 ] && echo 'same' || echo 'different'

如果文件大小相同，那么您将无法读取完整的文件。

相关讨论

还可以尝试使用cksum命令：

1
2
3
4
5
6
7
8
9

chk1=`cksum <file1> | awk -F"" '{print $1}'`
chk2=`cksum <file2> | awk -F"" '{print $1}'`

if [ $chk1 -eq $chk2 ]
then
echo"File is identical"
else
echo"File is not identical"
fi

cksum命令将输出文件的字节计数。见"Man cksum"。

相关讨论

因为我太差劲了，没有足够的声望点，所以我不能把这些小道消息作为评论。

但是，如果您要使用cmp命令(不需要/不想详细说明)，您可以直接获取退出状态。根据cmp手册：

If a FILE is '-' or missing, read standard input. Exit status is 0
if inputs are the same, 1 if different, 2 if trouble.

号

所以，你可以这样做：

1
2
3
4
5
6
7

STATUS="$(cmp --silent $FILE1 $FILE2; echo $?)" #"$?" gives exit status for each comparison

if [[$STATUS -ne 0]]; then # if status isn't equal to 0, then execute code
DO A COMMAND ON $FILE1
else
DO SOMETHING ELSE
fi

使用Raspberry Pi 3b+进行一些测试(我使用的是覆盖文件系统，需要定期同步)，我对diff-q和cmp-s进行了自己的比较；请注意，这是来自内部/dev/shm的日志，因此磁盘访问速度不是问题：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

[root@mypi shm]# dd if=/dev/urandom of=test.file bs=1M count=100 ; time diff -q test.file test.copy && echo diff true || echo diff false ; time cmp -s test.file test.copy && echo cmp true || echo cmp false ; cp -a test.file test.copy ; time diff -q test.file test.copy && echo diff true || echo diff false; time cmp -s test.file test.copy && echo cmp true || echo cmp false
100+0 records in
100+0 records out
104857600 bytes (105 MB) copied, 6.2564 s, 16.8 MB/s
Files test.file and test.copy differ

real 0m0.008s
user 0m0.008s
sys 0m0.000s
diff false

real 0m0.009s
user 0m0.007s
sys 0m0.001s
cmp false
cp: overwrite atest.copya? y

real 0m0.966s
user 0m0.447s
sys 0m0.518s
diff true

real 0m0.785s
user 0m0.211s
sys 0m0.573s
cmp true
[root@mypi shm]# pico /root/rwbscripts/utils/squish.sh

。

我跑了几次。在我使用的测试盒上，CMP-S的测试时间总是稍短一些。所以，如果您想使用cmp-s在两个文件之间执行操作…

1
2
3
4
5
6
7
8
9

identical (){
echo"$1" and"$2" are the same.
echo This is a function, you can put whatever you want in here.
}
different () {
echo"$1" and"$2" are different.
echo This is a function, you can put whatever you want in here, too.
}
cmp -s"$FILEA""$FILEB" && identical"$FILEA""$FILEB" || different"$FILEA""$FILEB"

。