How Can I Use Sort or another bash cmd To Get 1 line from all the lines if 1st 2nd and 3rd Field are The same
我有一个文件名为 file.txt
1 2 3 4 5 6 7 8 | $cat file.txt 1./abc/cde/go/ftg133333.jpg 2./abc/cde/go/ftg24555.jpg 3./abc/cde/go/ftg133333.gif 4./abt/cte/come/ftg24555.jpg 5./abc/cde/go/ftg133333.jpg 6./abc/cde/go/ftg24555.pdf |
我的目标:从第一个、第二个和第三个 PATH 相同且具有相同文件扩展名的行中仅获取一行。
请注意,每个 PATH 都由正斜杠"/"分隔。例如,在列表的第一行,第一个 PATH 是 abc,第二个 PATH 是 cde,第三个 PATH 是 go。
文件扩展名是 .jpg、.gif、.pdf... 始终位于行尾。
这是我尝试过的
1 | sort -u -t '/' -k1 -k2 -k3 |
我的想法
使用 / 作为分隔符给我每行 4 个字段。使用"-u"对它们进行排序将删除除 1 行之外的所有内容,其中包含唯一的第一、第二和第三个字段/路径。但显然,在这种情况下,我没有考虑 EXTENSION(jpg,pdf,gif)。
我的问题
如果第一个、第二个和第三个字段相同并且具有相同的 EXTENSION 使用"/"作为分隔符将其划分为字段,我需要一种方法来 grep 仅其中一行。我想将它输出到另一个文件,比如 file2.txt.
在 file2.txt 中,如何在每行的扩展名前添加一个单词"KALI",所以它看起来像 /abc/cde/go/ftg13333KALI.jpg 使用第 1 行作为文件中的示例.txt 以上。
期望的输出
1 2 3 4 | /abc/cde/go/ftg133333KALI.jpg /abt/cte/come/ftg24555KALI.jpg /abc/cde/go/ftg133333KALI.gif /abc/cde/go/ftg24555KALI.pdf |
评论
第 1,2 行
1 2 3 4 5 6 7 8 | $ awk '{ # using awk n=split($0,a,/\\//) # split by / to get all path components m=split(a[n],b,".") # split last by . to get the extension } m>1 && !seen[a[2],a[3],a[4],b[m]]++ { # if ext exists and is unique with 3 1st dirs for(i=2;i<=n;i++) # loop component parts and print printf"/%s%s",a[i],(i==n?ORS:"") }' file |
输出:
1 2 3 4 | /abc/cde/go/ftg133333.jpg /abc/cde/go/ftg133333.gif /abt/cte/come/ftg24555.jpg /abc/cde/go/ftg24555.pdf |
I
错过了
1 2 3 4 5 6 7 8 9 10 11 | $ awk '{ n=split($0,a,/\\//) m=split(a[n],b,".") } m>1&&!seen[a[2],a[3],a[4],b[m]]++ { for(i=2;i<n;i++) printf"/%s",a[i] for(i=1;i<=m;i++) printf"%s%s",(i==1?"/":(i==m?"KALI.":".")),b[i] print"" }' file |
输出:
1 2 3 4 | /abc/cde/go/ftg133333KALI.jpg /abc/cde/go/ftg133333KALI.gif /abt/cte/come/ftg24555KALI.jpg /abc/cde/go/ftg24555KALI.pdf |
另一个
1 2 3 4 5 6 | $ awk -F'[./]' '!a[$2,$3,$4,$NF]++' file /abc/cde/go/ftg133333.jpg /abc/cde/go/ftg133333.gif /abt/cte/come/ftg24555.jpg /abc/cde/go/ftg24555.pdf |
假定目录名称中不存在
使用 awk:
1 2 3 4 5 6 7 8 9 10 11 | $ awk -F/ '{ split($5, ext,"\\\\.") if (!(($2,$3,$4,ext[2]) in files)) files[$2,$3,$4,ext[2]]=$0 } END { for (f in files) { sub("\\\\.","KALI.", files[f]) print files[f] }}' input.txt /abt/cte/come/ftg24555KALI.jpg /abc/cde/go/ftg133333KALI.gif /abc/cde/go/ftg24555KALI.pdf /abc/cde/go/ftg133333KALI.jpg |