如何递归地找到一个目录中最新修改的文件?

在进行递归调用时,ls似乎没有正确地对文件进行排序:

ls -altR . | head -n 3

如何在目录(包括子目录)中找到最近修改的文件?

255416 次浏览
find . -type f -printf '%T@ %p\n' \
| sort -n | tail -1 | cut -f2- -d" "

对于一个巨大的树,sort可能很难将所有内容都保存在内存中。

%T@像unix时间戳一样给出修改时间,sort -n按数字排序,tail -1取最后一行(最高时间戳),cut -f2 -d" "从输出中切掉第一个字段(时间戳)。

编辑:就像-printf可能只在gnu中使用一样,stat -c的实际用法也是如此。虽然在BSD上也可以做同样的事情,但格式化的选项是不同的(似乎是-f "%m %N")

我错过了复数的部分;如果你想要更多的最新文件,只需要增加tail参数。

这给出了一个排序的列表:

find . -type f -ls 2>/dev/null | sort -M -k8,10 | head -n5

通过在sort命令中添加'-r'来颠倒顺序。如果你只想要文件名,在'| head'之前插入"awk '{print $11}' |"

你可以使用awk只打印修改时间最长的结果(在unix时间下),而不是对结果排序并只保留最后修改的结果:

find . -type f -printf "%T@\0%p\0" | awk '
{
if ($0>max) {
max=$0;
getline mostrecent
} else
getline
}
END{print mostrecent}' RS='\0'

如果文件数量足够大,这应该是解决问题的更快方法。

我已经使用了NUL字符(即。'\0'),因为从理论上讲,文件名可以包含任何字符(包括空格和换行符)。

如果你的系统中没有这样病态的文件名,你也可以使用换行符:

find . -type f -printf "%T@\n%p\n" | awk '
{
if ($0>max) {
max=$0;
getline mostrecent
} else
getline
}
END{print mostrecent}' RS='\n'

此外,这也适用于mawk。

@plundra的回答之后,这里是BSD和OS X版本:

find . -type f -print0 \
| xargs -0 stat -f "%m %N" \
| sort -rn | head -1 | cut -f2- -d" "

如果在每个文件上单独运行stat会变慢,你可以使用xargs来加快速度:

find . -type f -print0 | xargs -0 stat -f "%m %N" | sort -n | tail -1 | cut -f2- -d" "

这将递归地将当前目录中所有目录的修改时间更改为每个目录中的最新文件:

for dir in */; do find $dir -type f -printf '%T@ "%p"\n' | sort -n | tail -1 | cut -f2- -d" " | xargs -I {} touch -r {} $dir; done

我费了好大劲才找到Solaris 10下最后一个修改过的文件。find没有printf选项,而且stat不可用。我发现下面这个方法对我来说很管用:

find . -type f | sed 's/.*/"&"/' | xargs ls -E | awk '{ print $6," ",$7 }' | sort | tail -1

要显示文件名,请使用

find . -type f | sed 's/.*/"&"/' | xargs ls -E | awk '{ print $6," ",$7," ",$9 }' | sort | tail -1

解释

  • find . -type f查找并列出所有文件
  • sed 's/.*/"&"/'将路径名包装在引号中以处理空白
  • xargs ls -E将带引号的路径发送给ls-E选项确保返回完整的时间戳(格式year-month-day hour-minute-seconds-nanoseconds)
  • awk '{ print $6," ",$7 }'只提取日期和时间
  • awk '{ print $6," ",$7," ",$9 }'提取日期、时间和文件名
  • sort返回按日期排序的文件
  • tail -1只返回最后修改的文件

在Ubuntu 13上,下面的程序可以做到这一点,可能更快一点,因为它颠倒了排序,使用'head'而不是'tail',减少了工作量。使用实例显示树中最新的11个文件。

找到。类型f printf“% T@ % p \ n”排序- n - r | |头-11 | - f2 - - d”“| sed - e ' s ^。/,,' | xargs ls -U -l

这给出了一个完整的ls列表,没有重新排序,并省略了恼人的'。'find'会显示每个文件名。

或者,作为bash函数:

treecent () {
local numl
if [[ 0 -eq $# ]] ; then
numl=11   # Or whatever default you want.
else
numl=$1
fi
find . -type f -printf '%T@ %p\n' | sort -n -r | head -${numl} |  cut -f2- -d" " | sed -e 's,^\./,,' | xargs ls -U -l
}

尽管如此,大部分工作还是由plundra最初的解决方案完成的。谢谢plundra。

这似乎工作得很好,即使是子目录:

find . -type f | xargs ls -ltr | tail -n 1

如果文件太多,细化查找。

我发现上面的命令很有用,但对于我的情况,我需要看到文件的日期和时间,以及我有一个问题,几个文件在名称中有空格。 这是我的工作方案。

find . -type f -printf '%T@ %p\n' | sort -n | tail -1 | cut -f2- -d" " | sed 's/.*/"&"/' | xargs ls -l

我更喜欢这个,它更短:

find . -type f -print0|xargs -0 ls -drt|tail -n 1

这个简单的cli也可以工作:

ls -1t | head -1

您可以将-1更改为您想要列出的文件数量

显示带有人类可读时间戳的最新文件:

find . -type f -printf '%TY-%Tm-%Td %TH:%TM: %Tz %p\n'| sort -n | tail -n1

结果如下所示:

2015-10-06 11:30: +0200 ./foo/bar.txt

若要显示更多文件,请将-n1替换为更高的数字

我也遇到过同样的问题。我需要递归地找到最近的文件。花了大约50分钟才找到。

这里有一个小脚本来更快地完成它:

#!/bin/sh


CURRENT_DIR='.'


zob () {
FILE=$(ls -Art1 ${CURRENT_DIR} | tail -n 1)
if [ ! -f ${FILE} ]; then
CURRENT_DIR="${CURRENT_DIR}/${FILE}"
zob
fi
echo $FILE
exit
}
zob

它是一个递归函数,获取目录中最近修改的项。如果该项是一个目录,则递归调用该函数并搜索该目录,等等。

下面的命令在Solaris上运行:

find . -name "*zip" -type f | xargs ls -ltr | tail -1

我一直在使用类似的东西,以及最近修改的文件的top-k列表。对于大型目录树,它可以是更快地避免排序。如果是最近修改最多的文件:

find . -type f -printf '%T@ %p\n' | perl -ne '@a=split(/\s+/, $_, 2); ($t,$f)=@a if $a[0]>$t; print $f if eof()'

在一个包含170万个文件的目录中,我在3.4秒内获得了最新的一个文件,与使用排序的25.5秒解决方案相比,速度提高了7.5倍。

我为这个问题写了一个pypi/github包,因为我也需要一个解决方案。

https://github.com/bucknerns/logtail

安装:

pip install logtail

用法:尾部更改文件

logtail <log dir> [<glob match: default=*.log>]

用法2:在编辑器中打开最近更改的文件

editlatest <log dir> [<glob match: default=*.log>]

使用find - with nice &快速时间戳

下面介绍如何查找并列出带有子目录的目录中最新修改的文件。时间格式可以自定义。

$ find . -type f -not -path '*/\.*' -printf '%TY-%Tm-%Td %TH:%TM %Ta %p\n' |sort -nr |head -n 10

结果

处理文件名中的空格非常好-不是说这些应该被使用!

2017-01-25 18:23 Wed ./indenting/Shifting blocks visually.mht
2016-12-11 12:33 Sun ./tabs/Converting tabs to spaces.mht
2016-12-02 01:46 Fri ./advocacy/2016.Vim or Emacs - Which text editor do you prefer?.mht
2016-11-09 17:05 Wed ./Word count - Vim Tips Wiki.mht

更多的

更多的 find galore下面的链接。

我发现以下内容更简短,输出可解释性更强:

find . -type f -printf '%TF %TT %p\n' | sort | tail -1

考虑到标准化ISO格式datetimes的固定长度,字典排序是很好的,我们不需要在排序上使用-n选项。

如果你想再次删除时间戳,你可以使用:

find . -type f -printf '%TFT%TT %p\n' | sort | tail -1 | cut -f2- -d' '

查询/target_directory目录下的所有子目录下,在过去60分钟内被修改过的文件。

$ find /target_directory -type f -mmin -60

要查找最近修改的文件,按更新时间的相反顺序排序(即,最近更新的文件在前面):

$ find /etc -type f -printf '%TY-%Tm-%Td %TT %p\n' | sort -r

在使用基于__abc0的解决方案多年后,我发现自己希望能够排除像.git这样的目录。

我切换到这个基于__abc0的解决方案。把这个放在~/bin/findlatest中:

#!/bin/sh
# Finds most recently modified files.
rsync -rL --list-only "$@" | grep -v '^d' | sort -k3,4r | head -5

现在findlatest .将列出最近修改的5个文件,而findlatest --exclude .git .将列出.git中不包括的5个文件。

这是通过利用一些很少使用的rsync功能来实现的:如果只指定了一个源参数[to rsync]而没有指定目标,则文件将以类似ls -l" (rsync手册页)。

与基于rsync的备份工具结合使用时,接受rsync参数的能力非常有用。例如,我使用rsnapshot,我用rsnapshot.conf行备份了一个应用程序目录:

backup  /var/atlassian/application-data/jira/current/   home    +rsync_long_args=--archive --filter="merge /opt/atlassian/jira/current/backups/rsync-excludes"

rsync-excludes列出了我不想备份的目录:

- log/
- logs/
- analytics-logs/
- tmp/
- monitor/*.rrd4j

我现在可以看到最新的文件,将备份:

findlatest /var/atlassian/application-data/jira/current/ --filter="merge /opt/atlassian/jira/current/backups/rsync-excludes"