从git/GitHub's历史中删除文件夹及其内容

我在我的GitHub账户上开发一个存储库,这是我偶然发现的一个问题。

  • Node.js项目中有一个文件夹,里面安装了一些npm包
  • 这些包在node_modules文件夹中
  • 将该文件夹添加到git存储库,并将代码推送到github(当时并没有考虑npm部分)
  • 意识到您实际上并不需要将该文件夹作为代码的一部分
  • 删除了那个文件夹,推送了它

在那个实例中,总git回购的大小大约是6 mb,而实际的代码(除了那个文件夹)只大约是300 KB

现在我在寻找的是一种方法,从git的历史记录中去除该包文件夹的细节,这样如果有人克隆它,他们就不必下载6mb的历史记录,因为他们最后一次提交时得到的唯一实际文件将是300KB。

我寻找了可能的解决方案,并尝试了这两种方法

Gist似乎在运行脚本后工作,它显示它摆脱了那个文件夹,之后它显示50个不同的提交被修改。但它不让我输入那个代码。当我试图推它时,它说Branch up to date,但显示50个提交被修改在git status上。另外两种方法也不起作用。

现在,尽管它显示它摆脱了该文件夹的历史记录,当我在本地主机上检查该回购的大小时,它仍然在6MB左右。(我也删除了__abc0文件夹,但没有看到回购大小的变化)。

我想要澄清的是,如果有一种方法不仅摆脱提交历史(这是我认为发生的唯一一件事),而且那些文件git保持假设一个想要回滚。

让我们说一个解决方案是提出了这个,并应用于我的本地主机,但不能复制到GitHub回购,是否有可能克隆该回购,回滚到第一次提交执行技巧,并推动它(或者这意味着git仍然会有所有这些提交的历史?——又名。6 mb)。

我在这里的最终目标基本上是找到从git中删除文件夹内容的最佳方法,这样用户就不必下载6MB的东西,并且仍然可能有其他从未接触过modules文件夹的提交(这几乎是所有的)。

我该怎么做呢?

165658 次浏览

WARNING: git filter-branch is no longer official recommended。官方推荐使用git-filter-repo;详见André Anjos的答案


如果你在这里复制粘贴代码:

这是一个从历史记录中删除node_modules的例子

git filter-branch --tree-filter "rm -rf node_modules" --prune-empty HEAD
git for-each-ref --format="%(refname)" refs/original/ | xargs -n 1 git update-ref -d
echo node_modules/ >> .gitignore
git add .gitignore
git commit -m 'Removing node_modules from git history'
git gc
git push origin master --force

git实际上做了什么:

第一行迭代HEAD(当前分支)上的所有引用(--tree-filter),运行命令rm -rf node_modules。这个命令删除node_modules文件夹(-r,没有-rrm不会删除文件夹),没有给用户提示(-f)。添加的--prune-empty递归删除无用的(不改变任何东西)提交。

第二行删除了对旧分支的引用。

其余的命令相对简单。

完整的复制粘贴配方,只需在注释中添加命令(用于复制粘贴解决方案),测试后:

git filter-branch --tree-filter 'rm -rf node_modules' --prune-empty HEAD
echo node_modules/ >> .gitignore
git add .gitignore
git commit -m 'Removing node_modules from git history'
git gc
git push origin master --force

在此之后,您可以从.gitignore中删除“node_modules/”行

我发现在其他答案中使用的--tree-filter选项可能非常慢,特别是在具有大量提交的大型存储库上。

下面是我使用--index-filter选项从git历史记录中完全删除一个目录的方法,它运行得更快:

# Make a fresh clone of YOUR_REPO
git clone YOUR_REPO
cd YOUR_REPO


# Create tracking branches of all branches
for remote in `git branch -r | grep -v /HEAD`; do git checkout --track $remote ; done


# Remove DIRECTORY_NAME from all commits, then remove the refs to the old commits
# (repeat these two commands for as many directories that you want to remove)
git filter-branch --index-filter 'git rm -rf --cached --ignore-unmatch DIRECTORY_NAME/' --prune-empty --tag-name-filter cat -- --all
git for-each-ref --format="%(refname)" refs/original/ | xargs -n 1 git update-ref -d


# Ensure all old refs are fully removed
rm -Rf .git/logs .git/refs/original


# Perform a garbage collection to remove commits with no refs
git gc --prune=all --aggressive


# Force push all branches to overwrite their history
# (use with caution!)
git push origin --all --force
git push origin --tags --force

你可以在gc之前和之后检查存储库的大小:

git count-objects -vH

除了流行的答案以上之外,我想添加一些关于__abc1 -系统的注意事项。命令

git filter-branch --tree-filter 'rm -rf node_modules' --prune-empty HEAD
  • 工作完美没有任何修改!因此,你不能使用Remove-Itemdel或其他任何东西来代替rm -rf

  • 如果你需要指定一个文件或目录的路径,使用斜杠,如./path/to/node_modules

我发现最好和最准确的方法是下载bfg.jar文件: https://rtyley.github.io/bfg-repo-cleaner/ < / p >

然后执行如下命令:

git clone --bare https://project/repository project-repository
cd project-repository
java -jar bfg.jar --delete-folders DIRECTORY_NAME
git reflog expire --expire=now --all && git gc --prune=now --aggressive
git push --mirror https://project/new-repository

如果你想删除文件,那么使用delete-files选项:

java -jar bfg.jar --delete-files *.pyc

我在windows上使用git删除了旧c#项目中的bin和obj文件夹。小心

git filter-branch --tree-filter "rm -rf bin" --prune-empty HEAD

它通过删除git install文件夹中的usr/bin文件夹来破坏git安装的完整性。

对于Windows用户,请注意使用"而不是' 还增加了-f,如果已经有另一个备份,则强制执行该命令
git filter-branch -f --tree-filter "rm -rf FOLDERNAME" --prune-empty HEAD
git for-each-ref --format="%(refname)" refs/original/ | xargs -n 1 git update-ref -d
echo FOLDERNAME/ >> .gitignore
git add .gitignore
git commit -m "Removing FOLDERNAME from git history"
git gc
git push origin master --force

似乎这个问题的最新答案是直接使用filter-branch(至少git本身不再推荐它了),并将这项工作推迟到外部工具。特别地,目前建议使用git-filter-repo。该工具提供参数的作者解释了为什么直接使用filter-branch会导致问题。

上面用于从历史记录中删除dir的大多数多行脚本可以重写为:

git filter-repo --path dir --invert-paths

显然,这个工具比这更强大。你可以通过作者、电子邮件、引用名等来应用过滤器(全员出动)。此外,它是。安装很容易——它是以各种格式分发

对于复印机(来自在这里):

git filter-repo --invert-paths --path PATH-TO-YOUR-FILE-WITH-SENSITIVE-DATA
echo "YOUR-FILE-WITH-SENSITIVE-DATA" >> .gitignore
git add .gitignore
git commit -m "Add YOUR-FILE-WITH-SENSITIVE-DATA to .gitignore"
git push origin --force --all