如何仅克隆Git存储库的子目录?

我有我的Git存储库,在根目录下有两个子目录:

/finisht/static

当这是在SVN中时,/finisht在一个地方签出,而/static在其他地方签出,如下所示:

svn co svn+ssh://admin@domain.example/home/admin/repos/finisht/static static

有没有办法用Git做到这一点?

1257421 次浏览

编辑:从Git 2.19开始,这终于成为可能,从这里可以看到回答

考虑投票支持这个答案。

注意:在Git 2.19中,只实现了客户端支持,服务器端支持仍然缺失,所以它只在克隆本地存储库时有效。还要注意,大型Git主机,例如GitHub,实际上并不使用Git服务器,他们使用自己的实现,所以即使支持出现在Git服务器中,这并不自动意味着它可以在Git主机上工作。(OTOH,因为他们不使用Git服务器,所以他们可以在Git服务器出现之前在自己的实现中更快地实现它。)


这在Git中是不可能的。

在Git中实现这样的东西将是一项巨大的努力,这意味着客户端存储库的完整性无法再得到保证。如果你有兴趣,可以在git邮件列表上搜索关于“稀疏克隆”和“稀疏获取”的讨论。

一般来说,Git社区的共识是,如果你有几个目录总是独立签出,那么这实际上是两个不同的项目,应该存在于两个不同的存储库中。你可以使用git子模块将它们粘合在一起。

如果您从未计划与从中克隆的存储库进行交互,您可以执行完整的git clone并使用

git filter-branch --subdirectory-filter <subdirectory>

这样,至少历史会被保存下来。

Git 1.7.0具有“稀疏签出”。请参阅git config手册页中的“core.sparse结帐”,git read-tree手册页中的“稀疏结帐”,以及git update-index手册页中的“跳过工作树位”。

接口不像SVN那样方便(例如,在初始克隆时无法进行稀疏校验),但是可以构建更简单接口的基本功能现在可用。

你要做的称为稀疏检验,该功能是在Git 1.7.0(2012年2月)中添加的。执行稀疏克隆的步骤如下:

mkdir <repo>cd <repo>git initgit remote add -f origin <url>

这将使用您的远程创建一个空存储库,并获取所有对象但不签出它们。然后执行:

git config core.sparseCheckout true

现在您需要定义要实际签出的文件/文件夹。这是通过在.git/info/sparse-checkout中列出它们来完成的,例如:

echo "some/dir/" >> .git/info/sparse-checkoutecho "another/sub/tree" >> .git/info/sparse-checkout

最后但并非最不重要的是,使用远程状态更新您的空repo:

git pull origin master

您现在将在文件系统上“签出”文件some/diranother/sub/tree(这些路径仍然存在),并且不存在其他路径。

你可能想看看扩展教程,你可能应该阅读官方的留档稀疏结帐读取树

作为函数:

function git_sparse_clone() (rurl="$1" localdir="$2" && shift 2
mkdir -p "$localdir"cd "$localdir"
git initgit remote add -f origin "$rurl"
git config core.sparseCheckout true
# Loops over remaining argsfor i; doecho "$i" >> .git/info/sparse-checkoutdone
git pull origin master)

用法:

git_sparse_clone "http://github.com/tj/n" "./local/location" "/bin"

请注意,这仍然会从服务器下载整个存储库-只是签出的大小减小了。目前无法仅克隆单个目录。但如果您不需要存储库的历史记录,您至少可以通过创建浅层克隆来节省带宽。有关如何组合浅层克隆和稀疏签出的信息,请参阅下面的乌丹丹的回答


从Git 2.25.0(2020年1月)开始,Git中添加了一个实验性的稀疏校验命令:

git sparse-checkout init# same as:# git config core.sparseCheckout true
git sparse-checkout set "A/B"# same as:# echo "A/B" >> .git/info/sparse-checkout
git sparse-checkout list# same as:# cat .git/info/sparse-checkout

I写了一个剧本用于从GitHub下载子目录。

用法:

python get_git_sub_dir.py path/to/sub/dir <RECURSIVE>

这个看起来更简单:

git archive --remote=<repo_url> <branch> <path> | tar xvf -

您可以组合稀疏检验浅克隆功能。浅克隆切断历史记录,稀疏检验仅提取与您的模式匹配的文件。

git init <repo>cd <repo>git remote add origin <url>git config core.sparsecheckout trueecho "finisht/*" >> .git/info/sparse-checkoutgit pull --depth=1 origin master

你需要至少1.9的git才能工作。我自己只在2.2.0和2.2.2中测试过。

这样你仍然可以推送,这是不可能的git archive

仅使用Git克隆子目录是不可能的,但以下是一些解决方法。

过滤分支

您可能希望重写存储库以看起来好像trunk/public_html/是其项目根,并丢弃所有其他历史记录(使用#1),尝试已经签出的分支:

git filter-branch --subdirectory-filter trunk/public_html -- --all

注意:--用于将Filter-分支选项与修订选项分开,--all用于重写所有分支和标签。包括原始提交时间或合并信息在内的所有信息都将是保存。此命令在refs/replace/命名空间中执行.git/info/grafts文件并引用,因此如果您定义了任何移植或替换refs,运行此命令将使它们永久化。

警告!重写的历史记录将对所有对象使用不同的对象名称,并且不会与原始分支收敛。您将无法轻松地在原始分支之上推送和分发重写的分支。如果您不知道完整的含义,请不要使用此命令,如果简单的单个提交就足以解决您的问题,请避免使用它。


稀疏结帐

以下是使用稀疏检验方法的简单步骤,它将稀疏地填充工作目录,因此您可以告诉Git工作目录中的哪些文件夹或文件值得查看。

  1. 像往常一样克隆存储库(--no-checkout是可选的):

    git clone --no-checkout git@foo/bar.gitcd bar

    如果您的存储库已经克隆,则可以跳过此步骤。

    提示:对于大型repos,请考虑浅克隆--depth 1)仅结帐最新版本或/仅结帐--single-branch

  2. 启用sparseCheckout选项:

    git config core.sparseCheckout true
  3. Specify folder(s) for sparse checkout (without space at the end):

    echo "trunk/public_html/*"> .git/info/sparse-checkout

    或编辑.git/info/sparse-checkout

  4. 检出分支(例如master):

    git checkout master

Now you should have selected folders in your current directory.

You may consider symbolic links if you've too many levels of directories or filtering branch instead.


对于从github只想下载文件/文件夹的其他用户,只需使用:

svn export <repo>/trunk/<folder>

e. g.

svn export https://github.com/lodash/lodash.com/trunk/docs

(是的,这里是svn。显然在2016年,您仍然需要svn来简单地下载一些github文件)

礼貌:从GitHub存储库下载单个文件夹或目录

重要-确保您更新了github URL并将/tree/master/替换为“/躯干/”。

作为bash脚本:

git-download(){folder=${@/tree\/master/trunk}folder=${folder/blob\/master/trunk}svn export $folder}

注释此方法下载文件夹,不会克隆/签出它。您无法将更改推送回存储库。另一方面,与稀疏签出或浅签出相比,这会导致较小的下载。

这是我为单个子目录稀疏签出的用例编写的外壳脚本

coSubDir.sh

localRepo=$1remoteRepo=$2subDir=$3

# Create local repository for subdirectory checkout, make it hidden to avoid having to drill down to the subfoldermkdir ./.$localRepocd ./.$localRepogit initgit remote add -f origin $remoteRepogit config core.sparseCheckout true
# Add the subdirectory of interest to the sparse checkout.echo $subDir >> .git/info/sparse-checkout
git pull origin master
# Create convenience symlink to the subdirectory of interestcd ..ln -s ./.$localRepo/$subDir $localRepo

git clone --filter from git 2.19现在可以在GitHub上使用(测试2021-01-14,git 2.30.0)

此选项是与远程协议的更新一起添加的,它确实可以防止从服务器下载对象。

例如,在这个最小的测试存储库中只克隆目录d1所需的对象:https://github.com/cirosantilli/test-git-partial-clone我可以这样做:

git clone \--depth 1  \--filter=blob:none  \--sparse \https://github.com/cirosantilli/test-git-partial-clone \;cd test-git-partial-clonegit sparse-checkout set d1

这是一个不那么最小和更现实的版本https://github.com/cirosantilli/test-git-partial-clone-big-small

git clone \--depth 1  \--filter=blob:none  \--sparse \https://github.com/cirosantilli/test-git-partial-clone-big-small \;cd test-git-partial-clone-big-smallgit sparse-checkout set small

该存储库包含:

  • 一个包含10个10MB文件的大目录
  • 一个小目录,包含1000个大小为一个字节的文件

所有内容都是伪随机的,因此是不可压缩的。

在我的36.4 Mbps互联网上克隆时间:

  • 满:24s
  • 部分:“瞬时”

不幸的是,还需要sparse-checkout部分。您也只能下载某些更容易理解的文件:

git clone \--depth 1  \--filter=blob:none  \--no-checkout \https://github.com/cirosantilli/test-git-partial-clone \;cd test-git-partial-clonegit checkout master -- d1

但由于某种原因,该方法一个接一个地下载文件很慢,除非目录中的文件很少,否则无法使用。

分析最小存储库中的对象

clone命令仅获得:

  • 一个单一的提交对象master分支的尖端
  • 存储库的所有4树对象
    • 提交的顶层目录
    • 这三个目录d1d2master

然后,git sparse-checkout set命令仅从服务器获取丢失的blob(文件):

  • d1/a
  • d1/b

更好的是,稍后GitHub可能会开始支持:

  --filter=blob:none \--filter=tree:0 \

其中#0来自Git 2.20将防止不必要的clone获取所有树对象,并允许它推迟到checkout。但是在我的2020-09-18测试中失败了:

fatal: invalid filter-spec 'combine:blob:none+tree:0'

大概是因为--filter=combine:复合过滤器(在Git 2.24中添加,由多个--filter暗示)尚未实现。

我观察了哪些对象被获取:

git verify-pack -v .git/objects/pack/*.pack

如上所述:如何在数据库中列出所有git对象?它并没有给我一个非常清楚的指示,每个对象到底是什么,但它确实说明了每个对象的类型(committreeblob),由于最小存储库中的对象很少,我可以毫不含糊地推断出每个对象是什么。

git rev-list --objects --all确实为树/blob的路径生成了更清晰的输出,但不幸的是,当我运行它时,它会获取一些对象,这使得很难确定获取的内容,如果有人有更好的命令,请告诉我。

待办事项找到GitHub公告,说明他们何时开始支持它。https://github.blog/2020-01-17-bring-your-monorepo-down-to-size-with-sparse-checkout/从2020-01-17已经提到--filter blob:none

git sparse-checkout

我认为这个命令是为了管理一个设置文件,上面写着“我只关心这些子树”,以便将来的命令只会影响这些子树。但这有点难以确定,因为当前的留档有点…稀疏;-)

它本身不会阻止获取blob。

如果这种理解是正确的,那么这将是对上述git clone --filter的一个很好的补充,因为如果您打算在部分克隆的存储库中执行git操作,它将防止无意中获取更多对象。

当我在Git 2.25.1上尝试时:

git clone \--depth 1 \--filter=blob:none \--no-checkout \https://github.com/cirosantilli/test-git-partial-clone \;cd test-git-partial-clonegit sparse-checkout init

它不起作用,因为init实际上获取了所有对象。

但是,在Git 2.28中,它没有按需获取对象。但是如果我这样做:

git sparse-checkout set d1

d1没有被提取和签出,即使这明确表示它应该:https://github.blog/2020-01-17-bring-your-monorepo-down-to-size-with-sparse-checkout/#sparse-checkout-and-partial-clones带有免责声明:

请留意部分克隆功能是否普遍可用[1]。

[1]:GitHub仍在内部评估此功能,同时它在少数几个存储库(包括本文中使用的示例)上启用。随着功能的稳定和成熟,我们将随时向您通报其进展。

所以,是的,目前很难确定,部分原因是GitHub是闭源的乐趣。但让我们继续关注它。

命令故障

服务器应配置为:

git config --local uploadpack.allowfilter 1git config --local uploadpack.allowanysha1inwant 1

命令分解:

  • --filter=blob:none跳过所有blob,但仍获取所有树对象

  • --filter=tree:0跳过不需要的树:https://www.spinics.net/lists/git/msg342006.html

  • --depth 1已经暗示了--single-branch,另见:如何在Git中克隆单个分支?

  • file://$(path)需要克服git clone协议诡计:如何浅克隆具有相对路径的本地git存储库?

  • --filter=combine:FILTER1+FILTER2是一次使用多个过滤器的语法,尝试传递--filter由于某种原因失败:“多个过滤器规格无法组合”。这是在Git 2.24中添加的,位于e987df5fe62b8b29be4cdcDeb3704681ada2b29e“list对象过滤器:实现复合过滤器”

    编辑:在Git 2.28上,我实验发现--filter=FILTER1 --filter FILTER2也有同样的效果,因为GitHub在2020-09-18还没有实现combine:,并抱怨fatal: invalid filter-spec 'combine:blob:none+tree:0'。哪个版本引入了待办事项?

--filter的格式记录在man git-rev-list上。

Git树上的文档:

在本地测试一下

以下脚本可复制地在本地生成https://github.com/cirosantilli/test-git-partial-clone存储库,执行本地克隆,并观察克隆的内容:

#!/usr/bin/env bashset -eu
list-objects() (git rev-list --all --objectsecho "master commit SHA: $(git log -1 --format="%H")"echo "mybranch commit SHA: $(git log -1 --format="%H")"git ls-tree mastergit ls-tree mybranch | grep mybranchgit ls-tree master~ | grep root)
# Reproducibility.export GIT_COMMITTER_NAME='a'export GIT_COMMITTER_EMAIL='a'export GIT_AUTHOR_NAME='a'export GIT_AUTHOR_EMAIL='a'export GIT_COMMITTER_DATE='2000-01-01T00:00:00+0000'export GIT_AUTHOR_DATE='2000-01-01T00:00:00+0000'
rm -rf server_repo local_repomkdir server_repocd server_repo
# Create repo.git init --quietgit config --local uploadpack.allowfilter 1git config --local uploadpack.allowanysha1inwant 1
# First commit.# Directories present in all branches.mkdir d1 d2printf 'd1/a' > ./d1/aprintf 'd1/b' > ./d1/bprintf 'd2/a' > ./d2/aprintf 'd2/b' > ./d2/b# Present only in root.mkdir 'root'printf 'root' > ./root/rootgit add .git commit -m 'root' --quiet
# Second commit only on master.git rm --quiet -r ./rootmkdir 'master'printf 'master' > ./master/mastergit add .git commit -m 'master commit' --quiet
# Second commit only on mybranch.git checkout -b mybranch --quiet master~git rm --quiet -r ./rootmkdir 'mybranch'printf 'mybranch' > ./mybranch/mybranchgit add .git commit -m 'mybranch commit' --quiet
echo "# List and identify all objects"list-objectsecho
# Restore master.git checkout --quiet mastercd ..
# Clone. Don't checkout for now, only .git/ dir.git clone --depth 1 --quiet --no-checkout --filter=blob:none "file://$(pwd)/server_repo" local_repocd local_repo
# List missing objects from master.echo "# Missing objects after --no-checkout"git rev-list --all --quiet --objects --missing=printecho
echo "# Git checkout fails without internet"mv ../server_repo ../server_repo.off! git checkout masterecho
echo "# Git checkout fetches the missing directory from internet"mv ../server_repo.off ../server_repogit checkout master -- d1/echo
echo "# Missing objects after checking out d1"git rev-list --all --quiet --objects --missing=print

github上游

Git v2.19.0中的输出:

# List and identify all objectsc6fcdfaf2b1462f809aecdad83a186eeec00f9c1fc5e97944480982cfc180a6d6634699921ee63ec7251a83be9a03161acde7b71a8fda9be19f4712862d67bce3c672fe2b9065f372726a11e57bade7eb64bf435a3e54c5208a1b70b7bcb0fc627463a75 d1308150e8fddde043f3dbbb8573abb6af1df96e63 d1/af70a17f51b7b30fec48a32e4f19ac15e261fd1a4 d1/b84de03c312dc741d0f2a66df7b2f168d823e122a d20975df9b39e23c15f63db194df7f45c76528bccb d2/a41484c13520fcbb6e7243a26fdb1fc9405c08520 d2/b7d5230379e4652f1b1da7ed1e78e0b8253e03ba3 master8b25206ff90e9432f6f1a8600f87a7bd695a24af master/masteref29f15c9a7c5417944cc09711b6a9ee51b01d8919f7a4ca4a038aff89d803f017f76d2b66063043 mybranch1b671b190e293aa091239b8b5e8c149411d00523 mybranch/mybranchc3760bb1a0ece87cdbaf9a563c77a45e30a4e30ea0234da53ec608b54813b4271fbf00ba5318b99f root93ca1422a8da0a9effc465eccbcb17e23015542d root/rootmaster commit SHA: fc5e97944480982cfc180a6d6634699921ee63ecmybranch commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec040000 tree b64bf435a3e54c5208a1b70b7bcb0fc627463a75    d1040000 tree 84de03c312dc741d0f2a66df7b2f168d823e122a    d2040000 tree 7d5230379e4652f1b1da7ed1e78e0b8253e03ba3    master040000 tree 19f7a4ca4a038aff89d803f017f76d2b66063043    mybranch040000 tree a0234da53ec608b54813b4271fbf00ba5318b99f    root
# Missing objects after --no-checkout?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4?8b25206ff90e9432f6f1a8600f87a7bd695a24af?41484c13520fcbb6e7243a26fdb1fc9405c08520?0975df9b39e23c15f63db194df7f45c76528bccb?308150e8fddde043f3dbbb8573abb6af1df96e63
# Git checkout fails without internetfatal: '/home/ciro/bak/git/test-git-web-interface/other-test-repos/partial-clone.tmp/server_repo' does not appear to be a git repositoryfatal: Could not read from remote repository.
Please make sure you have the correct access rightsand the repository exists.
# Git checkout fetches the missing directory from internetremote: Enumerating objects: 1, done.remote: Counting objects: 100% (1/1), done.remote: Total 1 (delta 0), reused 0 (delta 0)Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.remote: Enumerating objects: 1, done.remote: Counting objects: 100% (1/1), done.remote: Total 1 (delta 0), reused 0 (delta 0)Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.
# Missing objects after checking out d1?8b25206ff90e9432f6f1a8600f87a7bd695a24af?41484c13520fcbb6e7243a26fdb1fc9405c08520?0975df9b39e23c15f63db194df7f45c76528bccb

结论:来自d1/外部的所有blob都丢失了。例如,在检查d1/a后,0975df9b39e23c15f63db194df7f45c76528bccb,即d2/b不存在。

请注意,root/rootmybranch/mybranch也丢失了,但--depth 1将其从丢失文件列表中隐藏。如果您删除--depth 1,则它们会显示在丢失文件列表中。

我有一个梦想

这个功能可以彻底改变Git。

想象一下,在没有丑陋的第三方工具,如#0的情况下拥有企业在一个monorepo的所有代码库。

想象一下直接在存储库中存储巨大的blob,而无需任何丑陋的第三方扩展

想象一下,如果GitHub允许每个文件/目录元数据,例如星星和权限,那么您可以将所有个人物品存储在一个存储库中。

想象一下,如果子模块的处理方式与常规目录完全相同:只需请求树SHA和类似DNS的机制解析您的请求,首先查看您的本地#0,然后首先到更近的服务器(您企业的镜像/缓存)并最终在GitHub上。

我有一个梦想。

这将克隆特定文件夹并删除与之无关的所有历史记录。

git clone --single-branch -b {branch} git@github.com:{user}/{repo}.gitgit filter-branch --subdirectory-filter {path/to/folder} HEADgit remote remove origingit remote add origin git@github.com:{user}/{new-repo}.gitgit push -u origin master

我写了一个.gitconfig[alias]来执行“稀疏结帐”。检查出来(没有双关语):

在Windows上运行cmd.exe

git config --global alias.sparse-checkout "!f(){ [ $# -eq 2 ] && L=${1##*/} L=${L%.git} || L=$2; mkdir -p \"$L/.git/info\" && cd \"$L\" && git init --template= && git remote add origin \"$1\" && git config core.sparseCheckout 1; [ $# -eq 2 ] && echo \"$2\" >> .git/info/sparse-checkout || { shift 2; for i; do echo $i >> .git/info/sparse-checkout; done }; git pull --depth 1 origin master;};f"

否则:

git config --global alias.sparse-checkout '!f(){ [ $# -eq 2 ] && L=${1##*/} L=${L%.git} || L=$2; mkdir -p "$L/.git/info" && cd "$L" && git init --template= && git remote add origin "$1" && git config core.sparseCheckout 1; [ $# -eq 2 ] && echo "$2" >> .git/info/sparse-checkout || { shift 2; for i; do echo $i >> .git/info/sparse-checkout; done }; git pull --depth 1 origin master;};f'

用法

# Makes a directory ForStackExchange with Plug checked outgit sparse-checkout https://github.com/YenForYang/ForStackExchange Plug
# To do more than 1 directory, you have to specify the local directory:git sparse-checkout https://github.com/YenForYang/ForStackExchange ForStackExchange Plug Folder

为了方便和存储,git config命令被“缩小”,但这是扩展的别名:

# Note the --template= is for disabling templates.# Feel free to remove it if you don't have issues with them (like I did)# `mkdir` makes the .git/info directory ahead of time, as I've found it missing sometimes for some reasonf(){[ "$#" -eq 2 ] && L="${1##*/}" L=${L%.git} || L=$2;mkdir -p "$L/.git/info"&& cd "$L"&& git init --template=&& git remote add origin "$1"&& git config core.sparseCheckout 1;[ "$#" -eq 2 ]&& echo "$2" >> .git/info/sparse-checkout|| {shift 2;for i; doecho $i >> .git/info/sparse-checkout;done};git pull --depth 1 origin master;};f

使用Linux?并且只希望易于访问和清理工作树?而不会打扰机器上的其余代码。尝试符号链接

git clone https://github.com:{user}/{repo}.git ~/my-projectln -s ~/my-project/my-subfolder ~/Desktop/my-subfolder

测试

cd ~/Desktop/my-subfoldergit status

虽然我讨厌在处理git repos时实际必须使用svn:/我一直使用这个;

function git-scp() (URL="$1" && shift 1svn export ${URL/blob\/master/trunk})

这允许您从github url复制出来而无需修改。用法;

--- /tmp » git-scp https://github.com/dgraph-io/dgraph/blob/master/contrib/config/kubernetes/helm                                                                                                                  1 ↵A    helmA    helm/Chart.yamlA    helm/README.mdA    helm/values.yamlExported revision 6367.
--- /tmp » ls | grep helmPermissions Size User    Date Modified    Namedrwxr-xr-x     - anthony 2020-01-07 15:53 helm/

如果您实际上对目录的最新版本文件感兴趣,Github允许您将存储库下载为Zip文件,该文件不包含历史记录。所以下载速度要快得多。

只是为了澄清这里的一些很好的答案,许多答案中概述的步骤假设您已经在某个地方有一个远程存储库。

给定:现有的git存储库,例如git@github.com:some-user/full-repo.git,其中包含一个或多个您希望拉取存储库其余部分的独立的目录,例如名为app1app2的目录

假设您有一个如上所述的git存储库…

然后:您可以运行以下步骤从较大的存储库中提取只有特定目录:

mkdir app1cd app1git initgit remote add origin git@github.com:some-user/full-repo.gitgit config core.sparsecheckout trueecho "app1/" >> .git/info/sparse-checkoutgit pull origin master

我错误地认为稀疏签出选项必须在原始存储库上设置,但事实并非如此:您在从远程提取之前在本地定义您想要的目录。远程存储库不知道或关心您只想跟踪存储库的一部分。

希望这个解释对其他人有所帮助。

所以我尝试了这个步骤中的所有内容,但没有任何东西对我有用……事实证明,在Git的2.24版本(在回答这个问题时随附的那个)上,你不需要这样做

echo "wpm/*" >> .git/info/sparse-checkout

您只需要文件夹名称

wpm/*

简而言之,你这样做

git config core.sparsecheckout true

然后您编辑. git/info/稀疏结帐并在末尾添加文件夹名称(每行一个)和/*以获取子文件夹和文件

wpm/*

保存并运行签出命令

git checkout master

结果是我的存储库中的预期文件夹,没有别的如果这对你有用

上面有很多好主意和脚本。我情不自禁地将它们组合成一个带有帮助和错误检查的bash脚本:

#!/bin/bash
function help {printf "$1Clones a specific directory from the master branch of a git repository.
Syntax:$(basename $0) [--delrepo] repoUrl sourceDirectory [targetDirectory]
If targetDirectory is not specified it will be set to sourceDirectory.Downloads a sourceDirectory from a Git repository into targetdirectory.If targetDirectory is not specified, a directory named after `basename sourceDirectory`will be created under the current directory.
If --delrepo is specified then the .git subdirectory in the clone will be removed after cloning.

Example 1:Clone the tree/master/django/conf/app_template directory from the master branch ofgit@github.com:django/django.git into ./app_template:
\$ $(basename $0) git@github.com:django/django.git django/conf/app_template
\$ ls app_template/django/conf/app_template/__init__.py-tpl  admin.py-tpl  apps.py-tpl  migrations  models.py-tpl  tests.py-tpl  views.py-tpl

Example 2:Clone the django/conf/app_template directory from the master branch ofhttps://github.com/django/django/tree/master/django/conf/app_template into ~/test:
\$ $(basename $0) git@github.com:django/django.git django/conf/app_template ~/test
\$ ls test/django/conf/app_template/__init__.py-tpl  admin.py-tpl  apps.py-tpl  migrations  models.py-tpl  tests.py-tpl  views.py-tpl
"exit 1}
if [ -z "$1" ]; then help "Error: repoUrl was not specified.\n"; fiif [ -z "$2" ]; then help "Error: sourceDirectory was not specified."; fi
if [ "$1" == --delrepo ]; thenDEL_REPO=trueshiftfi
REPO_URL="$1"SOURCE_DIRECTORY="$2"if [ "$3" ]; thenTARGET_DIRECTORY="$3"elseTARGET_DIRECTORY="$(basename $2)"fi
echo "Cloning into $TARGET_DIRECTORY"mkdir -p "$TARGET_DIRECTORY"cd "$TARGET_DIRECTORY"git initgit remote add origin -f "$REPO_URL"git config core.sparseCheckout true
echo "$SOURCE_DIRECTORY" > .git/info/sparse-checkoutgit pull --depth=1 origin master
if [ "$DEL_REPO" ]; then rm -rf .git; fi

这里有很多很棒的回复,但我想补充的是,在Windows Sever2016上使用目录名称周围的报价对我来说是失败的。这些文件根本没有被下载。

而不是

"mydir/myfolder"

我不得不用

mydir/myfolder

此外,如果您想简单地下载所有子目录,只需使用

git sparse-checkout set *

这就是我所做的

git initgit sparse-checkout initgit sparse-checkout set "YOUR_DIR_PATH"git remote add origin https://github.com/AUTH/REPO.gitgit pull --depth 1 origin <SHA1_or_BRANCH_NAME>

简单的音符

  • 稀疏校验

  • git sparse-checkout init许多文章会告诉你设置git sparse-checkout init --cone如果我添加--cone会得到一些我不想要的文件。

  • git sparse-checkout set "...".git\info\sparse-checkout文件内容设置为...

    假设您不想使用此命令。相反,您可以打开git\info\sparse-checkout然后进行编辑。


示例

假设我想得到2文件夹全文仓库大小>10GB↑(包括git),如下总大小<2MB

  1. chrome/Common/扩展名/api
  2. chrome/通用/扩展/权限
git initgit sparse-checkout init// git sparse-checkout set "chrome/common/extensions/api/"start .git\info\sparse-checkout   👈 open the "sparse-checkut" file
/* .git\info\sparse-checkout  for example you can input the contents as below 👇chrome/common/extensions/api/!chrome/common/extensions/api/commands/     👈 ! unwanted : https://www.git-scm.com/docs/git-sparse-checkout#_full_pattern_set!chrome/common/extensions/api/devtools/chrome/common/extensions/permissions/*/
git remote add origin https://github.com/chromium/chromium.gitstart .git\config
/* .git\config[core]repositoryformatversion = 1filemode = falsebare = falselogallrefupdates = truesymlinks = falseignorecase = true[extensions]worktreeConfig = true[remote "origin"]url = https://github.com/chromium/chromium.gitfetch = +refs/heads/*:refs/remotes/Github/*partialclonefilter = blob:none  // 👈 Add this line, This is important. Otherwise, your ".git" folder is still large (about 1GB)*/git pull --depth 1 origin 2d4a97f1ed2dd875557849b4281c599a7ffaba03// or// git pull --depth 1 origin master

  • partialclonefilter = blob:none

    我知道添加这一行,因为我知道:git clone --filter=blob:none它会写这一行。

git版本:git version 2.29.2.windows.3

您仍然可以使用svn

svn export https://admin@domain.example/home/admin/repos/finisht/static static --force

到“git clone”这个子目录,然后到“git pull”这个子目录。

(它不是为了提交和推送。)

德吉特复制git存储库。当你运行德吉特时一些用户/一些存储库,它会找到最新的提交https://github.com/some-user/some-repo并下载相关的tar如果没有,则将文件保存到~/. degit/ath-user/ath-repo/commithash.tar.gz已经在本地存在。(这比使用git clone快得多,因为你没有下载整个git历史记录。)

degit <https://github.com/user/repo/subdirectory> <output folder>

了解更多https://www.npmjs.com/package/degit

  • 如果你想clone

    git clone --no-checkout <REPOSITORY_URL>cd <REPOSITORY_NAME>
    1. 现在设置您希望拉入工作目录的特定文件/目录:
      git sparse-checkout set <PATH_TO_A_SPECIFIC_DIRECTORY_OR_FILE_TO_PULL>
    2. 之后,你应该重置你的工作目录到你想要拉的提交。

      例如,我们将其重置为默认的origin/master的HEAD提交。

      git reset --hard HEAD
  • 如果你想git init然后remote add

    git initgit remote add origin <REPOSITORY_URL>
    1. 现在设置您希望拉入工作目录的特定文件/目录:
      git sparse-checkout set <PATH_TO_A_SPECIFIC_DIRECTORY_OR_FILE_TO_PULL>
    2. 拉取最后一次提交:
      git pull origin master

注:

如果您想在工作目录中添加另一个目录/文件,您可以这样做:

git sparse-checkout add <PATH_TO_ANOTHER_SPECIFIC_DIRECTORY_OR_FILE_TO_PULL>

如果您想将所有存储库添加到工作目录,请这样做:

git sparse-checkout add *

如果你想清空工作目录,这样做:

git sparse-checkout set empty

如果需要,您可以通过运行以下命令查看您指定的跟踪文件的状态:

git status

如果您想退出稀疏模式并克隆所有存储库,您应该运行:

git sparse-checkout set *git sparse-checkout set initgit sparse-checkout set disable

不知道有没有人成功拉取了特定目录,我的经验是这样的:git clone--filter=blob:没有--monle-分支,下载对象时立即取消,输入repo,然后git检出来源/主

,忽略错误(sha1),输入dir,对每个子目录重复检出(使用new dir)。通过这种方式,我设法快速获取了源文件

它为我工作-(git版本2.35.1)

git initgit remote add origin <YourRepoUrl>git config core.sparseCheckout truegit sparse-checkout set <YourSubfolderName>git pull origin <YourBranchName>
git init <repo>cd <repo>git remote add origin <url>git config core.sparsecheckout trueecho "<path you want to clone>/*" >> .git/info/sparse-checkoutgit pull --depth=1 origin <branch you want to fetch>

从这个回购仅克隆捷运文件夹的示例

git init MyFoldercd MyFoldergit remote add origin git@github.com:android/compose-samples.gitgit config core.sparsecheckout trueecho "Jetsurvey/*" >> .git/info/sparse-checkoutgit pull --depth=1 origin main

对于macOS用户

对于使用ssh克隆Repos的zsh用户(特别是macOS用户),我只是根据@Ciro Santilli的答案创建一个zsh命令:

需求:git的版本很重要。由于--sparse选项,它在2.25.1上不起作用。尝试将您的git升级到最新版本。(例如测试2.36.1

示例用法:

git clone git@github.com:google-research/google-research.git etcmodel

代码:

function gitclone {readonly repo_root=${1?Usage: gitclone repo.git sub_dir}readonly repo_sub=${2?Usage: gitclone repo.git sub_dir}echo "-- Cloning $repo_root/$repo_sub"git clone \--depth 1 \--filter=tree:0 \--sparse \$repo_root \;repo_folder=${repo_root#*/}repo_folder=${repo_folder%.*}cd $repo_foldergit sparse-checkout set $repo_subcd -}

gitclone "$@"

2022答案

我不知道为什么这个问题有这么多复杂的答案。通过将repo稀疏克隆到您想要的文件夹,可以轻松完成。

  1. 导航到要克隆子目录的文件夹。
  2. 打开cmd并运行以下命令。
  3. git clone --filter=blob:none --sparse %your-git-repo-url%
  4. git sparse-checkout add %subdirectory-to-be-cloned%
  5. cd %your-subdirectory%

瞧!现在您只克隆了您想要的子目录!

解释-这些命令到底在做什么?

git clone --filter=blob:none --sparse %your-git-repo-url%

在上面的命令中,

  • --filter=blob:none=>您告诉git您只想克隆元数据文件。这样git就可以从远程收集基本分支详细信息和其他元数据,这将确保您将来从原始结帐顺利。
  • --sparse=>告诉git这是一个稀疏克隆。在这种情况下,Git只会签出根目录。

现在git被告知元数据并准备签出您想要使用的任何子目录/文件。

git sparse-checkout add gui-workspace ==> Checkout folder
git sparse-checkout add gui-workspace/assets/logo.png ==> Checkout a file

有一个包含多个子目录的大型存储库并且您并不总是处理所有子目录时,稀疏克隆特别有用。

此外,现在在这个部分克隆的存储库中,您可以像往常一样继续结帐和工作。所有这些命令都可以完美地工作。

git switch -c  %new-branch-name% origin/%parent-branch-name% (or) git checkout -b %new-branch-name% origin/%parent-branch-name%git commit -m "Initial changes in sparse clone branch"git push origin %new-branch-name%

@Chronial's anwser不再适用于最近的版本,但它是一个有用的anwser,因为它提出了一个脚本。

鉴于我收集的信息以及我只想签出分支的子目录的事实,我创建了以下shell函数。它仅获取所提供目录的分支中最新版本的浅表副本。

function git_sparse_clone_branch() (rurl="$1" localdir="$2" branch="$3" && shift 3
git clone "$rurl" --branch "$branch" --no-checkout "$localdir" --depth 1  # limit historycd "$localdir"
# git sparse-checkout init --cone  # fetch only root file
# Loops over remaining argsfor i; dogit sparse-checkout set "$i"done
git checkout "$branch")

所以例子使用:

git_sparse_clone_branch git@github.com:user/repo.git localpath branch-to-clone path1_to_fetch path2_to_fetch

在我的情况下,克隆是“只有”23MB,而完整的克隆是385MB。

使用git版本2.36.1测试。

(扩展此回答

在特定标签中克隆子目录

如果您想克隆特定标记的特定子目录,您可以按照以下步骤操作。

我在#1标签中克隆了cxf github repo的distribution/src/main/release/samples/子目录。

注意:如果您尝试只克隆上述存储库,您会发现它非常大。下面的命令仅克隆所需的内容。

git clone --depth 1 --filter=blob:none --sparse https://github.com/apache/cxfcd cxf/git sparse-checkout set distribution/src/main/release/samples/git fetch --depth 1 origin cxf-3.5.4# This is the hash on which the tag points, however using the tag does not work.git switch --detach 3ef4fde

在特定分支中克隆子目录

我在#1分支中克隆了cxf github repo的distribution/src/main/release/samples/子目录。

git clone --depth 1 --filter=blob:none --sparse https://github.com/apache/cxf --branch 2.6.x-fixescd cxf/git sparse-checkout set distribution/src/main/release/samples/