如何从git存储库中稀疏签出单个文件?

我如何从一个git回购签出一个文件?

693500 次浏览

首先使用-n选项和——depth 1选项克隆repo,前者抑制所有文件的默认签出,后者意味着它只获取每个文件的最新修订

git clone -n git://path/to/the_repo.git --depth 1

然后签出你想要的文件,就像这样:

cd the_repo
git checkout HEAD name_of_file

这听起来像是你试图从集中式版本控制中继承一个想法,而git本质上不是这样的——它是分布式的。如果你想使用git存储库,你可以克隆它。然后,工作树的内容是所有,历史记录是所有(好吧,至少是当前分支顶端的所有内容),而不仅仅是单个文件或单个提交的快照。

 git clone /path/to/repo
git clone git://url/of/repo
git clone http://url/of/repo

在git中,你在更新文件之前不会“签出”文件 -这似乎是你所追求的。

许多系统,如clearcase, csv等,都要求您在对文件进行更改之前“签出”文件。Git不需要这个。克隆存储库,然后在存储库的本地副本中进行更改。

一旦你更新了文件,你可以做:

git status

查看修改了哪些文件。你首先添加你想要提交给index的对象(index就像一个要签入的列表):

git add .

git add blah.c

然后执行git status将显示哪些文件被修改,哪些文件在index中准备提交或签入。

要将文件提交到存储库副本,请执行以下操作:

git commit -a -m "commit message here"

参见# EYZ0网站获得手册和指南的链接。

最初,我在2012年提到了<强> # EYZ0 < / >强(参见杰瑞德福赛斯回答罗伯特骑士回答),因为git1.7.9.5(2012年3月)保罗布兰南回答:

git archive --format=tar --remote=origin HEAD:path/to/directory -- filename | tar -O -xf -
但是:在2013年,这已经不可能了用于远程https://github.com url.
参见旧页面“我可以存档存储库吗?

当前(2018)页面“关于GitHub上的内容和数据归档”建议使用GHTorrentGH存档等第三方服务。


所以你也可以处理本地拷贝/克隆:

如果您有这个答案中提到的裸存储库的本地副本,您也可以执行以下操作,

git --no-pager --git-dir /path/to/bar/repo.git show branch:path/to/file >file

或者你必须首先克隆回购,这意味着你得到完整的历史: -在.git回购中 -在工作树中

  • 但后来你可以做一个稀疏检出(如果你使用Git1.7+),:
    • 启用稀疏签出选项(git config core.sparsecheckout true)
    • .git/info/sparse-checkout文件中添加您想要看到的内容
    • 重新读取工作树以只显示您需要的内容
    • 李< / ul > < / >

    要重新阅读工作树:

    $ git read-tree -m -u HEAD
    

    这样,您就得到了一个工作树,其中精确地包含了您想要的内容(即使它只有一个文件)。


    理查德·戈麦斯 (在评论中)指向“我如何克隆,获取或稀疏签出一个目录或目录列表从git存储库?

    避免下载历史记录的bash函数,它检索单个分支并检索所需的文件或目录列表。

在GIT 1.7.2.2中工作

例如,您有一个远程some_remote,分支branch1branch32

所以要签出一个特定的文件,你可以调用这些命令:

git checkout remote/branch path/to/file

举个例子,大概是这样的

git checkout some_remote/branch32 conf/en/myscript.conf
git checkout some_remote/branch1 conf/fr/load.wav

这个检出命令将整个文件结构conf/en和conf/fr复制到当前目录,在这里您调用这些命令(当然,我假设您在之前的某个时候运行了git init)

Git checkout branch_or_version——path/file

例如:# EYZ0

如果你已经有了一个git回购的副本,你可以使用git log签出一个文件的版本来找出哈希id(例如3cdc61015724f9965575ba954c8cd4232c8b42e4),然后你只需输入:

git checkout hash-id path-to-file

下面是一个实际的例子:

git checkout 3cdc61015724f9965575ba954c8cd4232c8b42e4 /var/www/css/page.css
通常不可能只从git下载一个文件,而不像第一个答案中建议的那样下载整个存储库。 这是因为Git不像你想的那样存储文件(像CVS/SVN那样),而是根据项目的整个历史生成它们

但在特定情况下有一些变通办法。下面是userprojectbranchfilename的占位符示例。

GitHub

wget https://raw.githubusercontent.com/user/project/branch/filename

GitLab

wget https://gitlab.com/user/project/raw/branch/filename

GitWeb

如果你正在使用服务器上的Git - GitWeb,那么你可以在示例中尝试(将其更改为正确的路径):

wget "http://example.com/gitweb/?p=example;a=blob_plain;f=README.txt;hb=HEAD"

访问drupalcode.org

例子:

wget "http://drupalcode.org/project/ads.git/blob_plain/refs/heads/master:/README.md"

googlesource.com

有一个未记录的特性允许你下载base64编码的原始文件版本:

curl "https://chromium.googlesource.com/chromium/src/net/+/master/http/transport_security_state_static.json?format=TEXT" | base64 --decode

在其他情况下,检查Git存储库是否使用任何web界面。

如果它不使用任何web界面,你可以考虑将代码推送到外部服务,如GitHubBitbucket都。把它当镜子用。

如果您没有安装wget,也可以尝试curl -O (url)

由于这是谷歌上的第一个结果,我想我应该把它更新到最新的排名。随着git 1.7.9.5的出现,我们有了git archive命令,它允许您从远程主机检索单个文件。

git archive --remote=git://git.foo.com/project.git HEAD:path/in/repo filename | tar -x

在这里看到完整的答案https://stackoverflow.com/a/5324532/290784

已有内容的两种变体:

git archive --format=tar --remote=git://git.foo.com/project.git HEAD:path/to/directory filename | tar -O -xf -

和:

git archive --format=zip --remote=git://git.foo.com/project.git HEAD:path/to/directory filename | funzip

它们将文件写入标准输出。

如果您只需要下载文件,则不需要使用Git签出。

GitHub的伴侣更容易做到这一点,这是一个Chrome扩展,让你点击文件图标下载它。也# EYZ1

你可以通过

git archive --format=tar --remote=origin HEAD | tar xf -
git archive --format=tar --remote=origin HEAD <file> | tar xf -

非常简单:

git checkout from-branch-name -- path/to/the/file/you/want

这将不会签出from-branch-name分支。您将停留在您所在的分支上,并且只有该文件将从指定的分支签出。

下面是git-checkout手册的相关部分

git checkout [-p|--patch] [<tree-ish>] [--] <pathspec>...
When <paths> or --patch are given, git checkout does not switch
branches. It updates the named paths in the working tree from the
index file or from a named <tree-ish> (most often a commit). In
this case, the -b and --track options are meaningless and giving
either of them results in an error. The <tree-ish> argument can be
used to specify a specific tree-ish (i.e. commit, tag or tree) to
update the index for the given paths before updating the working
tree.

向Ariejan de Vroom致敬,他从博客教了我这些。

如果您已经编辑了一个文件的本地版本,并希望恢复到中央服务器上维护的原始版本,可以使用Git扩展轻松实现。

  • 最初文件将被标记为提交,因为它已被修改
  • 在文件树菜单中选择(双击)该文件
  • 列出了单个文件的修订树。
  • 选择树的顶部/HEAD,然后右键单击save as
  • 保存该文件以覆盖修改后的文件本地版本
  • 文件现在有正确的版本,将不再被标记为提交!

简单!

最小的指南

# EYZ0


裁判:# EYZ0

Dup: # EYZ0

说文件名是123.txt,这对我来说是有效的:

git checkout --theirs  123.txt

如果文件在目录a中,请确保正确地指定它:

git checkout --theirs  "A/123.txt"

如果你需要一个来自远程Git存储库的从一个特定的分支文件,命令如下:

git archive --remote=git://git.example.com/project.git refs/heads/mybranch path/to/myfile |tar xf -

剩下的可以从@VonC的回答中得到:

如果你需要一个来自主分支的特定文件,它是:

git archive --remote=git://git.example.com/project.git HEAD path/to/myfile |tar xf -

如果你需要一个标签的特定文件,它是:

git archive --remote=git://git.example.com/project.git mytag path/to/myfile |tar xf -

git clone --filter从Git 2.19

这个选项实际上会跳过从服务器获取大多数不需要的对象:

git clone --depth 1 --no-checkout --filter=blob:none \
"file://$(pwd)/server_repo" local_repo
cd local_repo
git checkout master -- mydir/myfile

服务器应该配置:

git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1

v2.19.0版本没有服务器支持,但是已经可以在本地进行测试。

待办事项:--filter=blob:none跳过所有的斑点,但仍然获取所有的树对象。但在正常的回购中,与文件本身相比,这应该很小,所以这已经足够好了。https://www.spinics.net/lists/git/msg342006.html开发者回答--filter=tree:0正在做这件事。

请记住,--depth 1已经暗示了--single-branch,请参见:如何在Git中克隆一个分支?

file://$(path)需要克服git clone协议恶作剧:如何用相对路径浅克隆本地git存储库?

--filter的格式记录在man git-rev-list上。

对Git远程协议进行了扩展以支持此功能。

Git树中的文档:

测试一下

#!/usr/bin/env bash
set -eu


list-objects() (
git rev-list --all --objects
echo "master commit SHA: $(git log -1 --format="%H")"
echo "mybranch commit SHA: $(git log -1 --format="%H")"
git ls-tree master
git ls-tree mybranch | grep mybranch
git ls-tree master~ | grep root
)


# Reproducibility.
export GIT_COMMITTER_NAME='a'
export GIT_COMMITTER_EMAIL='a'
export GIT_AUTHOR_NAME='a'
export GIT_AUTHOR_EMAIL='a'
export GIT_COMMITTER_DATE='2000-01-01T00:00:00+0000'
export GIT_AUTHOR_DATE='2000-01-01T00:00:00+0000'


rm -rf server_repo local_repo
mkdir server_repo
cd server_repo


# Create repo.
git init --quiet
git config --local uploadpack.allowfilter 1
git config --local uploadpack.allowanysha1inwant 1


# First commit.
# Directories present in all branches.
mkdir d1 d2
printf 'd1/a' > ./d1/a
printf 'd1/b' > ./d1/b
printf 'd2/a' > ./d2/a
printf 'd2/b' > ./d2/b
# Present only in root.
mkdir 'root'
printf 'root' > ./root/root
git add .
git commit -m 'root' --quiet


# Second commit only on master.
git rm --quiet -r ./root
mkdir 'master'
printf 'master' > ./master/master
git add .
git commit -m 'master commit' --quiet


# Second commit only on mybranch.
git checkout -b mybranch --quiet master~
git rm --quiet -r ./root
mkdir 'mybranch'
printf 'mybranch' > ./mybranch/mybranch
git add .
git commit -m 'mybranch commit' --quiet


echo "# List and identify all objects"
list-objects
echo


# Restore master.
git checkout --quiet master
cd ..


# Clone. Don't checkout for now, only .git/ dir.
git clone --depth 1 --quiet --no-checkout --filter=blob:none "file://$(pwd)/server_repo" local_repo
cd local_repo


# List missing objects from master.
echo "# Missing objects after --no-checkout"
git rev-list --all --quiet --objects --missing=print
echo


echo "# Git checkout fails without internet"
mv ../server_repo ../server_repo.off
! git checkout master
echo


echo "# Git checkout fetches the missing file from internet"
mv ../server_repo.off ../server_repo
git checkout master -- d1/a
echo


echo "# Missing objects after checking out d1/a"
git rev-list --all --quiet --objects --missing=print

# EYZ0。

Git v2.19.0中的输出:

# List and identify all objects
c6fcdfaf2b1462f809aecdad83a186eeec00f9c1
fc5e97944480982cfc180a6d6634699921ee63ec
7251a83be9a03161acde7b71a8fda9be19f47128
62d67bce3c672fe2b9065f372726a11e57bade7e
b64bf435a3e54c5208a1b70b7bcb0fc627463a75 d1
308150e8fddde043f3dbbb8573abb6af1df96e63 d1/a
f70a17f51b7b30fec48a32e4f19ac15e261fd1a4 d1/b
84de03c312dc741d0f2a66df7b2f168d823e122a d2
0975df9b39e23c15f63db194df7f45c76528bccb d2/a
41484c13520fcbb6e7243a26fdb1fc9405c08520 d2/b
7d5230379e4652f1b1da7ed1e78e0b8253e03ba3 master
8b25206ff90e9432f6f1a8600f87a7bd695a24af master/master
ef29f15c9a7c5417944cc09711b6a9ee51b01d89
19f7a4ca4a038aff89d803f017f76d2b66063043 mybranch
1b671b190e293aa091239b8b5e8c149411d00523 mybranch/mybranch
c3760bb1a0ece87cdbaf9a563c77a45e30a4e30e
a0234da53ec608b54813b4271fbf00ba5318b99f root
93ca1422a8da0a9effc465eccbcb17e23015542d root/root
master commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
mybranch commit SHA: fc5e97944480982cfc180a6d6634699921ee63ec
040000 tree b64bf435a3e54c5208a1b70b7bcb0fc627463a75    d1
040000 tree 84de03c312dc741d0f2a66df7b2f168d823e122a    d2
040000 tree 7d5230379e4652f1b1da7ed1e78e0b8253e03ba3    master
040000 tree 19f7a4ca4a038aff89d803f017f76d2b66063043    mybranch
040000 tree a0234da53ec608b54813b4271fbf00ba5318b99f    root


# Missing objects after --no-checkout
?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb
?308150e8fddde043f3dbbb8573abb6af1df96e63


# Git checkout fails without internet
fatal: '/home/ciro/bak/git/test-git-web-interface/other-test-repos/partial-clone.tmp/server_repo' does not appear to be a git repository
fatal: Could not read from remote repository.


Please make sure you have the correct access rights
and the repository exists.


# Git checkout fetches the missing directory from internet
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.
remote: Enumerating objects: 1, done.
remote: Counting objects: 100% (1/1), done.
remote: Total 1 (delta 0), reused 0 (delta 0)
Receiving objects: 100% (1/1), 45 bytes | 45.00 KiB/s, done.


# Missing objects after checking out d1
?f70a17f51b7b30fec48a32e4f19ac15e261fd1a4
?8b25206ff90e9432f6f1a8600f87a7bd695a24af
?41484c13520fcbb6e7243a26fdb1fc9405c08520
?0975df9b39e23c15f63db194df7f45c76528bccb

结论:除了d1/a之外的所有斑点都没有。例如,f70a17f51b7b30fec48a32e4f19ac15e261fd1a4d1/b,签出d1/后就不存在了。

注意,root/rootmybranch/mybranch也丢失了,但是--depth 1从丢失的文件列表中隐藏了它们。如果您删除--depth 1,那么它们将显示在丢失文件列表中。

我没有看到在这里列出的对我有用的东西,所以我将包括它,如果有人在我的情况下。

我的情况是,我有一个可能有10,000个文件的远程存储库,我需要为我的Linux系统构建一个RPM文件。RPM的构建包含所有内容的git克隆。我只需要一个文件来启动RPM构建。我可以克隆整个源代码树,这是我所需要的,但它需要额外的两分钟来下载所有这些文件,而我只需要一个文件。我尝试使用讨论过的git存档选项,得到了“致命:协议不支持操作”。似乎我必须在服务器上启用某种存档选项,而我的服务器是由官僚暴徒维护的,他们似乎喜欢让事情变得难以完成。

最后我进入了bitbucket的网页界面,看到了我需要的一个文件。我右键点击链接下载文件的原始副本,并从弹出的结果中选择“复制快捷方式”。我不能只是下载原始文件,因为我需要自动化操作,而且我的Linux服务器上没有浏览器界面。

为了便于讨论,结果是URL:

https://ourArchive.ourCompany.com/projects/ThisProject/repos/data/raw/foo/bar.spec?at=refs%2Fheads%2FTheBranchOfInterest
我不能直接从bitbucket存储库下载这个文件,因为我需要先登录。经过一番挖掘,我发现这个方法有效: 在Linux上:< / p >
echo "myUser:myPass123"| base64
bXlVc2VyOm15UGFzczEyMwo=


curl -H 'Authorization: Basic bXlVc2VyOm15UGFzczEyMwo=' 'https://ourArchive.ourCompany.com/projects/ThisProject/repos/data/raw/foo/bar.spec?at=refs%2Fheads%2FTheBranchOfInterest' > bar.spec

这种组合允许我下载构建其他所有内容所需的一个文件。

我添加这个答案作为做正式签出或一些类似的本地操作的替代方案。假设您可以访问Git提供程序的web界面,您可能能够在给定的提交时直接查看任何文件。例如,在GitHub上,你可以使用这样的东西:

https://github.com/hubotio/hubot/blob/ed25584f/src/adapter.coffee

这里ed25584f是感兴趣的提交的SHA-1散列的前8个字符,后面是源文件的路径。

类似的,在Bitbucket上我们可以尝试:

https://bitbucket.org/cofarrell/stash-browse-code-plugin/src/06befe08

在本例中,我们将提交散列放在源URL的末尾。

这里是一个完整的解决方案,只拉和推一个特定的文件在git仓库:

  1. 首先,你需要克隆git存储库,并给出一个特殊提示——不签出
git clone --no-checkout <git url>
  1. 下一步是用下面的命令清除索引中的非暂存文件:
git reset
  1. 现在你可以开始拉出你想要修改的文件了:
git checkout origin/master <path to file>
  1. 现在,存储库文件夹包含您可以立即开始编辑的文件。编辑完成后,您需要执行简单而熟悉的命令序列。
git add <path to file>
git commit -m <message text>
git push

codecommit(亚马逊AWS的git版本)中,你可以这样做:

aws codecommit \
get-file --repository-name myrepo \
--commit-specifier master \
--file-path path/myfile \
--output text \
--query fileContent |
base64 --decode > myfile

另一个解决方案,类似于使用--filter=blob:none的解决方案是使用--filter=tree:0(您可以阅读关于差异的说明在这里)。

这种方法通常比blob-one更快,因为它不下载树结构,但有一个缺点。考虑到您延迟了树的检索,当您进入repo目录时将受到惩罚(取决于repo的大小和结构,它可能比简单的浅克隆大许多倍)。

如果你是这种情况,你可以通过不进入回购来解决:

git clone -n --filter=tree:0 <repo_url> tgt_dir
git -C tgt_dir checkout <branch> -- <filename>
cat tgt_dir/<filename> # or move it to another place and delete tgt_dir ;)

请考虑到,如果您必须签出多个文件,树填充也会影响您的性能,因此我建议仅在回购足够大的情况下才对单个文件执行此操作。

如果你有一个文件,在本地修改(一个混乱的git pull)只需要做:

git checkout origin/master filename
  1. git checkout -切换分支或恢复工作树文件,(这里我们什么都不切换,只是覆盖文件
  2. origin/master -您当前的分支或您可以使用特定的revision-number,例如:cd0fa799c582e94e59e5b21e872f5ffe2ad0154b
  3. 的文件名与路径从项目主目录(其中目录.git存在) 如果你有结构:

' .

公共/ index . html

公共/ css / style.css

供应商

composer.lock”

并且想要重新加载index.html -只需使用public/index.html

这对我很有用。使用git和一些shell命令

git clone --no-checkout --depth 1 git.example.com/project.git && cd project && git show HEAD:path/to/file_you_need > ../file_you_need && cd .. && rm -rf project