Python中的基本HTTP文件下载和保存到磁盘?

我是Python的新手,我一直在浏览这个网站上的问答,以获得我的问题的答案。然而,我是一个初学者,我发现很难理解一些解决方案。我需要一个非常基本的解决方案。

有没有人能给我解释一下“通过HTTP下载文件”和“在Windows中将其保存到磁盘”的简单解决方案?

我也不知道如何使用Shutil和操作系统模块。

我想下载的文件不到500MB,是一个.GZ存档文件。如果有人能解释如何提取存档并利用其中的文件,那就太好了!

这里有一个部分的解决方案,我写的各种答案相结合:

import requests
import os
import shutil


global dump


def download_file():
global dump
url = "http://randomsite.com/file.gz"
file = requests.get(url, stream=True)
dump = file.raw


def save_file():
global dump
location = os.path.abspath("D:\folder\file.gz")
with open("file.gz", 'wb') as location:
shutil.copyfileobj(dump, location)
del dump

有没有人能指出错误(初级水平)并解释任何更简单的方法来做到这一点?

谢谢!

346380 次浏览

下载文件的干净方法是:

import urllib


testfile = urllib.URLopener()
testfile.retrieve("http://randomsite.com/file.gz", "file.gz")

这将从网站下载一个文件,并将其命名为file.gz。这是我最喜欢的解决方案之一,来自通过urllib和Python下载图片

此示例使用urllib库,它将直接从源中检索文件。

在这里所述:

import urllib
urllib.urlretrieve ("http://randomsite.com/file.gz", "file.gz")

EDIT:如果仍要使用请求,请查看这个问题这一个

我使用Wget

如果你想要一个简单又好的图书馆的例子?

import wget


file_url = 'http://johndoe.com/download.zip'


file_name = wget.download(file_url)

wget模块支持Python 2和Python 3版本

另一种干净的保存文件的方法是:

import csv
import urllib


urllib.retrieve("your url goes here" , "output.csv")

使用wget、urllib和request的四种方法。

#!/usr/bin/python
import requests
from StringIO import StringIO
from PIL import Image
import profile as profile
import urllib
import wget




url = 'https://tinypng.com/images/social/website.jpg'


def testRequest():
image_name = 'test1.jpg'
r = requests.get(url, stream=True)
with open(image_name, 'wb') as f:
for chunk in r.iter_content():
f.write(chunk)


def testRequest2():
image_name = 'test2.jpg'
r = requests.get(url)
i = Image.open(StringIO(r.content))
i.save(image_name)


def testUrllib():
image_name = 'test3.jpg'
testfile = urllib.URLopener()
testfile.retrieve(url, image_name)


def testwget():
image_name = 'test4.jpg'
wget.download(url, image_name)


if __name__ == '__main__':
profile.run('testRequest()')
profile.run('testRequest2()')
profile.run('testUrllib()')
profile.run('testwget()')

TestRequest-4469882函数调用(4469842原语调用),20.236秒

TestRequest2-在0.072秒内完成8580次函数调用(8574次原语调用)

TestURLLib-3810次函数调用(3775次原语调用),耗时0.036秒

Testwget-3489函数调用时间为0.020秒

奇异的Windows解决方案

import subprocess


subprocess.run("powershell Invoke-WebRequest {} -OutFile {}".format(your_url, filename), shell=True)

我之所以走上这条路,是因为ESXi的wget不是用SSL编译的,而且我想从供应商的网站直接将OVA下载到位于世界另一端的ESXi主机上。

我不得不通过编辑规则(适当)来禁用防火墙(懒惰)/启用HTTPS

创建Python脚本:

import ssl
import shutil
import tempfile
import urllib.request
context = ssl._create_unverified_context()


dlurl='https://somesite/path/whatever'
with urllib.request.urlopen(durl, context=context) as response:
with open("file.ova", 'wb') as tmp_file:
shutil.copyfileobj(response, tmp_file)

ESXi库在某种程度上是成对的,但开源的Weasel安装程序似乎将urllib用于HTTPS.所以它激励我沿着这条路走下去。

对于Python3+URLopener,已弃用。 当使用时,你会得到如下错误:

URL_开启器=URLLib.URLOpener()属性错误:模块“ URLLib ”没有 属性“ urlopener ”

所以,试试:

import urllib.request
urllib.request.urlretrieve(url, filename)

对于文本文件,可以使用:

import requests


url = 'https://WEBSITE.com'
req = requests.get(url)
path = "C:\\YOUR\\FILE.html"


with open(path, 'wb') as f:
f.write(req.content)
import urllib.request
urllib.request.urlretrieve("https://raw.githubusercontent.com/dnishimoto/python-deep-learning/master/list%20iterators%20and%20generators.ipynb", "test.ipynb")

将单个原始Juypter笔记本下载到文件。