如何得到JSON从网页到Python脚本

在我的一个脚本中得到以下代码:

#
# url is defined above.
#
jsonurl = urlopen(url)


#
# While trying to debug, I put this in:
#
print jsonurl


#
# Was hoping text would contain the actual json crap from the URL, but seems not...
#
text = json.loads(jsonurl)
print text

我想做的是得到{{.....etc.....}}的东西,我看到的URL,当我在Firefox加载到我的脚本,以便我可以解析出一个值。我已经谷歌了很多,但我还没有找到一个很好的答案,如何从一个以.json结尾的URL中实际获得{{...}}的东西到一个Python脚本中的对象。

538567 次浏览

urlopen()的调用(根据文档)所做的只是返回一个类文件对象。一旦你有了它,你需要调用它的read()方法来实际在网络上拉JSON数据。

喜欢的东西:

jsonurl = urlopen(url)


text = json.loads(jsonurl.read())
print text

我猜你实际上想从URL中获取数据:

jsonurl = urlopen(url)
text = json.loads(jsonurl.read()) # <-- read from it

或者,在请求库中检出JSON译码器

import requests
r = requests.get('someurl')
print r.json() # if response type was set to JSON, then you'll automatically have a JSON response here...

从URL中获取数据,然后调用json.loads

Python3例子:

import urllib.request, json
with urllib.request.urlopen("http://maps.googleapis.com/maps/api/geocode/json?address=google") as url:
data = json.load(url)
print(data)

Python2例子:

import urllib, json
url = "http://maps.googleapis.com/maps/api/geocode/json?address=google"
response = urllib.urlopen(url)
data = json.loads(response.read())
print data

输出结果如下所示:

{
"results" : [
{
"address_components" : [
{
"long_name" : "Charleston and Huff",
"short_name" : "Charleston and Huff",
"types" : [ "establishment", "point_of_interest" ]
},
{
"long_name" : "Mountain View",
"short_name" : "Mountain View",
"types" : [ "locality", "political" ]
},
{
...

没有必要使用额外的库来解析json…

json.loads()返回一个字典

所以在你的情况下,只需执行text["someValueKey"]

这将从Python 2的网页中获取JSON格式的字典。X和Python 3。X:

#!/usr/bin/env python


try:
# For Python 3.0 and later
from urllib.request import urlopen
except ImportError:
# Fall back to Python 2's urllib2
from urllib2 import urlopen


import json




def get_jsonparsed_data(url):
"""
Receive the content of ``url``, parse it as JSON and return the object.


Parameters
----------
url : str


Returns
-------
dict
"""
response = urlopen(url)
data = response.read().decode("utf-8")
return json.loads(data)




url = ("http://maps.googleapis.com/maps/api/geocode/json?"
"address=googleplex&sensor=false")
print(get_jsonparsed_data(url))

参见:读取和写入JSON示例

我发现这是在使用Python 3时从网页获取JSON的最简单和最有效的方法:

import json,urllib.request
data = urllib.request.urlopen("https://api.github.com/users?since=100").read()
output = json.loads(data)
print (output)

在Python 2中,json.load()可以代替json.loads()

import json
import urllib


url = 'https://api.github.com/users?since=100'
output = json.load(urllib.urlopen(url))
print(output)

不幸的是,这在Python 3中不起作用。json。Load只是对json的包装。为类文件对象调用read()的加载。json。load需要一个字符串对象,urllib.urlopen(url).read()的输出是一个字节对象。因此,为了使它在python3中工作,必须获得文件编码。

在本例中,我们查询编码头,如果没有得到编码头,则退回到utf-8。在Python 2和3中,headers对象是不同的,所以它必须以不同的方式完成。使用请求可以避免这一切,但有时你需要坚持使用标准库。

import json
from six.moves.urllib.request import urlopen


DEFAULT_ENCODING = 'utf-8'
url = 'https://api.github.com/users?since=100'
urlResponse = urlopen(url)


if hasattr(urlResponse.headers, 'get_content_charset'):
encoding = urlResponse.headers.get_content_charset(DEFAULT_ENCODING)
else:
encoding = urlResponse.headers.getparam('charset') or DEFAULT_ENCODING


output = json.loads(urlResponse.read().decode(encoding))
print(output)

你可以使用json.dumps:

import json


# Hier comes you received data


data = json.dumps(response)


print(data)

对于加载json并将其写入文件,下面的代码是有用的:

data = json.loads(json.dumps(Response, sort_keys=False, indent=4))
with open('data.json', 'w') as outfile:
json.dump(data, outfile, sort_keys=False, indent=4)

对于python>=3.6,你可以使用:

import dload


j = dload.json(url)

使用以下方法安装dload:

pip3 install dload

你需要import requests并使用from json()方法:

source = requests.get("url").json()
print(source)

当然,这个方法也适用:

import json,urllib.request
data = urllib.request.urlopen("url").read()
output = json.loads(data)
print (output)

json.loads将使用此表格将其解码为Python对象,例如JSON对象将成为Python dict

不确定为什么所有前面的答案都使用json.loads。你只需要:

import json
from urllib.request import urlopen


f = urlopen("https://www.openml.org/d/40996/json")
j = json.load(f)

这是因为urlopen返回一个类似文件的对象,它与json.load一起工作。