如何从网页获取JSON到Python脚本

在我的一个脚本中获得了以下代码:

# # url is defined above. # jsonurl = urlopen(url) # # While trying to debug, I put this in: # print jsonurl # # Was hoping text would contain the actual json crap from the URL, but seems not... # text = json.loads(jsonurl) print text 

我想要做的是获得在Firefox中加载到我的脚本中时在URL上看到的{{.....etc.....}}东西,这样我就可以从中parsing出一个值。 我GOOGLE了一吨,但我还没有find一个很好的答案,如何实际得到从一个以.json结尾的URL {{...}}东西到Python脚本中的对象。

从URL获取数据,然后调用json.loads例如

Python2例子

 import urllib, json url = "http://maps.googleapis.com/maps/api/geocode/json?address=google" response = urllib.urlopen(url) data = json.loads(response.read()) print data 

Python3例子

 import urllib.request, json with urllib.request.urlopen("http://maps.googleapis.com/maps/api/geocode/json?address=google") as url: data = json.loads(url.read().decode()) print(data) 

输出结果会是这样的:

 { "results" : [ { "address_components" : [ { "long_name" : "Charleston and Huff", "short_name" : "Charleston and Huff", "types" : [ "establishment", "point_of_interest" ] }, { "long_name" : "Mountain View", "short_name" : "Mountain View", "types" : [ "locality", "political" ] }, { ... 

我会猜测你真的想从url获取数据:

 jsonurl = urlopen(url) text = json.loads(jsonurl.read()) # <-- read from it 

或者,请查看请求库中的JSON解码器 。

 import requests r = requests.get('someurl') print r.json() # if response type was set to JSON, then you'll automatically have a JSON response here... 

这使用Python 2.X和Python 3.X从网页获取JSON格式的饮食:

 #!/usr/bin/env python try: # For Python 3.0 and later from urllib.request import urlopen except ImportError: # Fall back to Python 2's urllib2 from urllib2 import urlopen import json def get_jsonparsed_data(url): """ Receive the content of ``url``, parse it as JSON and return the object. Parameters ---------- url : str Returns ------- dict """ response = urlopen(url) data = response.read().decode("utf-8") return json.loads(data) url = ("http://maps.googleapis.com/maps/api/geocode/json?" "address=googleplex&sensor=false") print(get_jsonparsed_data(url)) 

另请参阅: 读取和写入JSON示例

我发现这是使用Python 3时从网页获取JSON的最简单和最有效的方法:

 import json,urllib data = urllib.urlopen("https://api.github.com/users?since=100").read() output = json.loads(data) print (output) 

所有对urlopen()的调用(根据文档 )都会返回一个类似文件的对象。 一旦你有了这个,你需要调用它的read()方法来实际地通过networking拉取JSON数据。

就像是:

 jsonurl = urlopen(url) text = json.loads(jsonurl.read()) print text 

没有必要使用额外的库来parsingjson …

json.loads()返回一个字典 。

所以在你的情况,只是做text["someValueKey"]

在Python 2中,json.load()将工作,而不是json.loads()

 import json import urllib url = 'https://api.github.com/users?since=100' output = json.load(urllib.urlopen(url)) print(output) 

不幸的是,这在Python 3中不起作用.json.load仅仅是一个json.loads的包装器,它调用read()来获取类文件对象。 json.loads需要一个string对象,而urllib.urlopen(url).read()的输出是一个字节对象。 所以你必须得到文件编码才能在Python 3中工作。

在这个例子中,我们查询编码的头文件,如果我们没有得到,就回退到utf-8。 Python 2和3之间的标头对象是不同的,所以它必须以不同的方式完成。 使用请求将避免所有这些,但有时您需要坚持标准库。

 import json from six.moves.urllib.request import urlopen DEFAULT_ENCODING = 'utf-8' url = 'https://api.github.com/users?since=100' urlResponse = urlopen(url) if hasattr(urlResponse.headers, 'get_content_charset'): encoding = urlResponse.headers.get_content_charset(DEFAULT_ENCODING) else: encoding = urlResponse.headers.getparam('charset') or DEFAULT_ENCODING output = json.loads(urlResponse.read().decode(encoding)) print(output)