关于python:带有超时、最大大小和连接池的HTTP请求

connection-poolinghttpmax-sizepythontimeout

http request with timeout, maximum size and connection pooling

我正在寻找一种在Python(2.7)中执行HTTP请求的方法，其中有3个要求：

超时(为了可靠性)
内容最大大小(用于安全)
连接池(用于性能)

我已经检查了相当多的PythonHTTP库，但它们都不满足我的要求。例如：

很好，但不合用

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

import urllib2
import json

r = urllib2.urlopen('https://github.com/timeline.json', timeout=5)
content = r.read(100+1)
if len(content) > 100:
print 'too large'
r.close()
else:
print json.loads(content)

r = urllib2.urlopen('https://github.com/timeline.json', timeout=5)
content = r.read(100000+1)
if len(content) > 100000:
print 'too large'
r.close()
else:
print json.loads(content)

请求：无最大大小

1
2
3
4
5
6
7

import requests
r = requests.get('https://github.com/timeline.json', timeout=5, stream=True)
r.headers['content-length'] # does not exists for this request, and not safe
content = r.raw.read(100000+1)
print content # ARF this is gzipped, so not the real size
print json.loads(content) # content is gzipped so pretty useless
print r.json() # Does not work anymore since raw.read was used

Urllib3：从来没有"read"方法起作用，即使有一个50mo的文件……

httplib:httplib.httpConnection不是池(只有一个连接)

我简直不敢相信URLLIB2是我能使用的最好的HTTP库！所以如果有人知道天秤座可以做什么，或者如何使用以前的天秤座…

编辑：

我找到的最好的解决方案要归功于Martijn Pieters(即使对于大文件，str加法也不会减慢速度)。

1
2
3
4
5
6
7
8
9
10
11
12
13

r = requests.get('https://github.com/timeline.json', stream=True)
size = 0
ctt = StringIO()

for chunk in r.iter_content(2048):
size += len(chunk)
ctt.write(chunk)
if size > maxsize:
r.close()
raise ValueError('Response too large')

content = ctt.getvalue()

相关讨论

您可以使用requests来完成这项工作，但您需要知道raw对象是urllib3勇气的一部分，并利用HTTPResponse.read()调用支持的额外参数，该参数允许您指定要读取解码数据：

1
2
3
4
5
6
7
8

import requests
r = requests.get('https://github.com/timeline.json', timeout=5, stream=True)

content = r.raw.read(100000+1, decode_content=True)
if len(content) > 100000:
raise ValueError('Too large a response')
print content
print json.loads(content)

或者，您可以在读取之前在raw对象上设置decode_content标志：

1
2
3
4
5
6
7
8
9

import requests
r = requests.get('https://github.com/timeline.json', timeout=5, stream=True)

r.raw.decode_content = True
content = r.raw.read(100000+1)
if len(content) > 100000:
raise ValueError('Too large a response')
print content
print json.loads(content)

如果您不喜欢使用这样的urllib3胆量，可以使用response.iter_content()对解码后的内容进行分块迭代；这也使用基础HTTPResponse(使用.stream()生成器版本：

1
2
3
4
5
6
7
8
9
10
11
12
13
14

import requests

r = requests.get('https://github.com/timeline.json', timeout=5, stream=True)

maxsize = 100000
content = ''
for chunk in r.iter_content(2048):
content += chunk
if len(content) > maxsize:
r.close()
raise ValueError('Response too large')

print content
print json.loads(content)

这里处理压缩数据大小的方式有细微的差别；r.raw.read(100000+1)将只读取10万字节的压缩数据；未压缩数据将根据最大大小进行测试。iter_content()方法将读取更多未压缩数据，在很少情况下，压缩流大于未压缩数据。

这两种方法都不允许r.json()工作；response._content属性不是由这些设置的；当然，您可以手工设置。但是，由于.raw.read()和.iter_content()调用已经允许您访问所讨论的内容，因此确实没有必要。

相关讨论

谢谢您。我试图比较哪种方法最有效(特别是哪种方法限制了实际大小，而不是下载的方法)：urllib2不接受压缩，r.raw.read比较gzipped的大小，r.iter_content比较实际大小，但确实降低了代码的速度(也许流会使它更快)。
@aur&233；lienlambert：r.iter_content()减慢代码的速度完全取决于读取的块的大小；较小的块大小需要更多的循环迭代。它已经在一条小溪上运行了。
由于python str的不可变性，content += chunk减慢了速度。Stringio.Stringio解决了这个问题。
是的，我打算用一个列表来代替，然后在末尾使用''.join()，但是StringIO()很好地封装了它。
不能对流使用超时。文档：对于流请求，超时仅适用于连接尝试。
阿德里安：是吗？您可以使用timeout，但它只适用于连接尝试。
@是的，对我来说是个大问题
@阿德里安：我的回答让你相信是吗？我很高兴澄清这一点。例如，您可以将它包装在一个信号处理程序中，该处理程序可以在请求花费太长时间时切断请求。
@阿德里安：例如：超时函数如果完成时间太长
对于任何在python3上尝试这个的人，注意你需要content = b''＋1
@注意gzip炸弹——我不知道上面的decode_content=True是否使代码容易受到影响。不相关：如果您希望使用urllib2读取压缩数据，则可以像在本例中那样将其读取到内存中。python 3代码允许流式处理gzip内容。
@Adrianb:唯一限制总连接和读取超时(我知道)的非异步.io可移植HTTP库是pycurl(它有可怕的API)。另一种方法是使用Timer()关闭连接，例如，如果r是urllib.request.urlopen()响应，那么Timer(timeout, r.fp.raw._sock.shutdown, [socket.SHUT_RDWR])可以强制执行总的读取超时(如果这里的各种.close()方法都是等量的，那么在不使用guts方法实现超时的情况下，会有一个不那么难看的方法)。
@J.F.Sebastian:decode_content=True允许与response.content或response.text属性(将整个内容加载为一个二进制或Unicode字符串)完全相同的解压缩处理。在任何情况下，所有减压都在URLLIB3中处理，不包括对减压炸弹的防护。
如果响应是gzip，它是否逐块解包内容？
@黛西：是的，压缩的内容在你流媒体的时候被解压。
@martijnpieers：将块内容以字节形式保存到content = b''中仍然会耗尽内存。StringIO选项是一个有趣的选择，但需要额外的模块导入。可能更容易加块长度？所以用size = 0代替content = b''，用size += len(chunk)代替content += chunk，然后检查if size > maxsize。也可以最初检查if int(r.headers.get('Content-Length')) > maxsize，在这种情况下，如果实际设置了内容长度，就不必下载块。
@Kregus:StringIO将需要相同的内存量，它不会刷新到磁盘上。您可以在块进入时自由地处理它们，而不是将它们存储在内存中；例如，您可以将它们写入磁盘。分块的响应并不总是有一个内容长度的头，这是这个问题最初被发布的原因之一(对于这个请求不存在，并且不安全)。