How can you reduce/limit bandwidth during scraping of large images?
我要下载大约1000万张图片,在下载前1000张图片的一个小实验之后,我注意到每一张图片需要大约4.5秒(这可能与
示例伪代码:
1 2 3 4 5 | import requests resp = requests.get("some_url.jpg") with open(fn, 'wb') as f: f.write(resp.content) |
减少
除非有其他分辨率较低的文件可用→否。除非服务器上有某种API或基本上任何内容,您希望从中下载文件(映像),以便在将内容作为响应发送回服务器之前在服务器上对其进行修改。
不过,您可以尝试检查网站是否支持
为了强制执行,尝试使用特定的头文件,如
为数据制作一个简单的计数器(您可以在处理或下载后计算字节数),如果您不想达到每5分钟或其他时间超过100MB,则只需为下载的每100MB数据块设置