在做数据抓取的中异时候,经常遇到由于网络问题导致的常重程序保存,先前只是试解记录了错误内容,并对错误内容进行后期处理。决方
原先的中异流程:
def crawl_page(url): pass def log_error(url): pass url = "" try: crawl_page(url) except: log_error(url)改进后的流程:
attempts = 0 success = False while attempts < 3 and not success: try: crawl_page(url) success = True except: attempts = 1 if attempts == 3: break最近发现的新的解决方案:retrying
retrying 是一个 Python 的重试包,可以用来自动重试一些可能运行失败的常重程序段。retrying 提供一个装饰器函数 retry,试解被装饰的决方函数就会在运行失败的条件下重新执行,默认只要一直报错就会不断重试。中异
import random from retrying import retry @retry def do_something_unreliable(): if random.randint(0,常重 10) > 1: raise IOError("Broken sauce, everything is hosed!!!111one") else: return "Awesome sauce!" print do_something_unreliable()如果我们运行 haveatry 函数,那么直到 random.randint 返回 5,试解它才会执行结束,决方否则会一直重新执行。中异
retry 还可以接受一些参数,云服务器常重这个从源码中 Retrying 类的试解初始化函数可以看到可选的参数:
stopmaxattempt_number:用来设定***的尝试次数,超过该次数就停止重试 stopmaxdelay:比如设置成 10000,那么从被装饰的函数开始执行的时间点开始,到函数成功运行结束或者失败报错中止的时间点,只要这段时间超过 10 秒,函数就不会再执行了 wait_fixed:设置在两次 retrying 之间的停留时间 waitrandommin 和 waitrandommax:用随机的方式产生两次 retrying 之间的停留时间 waitexponentialmultiplier 和 waitexponentialmax:以指数的形式产生两次 retrying 之间的停留时间,产生的值为 2^previousattemptnumber * waitexponentialmultiplier,previousattemptnumber 是前面已经 retry 的次数,如果产生的这个值超过了 waitexponentialmax 的大小,香港云服务器那么之后两个 retrying 之间的停留值都为 waitexponentialmax。这个设计迎合了 exponential backoff 算法,可以减轻阻塞的情况。我们可以指定要在出现哪些异常的时候再去 retry,这个要用 retryonexception 传入一个函数对象:
def retry_if_io_error(exception): return isinstance(exception, IOError) @retry(retry_on_exception=retry_if_io_error) def read_a_file(): with open("file", "r") as f: return f.read()在执行 readafile 函数的过程中,如果报出异常,那么这个异常会以形参 exception 传入 retryifio_error 函数中,如果 exception 是 IOError 那么就进行 retry,如果不是就停止运行并抛出异常。
我们还可以指定要在得到哪些结果的时候去 retry,这个要用 retryonresult 传入一个函数对象:
def retry_if_result_none(result): return result is None @retry(retry_on_result=retry_if_result_none) def get_result(): return None在执行 getresult 成功后,会将函数的返回值通过形参 result 的形式传入 retryifresultnone 函数中,如果返回值是 None 那么就进行 retry,否则就结束并返回函数值。
其他相关资料:
https://pypi.python.org/pypi/retry/ https://julien.danjou.info/blog/2015/python-retrying https://github.com/rholder/retrying服务器租用