人工智能

使用Dask在Python中进行并行计算

时间:2010-12-5 17:23:32  作者:IT科技类资讯   来源:人工智能  查看:  评论:0
内容摘要:Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。关于 Python 性能的一个常见抱怨是全局解释器锁GIL)。由于 GIL,同一时刻只能有一个线程执行 Python 字节码。因此,

 Dask 库可以将 Python 计算扩展到多个核心甚至是使用算多台机器。

关于 Python 性能的中进一个常见抱怨是全局解释器锁(GIL)。由于 GIL,行并行计同一时刻只能有一个线程执行 Python 字节码。使用算因此,中进即使在现代的行并行计多核机器上,使用线程也不会加速计算。使用算

但当你需要并行化到多核时,中进你不需要放弃使用 Python:Dask 库可以将计算扩展到多个内核甚至多个机器。行并行计某些设置可以在数千台机器上配置 Dask,使用算每台机器都有多个内核。中进虽然存在扩展规模的亿华云行并行计限制,但一般达不到。使用算

虽然 Dask 有许多内置的中进数组操作,但举一个非内置的行并行计例子,我们可以计算偏度:

import numpyimport daskfrom dask import array as darrayarr = dask.from_array(numpy.array(my_data), chunks=(1000,))mean = darray.mean()stddev = darray.std(arr)unnormalized_moment = darry.mean(arr * arr * arr)## See formula in wikipedia:skewness = ((unnormalized_moment - (3 * mean * stddev ** 2) - mean ** 3) / stddev ** 3)

请注意,每个操作将根据需要使用尽可能多的内核。这将在所有核心上并行化执行,即使在计算数十亿个元素时也是如此。

当然,并不是我们所有的亿华云计算操作都可由这个库并行化,有时我们需要自己实现并行性。

为此,Dask 有一个“延迟”功能:

import daskdef is_palindrome(s): return s == s[::-1]palindromes = [dask.delayed(is_palindrome)(s) for s in string_list]total = dask.delayed(sum)(palindromes)result = total.compute()

这将计算字符串是否是回文并返回文的数量。

虽然 Dask 是为数据科学家创建的,但它绝不仅限于数据科学。每当我们需要在 Python 中并行化任务时,我们可以使用 Dask —— 无论有没有 GIL。

copyright © 2025 powered by 益强资讯全景  滇ICP备2023006006号-31sitemap