好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > 詳解pandas apply 并行處理的幾種方法

詳解pandas apply 并行處理的幾種方法

熱門標簽:深圳網絡外呼系統代理商 鎮江人工外呼系統供應商 柳州正規電銷機器人收費 千呼ai電話機器人免費 申請辦個400電話號碼 外呼系統前面有錄音播放嗎 高德地圖標注字母 400電話辦理費用收費 騰訊地圖標注有什么版本

1. pandarallel (pip install )

對于一個帶有Pandas DataFrame df的簡單用例和一個應用func的函數,只需用parallel_apply替換經典的apply。

from pandarallel import pandarallel
 
# Initialization
pandarallel.initialize()
 
# Standard pandas apply
df.apply(func)
 
# Parallel apply
df.parallel_apply(func)

注意,如果不想并行化計算,仍然可以使用經典的apply方法。

另外可以通過在initialize函數中傳遞progress_bar=True來顯示每個工作CPU的一個進度條。

2. joblib (pip install )

 https://pypi.python.org/pypi/joblib

# Embarrassingly parallel helper: to make it easy to write readable parallel code and debug it quickly
 
from math import sqrt
from joblib import Parallel, delayed
 
def test():
  start = time.time()
  result1 = Parallel(n_jobs=1)(delayed(sqrt)(i**2) for i in range(10000))
  end = time.time()
  print(end-start)
  result2 = Parallel(n_jobs=8)(delayed(sqrt)(i**2) for i in range(10000))
  end2 = time.time()
  print(end2-end)

-------輸出結果----------

0.4434356689453125
0.6346755027770996

3. multiprocessing

import multiprocessing as mp
 
with mp.Pool(mp.cpu_count()) as pool:
  df['newcol'] = pool.map(f, df['col'])
multiprocessing.cpu_count()

返回系統的CPU數量。

該數量不同于當前進程可以使用的CPU數量。可用的CPU數量可以由 len(os.sched_getaffinity(0)) 方法獲得。

可能引發 NotImplementedError 。

參見os.cpu_count()

4. 幾種方法性能比較

(1)代碼

import sys
import time
import pandas as pd
import multiprocessing as mp
from joblib import Parallel, delayed
from pandarallel import pandarallel
from tqdm import tqdm, tqdm_notebook
 
 
def get_url_len(url):
  url_list = url.split(".")
  time.sleep(0.01) # 休眠0.01秒
  return len(url_list)
 
def test1(data):
  """
  不進行任何優化
  """
  start = time.time()
  data['len'] = data['url'].apply(get_url_len)
  end = time.time()
  cost_time = end - start
  res = sum(data['len'])
  print("res:{}, cost time:{}".format(res, cost_time))
 
def test_mp(data):
  """
  采用mp優化
  """
  start = time.time()
  with mp.Pool(mp.cpu_count()) as pool:
    data['len'] = pool.map(get_url_len, data['url'])
  end = time.time()
  cost_time = end - start
  res = sum(data['len'])
  print("test_mp \t res:{}, cost time:{}".format(res, cost_time))
 
def test_pandarallel(data):
  """
  采用pandarallel優化
  """
  start = time.time()
  pandarallel.initialize()
  data['len'] = data['url'].parallel_apply(get_url_len)
  end = time.time()
  cost_time = end - start
  res = sum(data['len'])
  print("test_pandarallel \t res:{}, cost time:{}".format(res, cost_time))
 
 
def test_delayed(data):
  """
  采用delayed優化
  """
  def key_func(subset):
    subset["len"] = subset["url"].apply(get_url_len)
    return subset
 
  start = time.time()
  data_grouped = data.groupby(data.index)
  # data_grouped 是一個可迭代的對象,那么就可以使用 tqdm 來可視化進度條
  results = Parallel(n_jobs=8)(delayed(key_func)(group) for name, group in tqdm(data_grouped))
  data = pd.concat(results)
  end = time.time()
  cost_time = end - start
  res = sum(data['len'])
  print("test_delayed \t res:{}, cost time:{}".format(res, cost_time))
 
 
if __name__ == '__main__':
  
  columns = ['title', 'url', 'pub_old', 'pub_new']
  temp = pd.read_csv("./input.csv", names=columns, nrows=10000)
  data = temp
  """
  for i in range(99):
    data = data.append(temp)
  """
  print(len(data))
  """
  test1(data)
  test_mp(data)
  test_pandarallel(data)
  """
  test_delayed(data)

(2) 結果輸出

1k
res:4338, cost time:0.0018074512481689453
test_mp   res:4338, cost time:0.2626469135284424
test_pandarallel   res:4338, cost time:0.3467681407928467
 
1w
res:42936, cost time:0.008773326873779297
test_mp   res:42936, cost time:0.26111721992492676
test_pandarallel   res:42936, cost time:0.33237743377685547
 
10w
res:426742, cost time:0.07944369316101074
test_mp   res:426742, cost time:0.294996976852417
test_pandarallel   res:426742, cost time:0.39208269119262695
 
100w
res:4267420, cost time:0.8074917793273926
test_mp   res:4267420, cost time:0.9741342067718506
test_pandarallel   res:4267420, cost time:0.6779992580413818
 
1000w
res:42674200, cost time:8.027287006378174
test_mp   res:42674200, cost time:7.751036882400513
test_pandarallel   res:42674200, cost time:4.404983282089233

在get_url_len函數里加個sleep語句(模擬復雜邏輯),數據量為1k,運行結果如下:

1k
res:4338, cost time:10.054503679275513
test_mp   res:4338, cost time:0.35697126388549805
test_pandarallel   res:4338, cost time:0.43415403366088867
test_delayed   res:4338, cost time:2.294757843017578

5. 小結

(1)如果數據量比較少,并行處理比單次執行效率更慢;

(2)如果apply的函數邏輯簡單,并行處理比單次執行效率更慢。

6. 問題及解決方法

(1)ImportError: This platform lacks a functioning sem_open implementation, therefore, the required synchronization primitives needed will not function, see issue 3770.

https://www.jianshu.com/p/0be1b4b27bde

(2)Linux查看物理CPU個數、核數、邏輯CPU個數

https://lover.blog.csdn.net/article/details/113951192

(3) 進度條的使用

https://www.jb51.net/article/206219.htm

到此這篇關于詳解pandas apply 并行處理的幾種方法的文章就介紹到這了,更多相關pandas apply 并行處理內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • pandas中apply和transform方法的性能比較及區別介紹
  • 對pandas中apply函數的用法詳解
  • pandas 使用apply同時處理兩列數據的方法
  • pandas apply 函數 實現多進程的示例講解
  • pandas使用apply多列生成一列數據的實例
  • pandas apply多線程實現代碼
  • pandas使用函數批量處理數據(map、apply、applymap)
  • pandas提升計算效率的一些方法匯總

標簽:合肥 哈爾濱 大慶 烏蘭察布 烏蘭察布 平頂山 海南 郴州

巨人網絡通訊聲明:本文標題《詳解pandas apply 并行處理的幾種方法》,本文關鍵詞  詳解,pandas,apply,并行,處理,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《詳解pandas apply 并行處理的幾種方法》相關的同類信息!
  • 本頁收集關于詳解pandas apply 并行處理的幾種方法的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 精品国产乱码久久久应用介绍| 精品国产乱码久久久久久一区二区| 久久综合影院| 第5章初尝云雨美妇| 牛牛影视午夜伦A片在线看| 天天插天天射天天操| 欧美色精品天天在线观看视频| 又粗又大喷水高潮抽搐视频| 精品久久久久久久久久| 免费无码又爽又刺激片软件| 国产成人在线播放视频| 啪啪午夜免费| 麻豆日韩区久久综合| 久久久国产AV| 女人和马发生性后肚子变大的原因| 日本无卡码一区二区三区| 亚洲字幕波多野结衣作品| 免费??成人???深夜小野草| 美女全免费视频网站直播| 妺妺第一次啪啪好紧www| chinaxxxx| 久久久久亚洲Av无码专区桃色| 成人欧美尽粗二区三区AV| 国产人妻被粗大爽ⅩXoo网站| 俄罗斯女人与动zoz0| 亚洲Av天堂台湾一级毛片大全| 日韩伦理电影网| 一级做a爰片久久毛片A片小樱| 国产亚洲午夜精品| 扒掉乳罩秘?虐胸打胸吸奶 | 搡老女人老妇成熟妇女A片影院 | 淫妹子| 国产精品zjzjzj在线观看| 蜜乳精品久久精品一二三精品网站| XXoooHD大屁股大白屁股| 日本婬乱一级毛片无码约会炮| hdxxxx58| 亚洲Va欧美va国产综合888| 一对浑圆的胸乳被揉捏| 人人妻人人澡人人爽人人sex网| 成人eeuss影院在线观看|