好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > Pandas加速代碼之避免使用for循環(huán)

Pandas加速代碼之避免使用for循環(huán)

熱門標簽:所得系統(tǒng)電梯怎樣主板設置外呼 佛山400電話辦理 朝陽手機外呼系統(tǒng) 儋州電話機器人 北京電銷外呼系統(tǒng)加盟 市場上的電銷機器人 北瀚ai電銷機器人官網手機版 地圖標注面積 小蘇云呼電話機器人

前言

使用Pandas dataframe執(zhí)行數千甚至數百萬次計算仍然是一項挑戰(zhàn)。你不能簡單的將數據丟進去,編寫Python for循環(huán),然后希望在合理的時間內處理數據。

Pandas是為一次性處理整個行或列的矢量化操作而設計的,循環(huán)遍歷每個單元格、行或列并不是它的設計用途。所以,在使用Pandas時,你應該考慮高度可并行化的矩陣運算。

本文將教你如何使用Pandas設計使用的方式,并根據矩陣運算進行思考。在此過程中,我們將向你展示一些實用的節(jié)省時間的技巧和竅門,這些技巧和技巧將使你的Pandas代碼比那些可怕的Python for循環(huán)更快地運行!

數據準備

在本文中,我們將使用經典的鳶尾花數據集。

現在讓我們建立一個標準線,用Python for循環(huán)來測量我們的速度。我們將通過循環(huán)遍歷每一行來設置要在數據集上執(zhí)行的計算,然后測量整個操作的速度。這將為我們提供一個基準,以了解我們的新優(yōu)化對我們有多大幫助。

在上面的代碼中,我們創(chuàng)建了一個基本函數,它使用If-Else語句根據花瓣的長度選擇花的類。我們編寫了一個for循環(huán),通過循環(huán)dataframe對每一行應用函數,然后測量循環(huán)的總時間。

在i7-8700k計算機上,循環(huán)運行5次平均需要0.01345秒。

使用.iterrows()

我們可以做的最簡單但非常有價值的加速是使用Pandas的內置 .iterrows() 函數。

在上一節(jié)中編寫for循環(huán)時,我們使用了 range() 函數。然而,當我們在Python中對大范圍的值進行循環(huán)時,生成器往往要快得多。

Pandas的 .iterrows() 函數在內部實現了一個生成器函數,該函數將在每次迭代中生成一行Dataframe。更準確地說,.iterrows() 為DataFrame中的每一行生成(index, Series)的對(元組)。這實際上與在原始Python中使用 enumerate() 之類的東西是一樣的,但運行速度要快得多!

生成器(Generators)

生成器函數允許你聲明一個行為類似迭代器的函數,也就是說,它可以在for循環(huán)中使用。這大大簡化了代碼,并且比簡單的for循環(huán)更節(jié)省內存。

考慮這樣一個例子,我們想把1到1000之間的所有數字加起來。下面代碼的第一部分說明了如何使用for循環(huán)來實現這一點。

如果列表很小,比如長度為1000,那就很好了。當你想要處理一個龐大的列表時,比如10億個浮點數,問題就出現了。使用for循環(huán),在內存中創(chuàng)建了大量的內存huge列表,并不是每個人都有無限的RAM來存儲這樣的東西!Python中的range()函數也做同樣的事情,它在內存中構建列表

代碼的第(2)節(jié)演示了使用Python生成器對數字列表求和。生成器將創(chuàng)建元素并僅在需要時將它們存儲在內存中。一次一個。這意味著,如果必須創(chuàng)建10億個浮點數,那么只能一次將它們存儲在內存中。Python中的xrange()函數使用生成器來構建列表。

也就是說,如果你想多次迭代列表并且它足夠小以適應內存,那么使用for循環(huán)和range函數會更好。這是因為每次訪問list值時,生成器和xrange都會重新生成它們,而range是一個靜態(tài)列表,并且內存中已存在整數以便快速訪問。

下面我們修改了代碼,使用.iterrows()代替常規(guī)的for循環(huán)。在我上一節(jié)測試所用的同一臺機器上,平均運行時間為0.005892秒,速度提高了2.28倍!

使用.apply()

iterrows()函數極大地提高了速度,但我們還遠遠沒有完成。請始終記住,當使用為向量操作設計的庫時,可能有一種方法可以在完全沒有for循環(huán)的情況下最高效地完成任務。

為我們提供此功能的Pandas功能是 .apply() 函數。apply()函數接受另一個函數作為輸入,并沿著DataFrame的軸(行、列等)應用它。在傳遞函數的這種情況下,lambda通常可以方便地將所有內容打包在一起。

在下面的代碼中,我們已經完全用.apply()和lambda函數替換了for循環(huán),打包所需的計算。這段代碼的平均運行時間是0.0020897秒,比原來的for循環(huán)快6.44倍。

apply()之所以快得多,是因為它在內部嘗試遍歷Cython迭代器。如果你的函數針對Cython進行了優(yōu)化,.apply()將使你的速度更快。額外的好處是,使用內置函數可以生成更干凈、更可讀的代碼!

最后

前面我們提到過,如果你正在使用一個為向量化操作設計的庫,你應該總是在沒有for循環(huán)的情況下尋找一種方法來進行任何計算。

類似地,以這種方式設計的許多庫,包括Pandas,都將具有方便的內置函數,可以執(zhí)行你正在尋找的精確計算,但速度更快。

Pandas的 .cut() 函數將一組bin定義為輸入,這些bin定義了If-Else的每個范圍和一組標簽。這與我們用 compute_class() 函數手動編寫有完全相同的操作。

看下面的代碼,看看.cut()是如何工作的。我們又一次得到了更干凈、更可讀的代碼。最后,.cut()函數平均運行0.001423秒,比原來的for循環(huán)快了9.39倍!

好了,到此這篇關于Pandas加速代碼之避免使用for循環(huán)的文章就介紹到這了,更多相關Pandas for循環(huán)內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • pandas中apply和transform方法的性能比較及區(qū)別介紹
  • Pandas對DataFrame單列/多列進行運算(map, apply, transform, agg)

標簽:金融催收 龍巖 江蘇 云南 定西 酒泉 商丘 寧夏

巨人網絡通訊聲明:本文標題《Pandas加速代碼之避免使用for循環(huán)》,本文關鍵詞  Pandas,加速,代碼,之,避免,;如發(fā)現本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Pandas加速代碼之避免使用for循環(huán)》相關的同類信息!
  • 本頁收集關于Pandas加速代碼之避免使用for循環(huán)的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 欧美黄色大片在线观看| 91久久精品在这里色伊人68| 欧美肥妇bbw| 中出的乚温泉旅行中文字幕 | 美女被强挤奶漫画| 国产剧免费观看完整版| 你的东西比我老公大得多| 免费无码婬片AAAA片在线蜜芽 | 丰满白嫩白嫩bbw| 国产午夜精品福利257| 杂交乱高h辣黄文np| 五十路熟女人妻一区二区| 锦衣之下今夏涨奶大人喝| 爽?躁多水?快?深点春雨小说| 国产伦理精品一区二区三区四区五区 | 日本厕所偷拍视频| 中文字幕一二三四| 欧美性生交xxxxx丝袜| 极品少妇XXⅩOOO成人网站| 国产成人a一区二区| 嗯嗯不要了| 精品国婬伦v无码久久久小说 | 一级黄色日本| 欧美二区三区| 娇妻三p全过程小说| 韩国黄色一级视频| 胖女人下边紧不紧| 亚州中文字墓AV无码性色| 五月综合视频| 欧美性插图| 108个姿势小人图简笔画| 美女跪下吃J8免费网站| poronodrome另类极品| 最污软件| 火影忍者?18禁同人游戏 | 亲生(H)辣文h| 国产a片| 好爽?好紧?宝贝夹住尿里了作文| 漂亮的阿姨电影| 韩国农村少妇AAAA大片| 性一交一乱一A片WWW|