需求描述
上周突然接到一個任務(wù),要通過XX網(wǎng)站導(dǎo)出XX年-XX年之間的數(shù)據(jù),導(dǎo)出后的文件名就是對應(yīng)日期,導(dǎo)出后發(fā)現(xiàn),竟然有的文件大小是一樣,但文件名又沒有重復(fù),所以打開文件看了下,確實重復(fù)了,原因暫時不清楚,預(yù)測是網(wǎng)站的原因,最后發(fā)現(xiàn)大概只有 30% 的數(shù)據(jù)沒有重復(fù)。我淦!

啥也不說,首要任務(wù)還是把那些沒有重復(fù)的文件給篩選出來,或是刪除重復(fù)的文件。文件很多幾百個,通過一個個的對比文件去刪除估計又要加班,然后突然想到 Python
有個內(nèi)置的 filecmp
能夠貌似是比較文件的,于是乎就有了這篇文章~

擼代碼ing
導(dǎo)出的文件都是保存在同一文件夾下的,格式也相同。然后,上網(wǎng)查了下 filecmp.cmp()
的用法。
filecmp.cmp(f1, f2, shallow=True)
f1/f2
:待比較的兩個文件路徑。shallow
:默認(rèn)為True,即只比較os.stat()獲取的元數(shù)據(jù)(創(chuàng)建時間,大小等信息)是否相同,設(shè)置為False的話,在對比文件的時候還要比較文件內(nèi)容。
from pathlib import Path
import filecmp
path_list = [path for path in Path(r'C:\Users\pc\Desktop\test').iterdir() if path.is_file()]
for front in range(len(path_list) - 1):
for later in range(front + 1, len(path_list)):
if filecmp.cmp(path_list[front], path_list[later], shallow=False):
path_list[front].unlink() # 刪除文件
break
為了防止代碼有問題,我先創(chuàng)建了一個 test 文件夾,在文件夾下手動創(chuàng)建了6個文件,1~5中只有1,2,3,4,5對應(yīng)的數(shù)字內(nèi)容,第6個為空文件。

之后再將文件全部復(fù)制一份。

▶️運(yùn)行效果

到此這篇關(guān)于8行代碼實現(xiàn)Python文件去重的文章就介紹到這了,更多相關(guān)Python文件去重內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- python實現(xiàn)MD5進(jìn)行文件去重的示例代碼
- 對python讀寫文件去重、RE、set的使用詳解
- Python實現(xiàn)的txt文件去重功能示例