當前位置：首頁 > 科技 > 軟件

超實用Python小技巧，輕松應對大文件

來源：責編：時間：2024-02-02 09:23:00 212觀看

導讀Python在文件處理方面提供了非常強大的支持，然而，當處理大型文件時，標準的文件處理技術會導致高內存使用，進而影響處理效率。在數據分析、機器學習以及系統管理等領域，經常需要打開和處理大型文件，以下是一些常見的用例：數據

Python在文件處理方面提供了非常強大的支持，然而，當處理大型文件時，標準的文件處理技術會導致高內存使用，進而影響處理效率。在數據分析、機器學習以及系統管理等領域，經常需要打開和處理大型文件，以下是一些常見的用例：

數據分析和機器學習：在這些領域中，常常需要處理大型數據集。例如，我們可能需要處理一個多GB的日志文件，或者處理用于訓練機器學習模型的大型CSV文件。由于這些文件非常龐大，直接將其全部加載到內存中是不可行的。因此，需要有效地打開和處理這些文件，通常可以采用分塊或按行讀取文件的方式，以適應內存限制。
文本處理：如果處理大型文本文件，例如一本書、一批網頁備份或大量客戶評論，則需要先將這些文件打開，才能對其進行搜索、替換或計數等操作。
日志分析：系統管理員經常需要處理大型服務器日志文件來診斷問題、監視系統性能或分析用戶行為。由于Python具有強大的文本處理能力，因此可以成為日志分析工作的優秀工具。

本文介紹如何在Python中有效地處理大型文件，確保數據的高效和安全管理。

1 使用with語句

在Python中，with語句提供了一種干凈且高效的文件處理方式。with語句管理可以自動管理文件的打開和關閉操作，即使在with塊內發生異常也能確保文件正確關閉，這樣減少了文件泄漏的風險。如果文件在使用后未正確關閉，就可能會導致文件泄漏。因此，在處理文件時，推薦使用with語句來保障文件的正確處理和資源的釋放。

with open('large_file.txt', 'r') as file:    for line in file:        print(line)

使用with語句時，不需要顯式地關閉文件；當with塊中的代碼執行完畢，程序會自動關閉文件。這種方式可以減少由于忘記關閉文件造成的文件泄漏風險。

在上面的代碼示例中，使用with語句打開一個文件并按行迭代。通過在for循環中使用文件對象來逐行讀取文件。這種方式可以避免在處理大型文件時出現內存問題。

當調用open函數時，會返回一個文件對象，這個文件對象被分配給with語句中的變量file。在with塊內，可以使用for循環來逐行讀取文件。

當文件對象被迭代時，Python會為每次迭代調用文件對象的__next__()方法。這個方法讀取并返回文件中的下一行，每次調用它時都會這樣做。如果文件中沒有更多的行，則__next__()方法會引發StopIteration異常，會告訴for循環停止迭代。例如：

class SimpleFile():    def __init__(self, data):        self.data = data.splitlines()        self.index = -1    def __iter__(self):        return self    def __next__(self):        self.index += 1        if self.index < len(self.data):            return self.data[self.index]        else:            raise StopIterationdata = "line 1/nline 2/nline 3/nline4"my_file = SimpleFile(data)while True:    print(next(my_file))

運行上面的代碼，會看到以下輸出：

line 1line 2line 3line4Traceback (most recent call last):  File "/mnt/efs/awside/data/home/lxu1/code/tony/python-code/file_opener.py", line 21, in     print(next(my_file))          ^^^^^^^^^^^^^  File "/mnt/efs/awside/data/home/lxu1/code/tony/python-code/file_opener.py", line 14, in __next__    raise StopIterationStopIteration

2 惰性加載文件

在處理大型文件時，不建議一次性將整個文件加載到內存中，因為這會消耗大量的內存資源，可能導致程序崩潰或系統假死。相反，應該采用惰性加載的方法，分塊或按行讀取文件。這種方法可以減少內存的使用量，提高程序的性能和穩定性。

惰性加載的原理是，只有在需要處理某一部分數據時，才會將其加載到內存中，這樣可以最大限度地節省內存資源。

with open('large_file.txt', 'r') as file:    while True:        line = file.readline()        if not line:            break         print(line)# Or with the walrus operator with open('large_file.txt', 'r') as file:    while line := file.readline():        print(line)

在Python中，readline()方法用于從文件中讀取單行。以下是此方法的簡要概述：

當調用時，它讀取文件的下一行并將其作為字符串返回。
如果在文件中存在，則返回的字符串會包含換行符/n。
如果再次調用該方法，會讀取下一行。
當達到文件末尾時，readline()將返回空字符串。

在上面的代碼示例中，程序按行讀取文件并打印每一行內容。這種方法是通過逐行或分塊讀取文件的內容來提高處理大型文件的性能，而不是一次性將整個文件加載到內存中。程序會不斷讀取并打印文件中的行，直到到達文件末尾時，循環才會中斷并結束執行。這種方法可以大幅減少內存的使用量，提高程序的性能和穩定性。

3 使用生成器

生成器是特殊的迭代器，可讓開發者遍歷大型文件且無需一次性加載整個文件到內存中。生成器通過生成一行一行的數據來保持其狀態，非常適合用于處理大型數據集。例如：

def read_large_file(file_object):    while True:        data = file_object.readline()        if not data:            break        yield datawith open('large_file.txt', 'r') as file:    gen = read_large_file(file)    for line in gen:        print(line)

在上面的代碼中：

yield data：如果有數據，則函數生成它。這使函數成為Python中的生成器，生成器是特殊類型的函數，會生成一系列結果，而不是單個值。
gen = read/_large/_file(file)：通過調用帶有文件對象的read_large_file()函數，可以創建一個生成器對象。
for line in gen：這會循環迭代生成器（從文件中逐行生成）。

4 分塊讀取文件

以分塊的方式讀取大型文件是Python處理大型文件的常見技巧。這種方法允許逐一處理文件的一部分，減少內存使用量。

chunk_size = 1024  # 每次迭代讀取1024個字節with open('large_file.txt', 'r') as file:    while True:        chunk = file.read(chunk_size)        if not chunk:  #  如果該塊為空，則表示已經到達文件末尾            break        print(chunk)

5 使用外部庫

對于非常大型的文件或復雜的數據處理，建議使用像Pandas或Dask這樣的庫。這些庫不僅提供高效的數據結構來進行數據操作，還提供了處理超出內存限制的數據集的功能。

以下是使用Pandas讀取大型CSV文件的示例：

import pandas as pdchunk_size = 500 chunks = []for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size):    chunks.append(chunk)df = pd.concat(chunks, axis=0)

在這個示例中，pd.read/_csv()函數每次讀取500行，并返回包含這些行的DataFrame，然后可以分別進行處理。

6 總結

處理大型文件的高效方法在Python編程中是必不可少的技能，尤其是在數據分析、機器學習和系統管理等領域。

通過理解和應用最佳實踐，例如使用with語句自動管理文件、懶惰加載或分塊讀取文件、發揮生成器的功能、避免不必要的引用以及利用像Pandas這樣的外部庫，可以確保Python程序高效、穩健，并且能夠輕松處理大型數據集。

本文鏈接：http://www.www897cc.com/showinfo-26-71456-0.html超實用Python小技巧，輕松應對大文件

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：隊列與棧的巔峰對決：Python中如何用棧實現隊列？

下一篇： FPGA設計中的挑戰和可靠解決方案

標簽：

熱門焦點

官方承諾：K60至尊版將會首批升級MIUI 15

全新的MIUI 15今天也有了消息，在官宣了K60至尊版將會搭載天璣9200+處理器和獨顯芯片X7的同時，Redmi給出了官方承諾，K60至尊重大更新首批升級，會首批推送MIUI 15。也就是說雖然
影音體驗是真的強簡單聊聊iQOO Pad

大公司的好處就是產品線豐富，非常細分化的東西也能給你做出來，例如早先我們看到了新的vivo Pad2，之后我們又在iQOO Neo8 Pro的發布會上看到了iQOO的首款平板產品iQOO Pad。雖
讓我們一起聊聊文件的操作

文件【1】文件是什么？文件是保存數據的地方，是數據源的一種，比如大家經常使用的word文檔、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存數據，它既可以保
拼多多APP上線本地生活入口，群雄逐鹿萬億市場

Tech星球（微信ID：tech618）文 | 陳橋輝 Tech星球獨家獲悉，拼多多在其APP內上線了“本地生活”入口，位置較深，位于首頁的“充值中心”內，目前主要售賣美食相關的
2299元起！iQOO Pad明晚首銷：性能最強天璣平板

5月23日，iQOO如期舉行了新品發布會，除了首發安卓最強旗艦處理器的iQOO Neo8系列新機外，還在發布會上推出了旗下首款平板電腦——iQOO Pad，其最大的賣點
Android 14發布：首批適配機型公布

5月11日消息，谷歌在今天凌晨舉行了I/O大會，本次發布會谷歌帶來了自家的AI語言模型PaLM 2、谷歌Pixel Fold折疊屏、谷歌Pixel 7a手機，同時發布了Androi
OPPO K11采用全方位護眼屏：三大護眼能力減輕視覺疲勞

日前OPPO官方宣布，全新的OPPO K11將于7月25日正式發布，將主打旗艦影像，和同檔位競品相比，其最大的賣點就是將配備索尼IMX890主攝，堪稱是2000檔位影像表
Windows 11發布，微軟一改往常對老機型開放的態度

距離 Windows 11 發布已經過去一周，在過去一周里，很多數碼愛好者圍繞其對 Android 應用的支持、對老機型的升級問題展開了激烈討論。與以往不同的是，在這次大
2021中國國際消費電子博覽會與青島國際軟件融合創新博覽會新聞發布會隆重舉行

9月18日，2021中國國際消費電子博覽會與青島國際軟件融合創新博覽會新聞發布會在青島國際新聞中心隆重舉行。發布會上青島市政府領導聯袂出席，對本次雙展會情

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

超實用Python小技巧，輕松應對大文件

1 使用with語句

2 惰性加載文件

3 使用生成器

4 分塊讀取文件

5 使用外部庫

6 總結

官方承諾：K60至尊版將會首批升級MIUI 15

影音體驗是真的強簡單聊聊iQOO Pad

讓我們一起聊聊文件的操作

拼多多APP上線本地生活入口，群雄逐鹿萬億市場

2299元起！iQOO Pad明晚首銷：性能最強天璣平板

Android 14發布：首批適配機型公布

OPPO K11采用全方位護眼屏：三大護眼能力減輕視覺疲勞

Windows 11發布，微軟一改往常對老機型開放的態度

2021中國國際消費電子博覽會與青島國際軟件融合創新博覽會新聞發布會隆重舉行

最新推薦

猜你喜歡

熱門推薦

相關資訊