當前位置：首頁 > 科技 > 軟件

九個技巧讓你的PyTorch模型訓練飛快！

來源：責編：時間：2024-01-02 09:31:10 255觀看

導讀也許你仍然在使用32位精度進行計算，或者甚至只是在單個GPU上進行訓練。然而，隨著科技的進步，我們已經有了更好的選擇。使用更高精度的計算，如16位浮點數或混合精度，可以提高訓練速度并減少內存消耗。同時，利用多個GPU進行并

也許你仍然在使用32位精度進行計算，或者甚至只是在單個GPU上進行訓練。

然而，隨著科技的進步，我們已經有了更好的選擇。使用更高精度的計算，如16位浮點數或混合精度，可以提高訓練速度并減少內存消耗。同時，利用多個GPU進行并行訓練，可以大大加快訓練過程。

筆者在這里總結了提升Pytorch模型訓練速度的9個技巧，與大家分享~

這些優化技巧可以在PyTorch-Lightning庫中找到。PyTorch-Lightning是建立在PyTorch之上的一個封裝，它提供了自動化訓練的功能，同時允許開發者完全控制關鍵的模型組件。

這里以MNIST定義LightningModel并使用Trainer來訓練模型為例。

#導入PyTorch-Lightning庫中的Trainer類，用于管理訓練過程from pytorch_lightning import Trainer#創建LightningModule實例，作為要訓練的模型model = LightningModule(…)#創建Trainer實例，用于配置和管理訓練過程trainer = Trainer()#開始訓練trainer.fit(model)

trainer.fit()方法將根據LightningModule中定義的訓練邏輯來執行訓練步驟，并自動處理數據加載、優化器配置、學習率調度等細節。

使用DataLoaders

使用DataLoaders來加載數據是獲得訓練速度提升的最簡單方法之一。通過保存h5py或numpy文件以加速數據加載的時代已經過去了，而現在可以「使用PyTorch的DataLoader來輕松加載圖像數據」（對于NLP數據，請參考TorchText庫）。

在PyTorch-Lightning中，不需要顯式地編寫訓練循環，只需要定義好DataLoaders和Trainer，PyTorch-Lightning會在需要的時候自動調用它們。

下面是一個加載MNIST數據集并使用DataLoader進行訓練的示例代碼：

from torch.utils.data import DataLoaderfrom torchvision.datasets import MNISTdataset = MNIST(root=self.hparams.data_root, train=train, download=True)loader = DataLoader(dataset, batch_size=32, shuffle=True)for batch in loader:    x, y = batch    model.training_step(x, y)    # 其他訓練邏輯

在這個示例中，首先創建了一個MNIST數據集的實例，然后使用DataLoader將其封裝成一個可迭代的數據加載器。在訓練循環中，可以遍歷DataLoader，每次獲取一個batch的數據，并將其傳遞給模型的training_step()方法進行訓練。

通過使用DataLoaders，可以更高效地加載和處理大量的訓練數據，從而提高訓練速度。此外，DataLoader還支持數據的隨機打亂（shuffle）、批量大小（batch_size）等參數設置，可以根據實際需求進行調整。

DataLoaders中設置num_workers參數

在DataLoaders中，可以通過設置num_workers參數來允許批量并行加載數據，從而加速訓練過程。下面是一個示例代碼：

# 慢的方式loader = DataLoader(dataset, batch_size=32, shuffle=True)# 快的方式（使用10個workers）loader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=10)

在第一個示例中，創建了一個DataLoader，沒有指定num_workers參數，這意味著數據加載將在主進程中進行，而不會并行化。

在第二個示例中，通過將num_workers設置為10，啟用了批量并行加載。這意味著數據加載將在10個worker進程中進行，并行地加載多個batch，從而加速數據加載的過程。

通過適當設置num_workers參數，可以根據系統的硬件和資源情況，選擇合適的worker數量來提高數據加載的效率。然而，需要注意的是，并不是worker越多越好，過多的worker可能會導致資源競爭和性能下降。

Batch size

在進行下一個優化步驟之前，增加批量大小（batch size）到CPU-RAM或GPU-RAM允許的最大范圍是一個重要的優化策略。

增加批量大小可以帶來以下好處：

更高效地利用計算資源，尤其是GPU的并行計算能力。
減少數據加載和傳輸的次數，提高訓練速度。
可以獲得更穩定的梯度估計，有助于模型收斂。

然而，增加批量大小也會帶來一些挑戰：

內存占用增加：較大的批量大小需要更多的內存空間來存儲數據和梯度。
學習率調整：增加批量大小后，通常需要相應地增加學習率，以保持相似的收斂行為。

因此，在增加批量大小之前，需要確保你的硬件和資源可以支持更大的批量大小，并相應地調整學習率。

梯度累積

梯度累積（Gradient Accumulation）是一種在計算資源有限的情況下，模擬較大批量大小的技術。通過多次執行前向傳播、反向傳播和優化步驟，將梯度累積起來，以獲得與較大批量大小相同的效果。

下面是一個使用梯度累積的示例代碼：

# 清除上一步的梯度optimizer.zero_grad()# 16次梯度累積步驟scaled_loss = 0for accumulated_step_i in range(16):    out = model.forward()    loss = some_loss(out, y)    loss.backward()    scaled_loss += loss.item()# 更新權重optimizer.step()# 損失值現在按累積批次數量進行縮放actual_loss = scaled_loss / 16

在這個示例中，通過循環執行16個梯度累積步驟，每個步驟進行前向傳播、計算損失、反向傳播和梯度累積。然后調用optimizer.step()來更新權重。

在PyTorch-Lightning中，只需要設置accumulate_grad_batches參數來指定梯度累積的次數。例如：

trainer = Trainer(accumulate_grad_batches=16)trainer.fit(model)

保留的計算圖

在記錄損失值時，為了避免撐爆內存，只存儲損失的數值而不是整個計算圖。可以使用.item()方法來獲取損失的數值。

# 方式1losses.append(loss)# 方式2losses.append(loss.item())

在方式1中，損失值loss會保留整個計算圖的副本，這會占用大量的內存空間。而方式2中，使用loss.item()來獲取損失的數值，并將其存儲到列表中，這樣就只保留了數值，而不會占用過多的內存。

PyTorch-Lightning會非常小心地確保不會保留計算圖的副本，盡量減少內存的占用。因此，在使用PyTorch-Lightning時，可以放心地使用.item()方法來獲取損失的數值，而不必擔心內存問題。

單個GPU訓練

完成上述步驟之后，即可開始在GPU上進行訓練。GPU上進行訓練可以利用多個GPU核心之間的并行計算，從而加速訓練過程。

在進行GPU訓練時，需要做兩件事情：

將模型移動到GPU上；
在每次數據通過時將數據放到GPU上。

下面是在PyTorch中進行GPU訓練的示例代碼：

# 將模型放到GPU上model.cuda()# 將數據放到GPU上x = x.cuda()# 在GPU上運行model(x)

如果使用PyTorch-Lightning，幾乎不需要做任何額外的工作，只需要設置Trainer的gpus參數來指定要使用的GPU數量。

# 指定訓練的gpu idtrainer = Trainer(gpus=[0])trainer.fit(model)

在進行GPU訓練時，需注意限制CPU和GPU之間的數據傳輸次數。盡量避免頻繁地在CPU和GPU之間復制數據。

此外，還要注意調用強制GPU同步的操作，如清空內存緩存torch.cuda.empty_cache()。這樣的操作會阻塞所有GPU，直到它們都完成同步。

然而，如果使用PyTorch-Lightning，則通常不需要擔心這些問題。PyTorch-Lightning會小心地處理GPU同步和內存管理，以確保高效的訓練過程。

使用16-bit精度

使用16-bit精度是一種驚人的技術，可以將內存占用減半。大多數模型通常使用32位精度進行訓練，但是研究表明，使用16位精度的模型也可以表現得很好。混合精度則意味著在某些部分使用16位精度，但將權重等內容保持在32位精度。

要在PyTorch中使用16位精度，可以安裝NVIDIA的apex庫，并對模型進行如下更改：

# 在模型和優化器上啟用16位精度model, optimizers = amp.initialize(model, optimizers, opt_level='O2')# 當進行.backward()時，讓amp處理以便它可以對損失進行縮放with amp.scale_loss(loss, optimizer) as scaled_loss:    scaled_loss.backward()

apex庫會處理大部分工作，包括梯度縮放，以防止梯度爆炸或接近零。

在PyTorch-Lightning中，啟用16位精度不需要修改模型的任何內容，也不需要執行上述代碼。只需在創建Trainer時設置precision=16即可。

trainer = Trainer(amp_level='O2', use_amp=False)trainer.fit(model)

通過這樣的設置，PyTorch-Lightning將自動啟用16位精度，并根據需要進行梯度縮放和其他必要的操作。

移動到多個GPUs中

在多個GPU上進行訓練有幾種方法可以選擇。以下是其中三種常見的方法：

分批次訓練（Batch Splitting）

分批次訓練是指將模型復制到每個GPU上，并將每個GPU中的一部分批次數據進行訓練。

# 在每個GPU上復制模型，并將批次的四分之一分配給每個GPUmodel = DataParallel(model, devices=[0, 1, 2, 3])# out有4個輸出（每個GPU一個）out = model(x.cuda(0))

在PyTorch-Lightning中，只需要增加gpus參數來指定使用的GPU數量，其他的無需更改。

trainer = Trainer(gpus=[0, 1, 2, 3])trainer.fit(model)

模型分布訓練（Model Parallelism）

模型可能太大無法完全放入內存中。例如，帶有編碼器和解碼器的序列到序列模型可能需要占用大量內存。在這種情況下，可以將編碼器和解碼器放在不同的GPU上進行訓練。

# 將編碼器放在GPU 0上，將解碼器放在GPU 1上encoder_rnn.cuda(0)decoder_rnn.cuda(1)# 在GPU 0上運行輸入數據通過編碼器encoder_out = encoder_rnn(x.cuda(0))# 在GPU 1上運行輸出通過解碼器out = decoder_rnn(encoder_out.cuda(1))# 將輸出數據移回GPU 0上out = out.cuda(0)

在PyTorch-Lightning中，不需要指定任何GPU，只需將模型的模塊放在正確的GPU上即可。

class MyModule(LightningModule):    def __init__():        self.encoder = RNN(...)        self.decoder = RNN(...)    def forward(x):        self.encoder.cuda(0)        self.decoder.cuda(1)        out = self.encoder(x)        out = self.decoder(out.cuda(1))model = MyModule()trainer = Trainer()trainer.fit(model)

混合使用（Hybrid Approach）

# 更改這些行self.encoder = RNN(...)self.decoder = RNN(...)# 更改為# 現在每個RNN都基于不同的GPU設備self.encoder = DataParallel(self.encoder, devices=[0, 1, 2, 3])self.decoder = DataParallel(self.encoder, devices=[4, 5, 6, 7])# 在forward中...out = self.encoder(x.cuda(0))# 注意輸入數據放在設備列表中的第一個設備上out = self.decoder(out.cuda(4))  # <--- 這里的4

在使用多個GPU進行訓練時，需要考慮以下注意事項：

如果模型已經在GPU上，model.cuda()方法不會執行任何操作。
總是將輸入數據放在設備列表中的第一個設備上。
在設備之間傳輸數據是昂貴的，應該將其作為最后的手段。
優化器和梯度會被保存在GPU 0上，因此，GPU 0上使用的內存可能會比其他GPU大得多。

多節點GPU訓練

在分布式訓練中，每個機器上的每個GPU都有一個模型的副本，并且每個機器都會獲得數據的一部分進行訓練。每個模型副本在其所在的GPU上獨立初始化，并在數據的一個分區上進行訓練。然后，所有模型副本會彼此同步梯度更新。

這種方式可以顯著加快訓練速度，并且使得處理更大規模的數據集成為可能。通過將訓練任務分布到多個機器和GPU上，可以同時進行多個訓練任務，從而節省了訓練時間。

在PyTorch中，可以使用DistributedDataParallel (DDP) 模塊來實現這種分布式訓練方式。它通過在每個節點上復制每個GPU上的模型并同步梯度，實現了模型的并行訓練和梯度更新。代碼如下：

def tng_dataloader():     d = MNIST()     # 4: 創建數據加載器     # 將訓練數據集分發到每個機器上     dist_sampler = DistributedSampler(dataset)     dataloader = DataLoader(d, shuffle=False, sampler=dist_sampler)def main_process_entrypoint(gpu_nb):     # 2: 設置所有機器和GPU之間的連接     world = nb_gpus * nb_nodes     # 初始化分布式訓練環境，并指定通信后端和當前進程的排名和總共的進程數     dist.init_process_group("nccl", rank=gpu_nb, world_size=world)     # 3: 將模型移動到當前GPU，并使用DistributedDataParallel將模型包裝起來     # DistributedDataParallel會將模型的副本復制到每個GPU上，并確保在訓練過程中同步梯度更新     torch.cuda.set_device(gpu_nb)     model.cuda(gpu_nb)     model = DistributedDataParallel(model, device_ids=[gpu_nb])     # train your model now...if  __name__ == '__main__':     # 1: 生成多個進程，每個進程都會調用main_process_entrypoint()函數。     # 這樣可以在每個機器上啟動多個進程進行分布式訓練     mp.spawn(main_process_entrypoint, nprocs=8)

而在Lightning中，分布式訓練變得更加簡單。只需設置節點數量和GPU列表，Trainer類會自動處理剩下的細節。

# train on 1024 gpus across 128 nodestrainer = Trainer(nb_gpu_nodes=128, gpus=[0, 1, 2, 3, 4, 5, 6, 7])

在單個節點上多GPU更快的訓練

使用DistributedDataParallel (DDP) 在單個節點上的多個GPU上進行訓練通常比使用DataParallel 更快。這是因為DDP只執行梯度同步的通信，而不是將整個模型復制到每個GPU上。

在Lightning中，可以通過將distributed_backend參數設置為'ddp'，并指定要使用的GPU數量來輕松實現在單個節點上的多GPU訓練。示例如下：

# 在同一臺機器上的4個GPU上進行訓練，使用DDP比DataParallel更快trainer = Trainer(distributed_backend='ddp', gpus=[0, 1, 2, 3])

在這個例子中，distributed_backend參數被設置為'ddp'來啟用分布式訓練，gpus參數指定要使用的GPU的索引。通過這種方式，Lightning將使用DDP來進行訓練，從而更有效地利用多個GPU。

本文鏈接：http://www.www897cc.com/showinfo-26-55175-0.html九個技巧讓你的PyTorch模型訓練飛快！

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Saga 模式 | 如何使用微服務實現業務事務

下一篇：基于Spring Boot，為網絡請求添加唯一日志id

標簽：

熱門焦點

vivo TWS Air開箱體驗：真輕臻好聽

在vivo S15系列新機的發布會上，vivo的最新款真無線藍牙耳機vivo TWS Air也一同發布，本次就這款耳機新品給大家帶來一個簡單的分享。外包裝盒上，vivo TWS Air保持了vivo自家產
石頭自清潔掃拖機器人G10S評測：多年黑科技集大成之作懶人終極福音

科技圈經常能看到一個詞叫“縫合怪”，用來形容那些把好多功能或者外觀結合在一起的產品，通常這樣的詞是貶義詞，但如果真的是產品縫合的好、縫合的實用的話，那它就成了中性詞，今
女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

近日，江蘇蘇州一女孩租房當天充值了100元電費，開著空調不到2小時發現電費已用完。對于為什么這個快，房東表示，電表壞了這種情況很多，之前也遇到過，給租客換
這款新興工具平臺，讓你的電腦效率翻倍

隨著信息技術的發展,我們獲取信息的渠道越來越多,但是處理信息的效率卻成為一個瓶頸。于是各種工具應運而生,都在爭相解決我們的工作效率問題。今天我要給大家介紹一款效率
阿里大調整

來源：產品劉有媒體報道稱，近期淘寶天貓集團啟動了近年來最大的人力制度改革，涉及員工績效、層級體系等多個核心事項，目前已形成一個初步的“征求意見版”：1、取消P序列
三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

據官方此前宣布，三星將于7月26日也就是今天在韓國首爾舉辦Unpacked活動，屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

在昨日舉行的的聯發科新一代旗艦芯片天璣9200+的發布會上，iQOO官方也正式宣布，全新的iQOO Neo8系列新品將全球首發搭載這款當前性能最強大的移動平臺
朋友圈可以修改可見范圍了蘋果用戶可率先體驗

近日，iOS用戶迎來微信8.0.27正式版更新，除了可更換二維碼背景外，還新增了多項實用功能。在新版微信中，朋友圈終于可以修改可見范圍，簡單來說就是已發布的朋友圈
親歷馬斯克血洗Twitter，硅谷的苦日子在后頭

文/劉哲銘　　編輯/李薇　　馬斯克再次揮下裁員大刀。　　美國時間11月14日，Twitter約4400名外包員工遭解雇，此次被解雇的員工的主要工作為內容審核等。此前，T

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

九個技巧讓你的PyTorch模型訓練飛快！

使用DataLoaders

DataLoaders中設置num_workers參數

Batch size

梯度累積

保留的計算圖

單個GPU訓練

使用16-bit精度

移動到多個GPUs中

分批次訓練（Batch Splitting）

模型分布訓練（Model Parallelism）

混合使用（Hybrid Approach）

多節點GPU訓練

在單個節點上多GPU更快的訓練

vivo TWS Air開箱體驗：真輕臻好聽

石頭自清潔掃拖機器人G10S評測：多年黑科技集大成之作懶人終極福音

女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

這款新興工具平臺，讓你的電腦效率翻倍

阿里大調整

三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

朋友圈可以修改可見范圍了蘋果用戶可率先體驗

親歷馬斯克血洗Twitter，硅谷的苦日子在后頭

最新推薦

猜你喜歡

熱門推薦

相關資訊