當前位置：首頁 > 科技 > 軟件

分享一個 Python 處理音頻的庫

來源：責編：時間：2023-11-28 17:11:17 270觀看

導讀以前我們介紹過 moviepy，它是一個處理視頻的第三方庫，基于 ffmpeg。那么本次來分享一個處理音頻的庫 pydub，它同樣是對 ffmpeg 進行的一個封裝。既然是封裝，那就說明實際處理音頻的還是 ffmpeg，所以 pip install pydub 之

以前我們介紹過 moviepy，它是一個處理視頻的第三方庫，基于 ffmpeg。那么本次來分享一個處理音頻的庫 pydub，它同樣是對 ffmpeg 進行的一個封裝。

既然是封裝，那就說明實際處理音頻的還是 ffmpeg，所以 pip install pydub 之后，我們還要安裝 ffmpeg，直接去官網下載即可。

然后將這些可執行文件所在的目錄配置到環境變量中就可以了。

打開音頻文件

音頻有很多種格式，比如 wav、mp3、ogg 等等，只要是 ffmpeg 支持的文件格式都可以打開，而 ffmpeg 基本支持所有主流的音頻格式。

from pydub import AudioSegment# 打開 mp3 文件AudioSegment.from_mp3("1.mp3")# 打開 wav 文件AudioSegment.from_wav("1.wav")# 打開 ogg 文件AudioSegment.from_ogg("1.ogg")# 以上所有方法都調用了 from_file，等價于AudioSegment.from_file("1.mp3", "mp3")AudioSegment.from_file("1.wav", "wav")AudioSegment.from_file("1.ogg", "ogg")# 由于 mp3、wav、ogg 文件很常見，所以有單獨的方法# 但還有不常見的音頻格式，比如蘋果手機自帶的錄音軟件導出的就是 m4a 格式# 此時就只能使用 from_file 打開了AudioSegment.from_file("1.m4a", "m4a")

注意：在讀取文件的時候，格式一定要匹配，否則報錯。舉個例子：

from pydub import AudioSegmenttry:    AudioSegment.from_wav("高梨康治 - 百鬼夜行.mp3")except Exception as e:    print(e)"""Decoding failed. ffmpeg returned error code: 1Output from ffmpeg/avlib:b'...Invalid data found when processing input/r/n"""

我們的音頻是 mp3 格式的，但是卻調用了 from_wav，所以會報錯。當然也不要覺得將文件擴展名改成 wav 就萬事大吉了，因為文件的類型取決于它存儲的字節流，而不是擴展名。

from pydub import AudioSegmentsong = AudioSegment.from_mp3("高梨康治 - 百鬼夜行.mp3")print(song) """<pydub.audio_segment.AudioSegment object at 0x0000021782910C40>"""

返回的是一個 AudioSegment 對象，它就是音頻讀取之后的結果，通過該對象我們可以對音頻進行各種操作，比如增加音量、淡入淡出等等。

并且這些操作都是鏈式的，每一個操作都會返回一個新的對象，不會修改原來的對象。所以我們在操作的時候，可以一直寫下去，比如 song.xxx.xxx，不用每一次操作都重新賦值一個變量。

注意：pydub 做的任何操作，只要和時間相關，那么單位都是毫秒。

下面我們來看看它都支持哪些操作。

截取某一個片段

對音頻進行切片，這是一個非常常用的操作，一個長音頻，我們可能只要前 5 秒，或者后 5 秒等等。

# 截取前 5 秒first_5_seconds = song[: 5 * 1000]# 截取后 5 秒last_5_seconds = song[-5000:]

返回的都是新的 AudioSegment 對象，保存之后正好是原始音頻文件的前 5 秒和后 5 秒，關于保存文件后面會說。

音量增加和減小

我們可以讓音量放大和縮小，并且實現起來也非常簡單。

# 聲音增大 9 分貝first_5_seconds = first_5_seconds + 9# 聲音減小 7 分貝last_5_seconds = last_5_seconds - 7

怎么樣，是不是非常簡單呢？

音頻拼接

估計有人猜到做法了，沒錯，直接相加即可。

song_first_last = first_5_seconds + last_5_seconds

此時 song_first_last 就是由原始音頻的前 5 秒放大 9 分貝，和原始音頻的后 5 秒減小 7 分貝組合而成的新的音頻（AudioSegment 對象）。

淡入淡出

song_first_last = first_5_seconds.append(last_5_seconds, crossfade=1500)

調用 append 也相當于將音頻組合在一起，但是這種方式可以增加一些淡入淡出的效果。當然我們也可以手動實現：

song_first_last = first_5_seconds.fade_in(2000) + last_5_seconds.fade_out(3000)

前 5 秒和后 5 秒拼接起來得到 10 秒鐘的音頻，并且前 2 秒淡入，后 3 秒淡出。

重復

將一個片段重復 n 遍。

repeat_5 = song[: 3000] * 5

將前 3 秒重復了 5 遍，等于把 song[: 3000] 重復相加 5 次。

反轉音頻

說白了就是倒放。

song_reverse = song.reverse()

兩個音頻重疊播放

比如你有兩個音頻，一個是臺詞，一個是背景音樂，你需要將它們合并為一個音頻。

from pydub import AudioSegmentsong1 = AudioSegment.from_ogg("臺詞.ogg")song2 = AudioSegment.from_ogg("背景音樂.ogg")# 將 song1 和 song2 合并在一起# 并且在 song1 的 5 秒后，開始播放 song2，position 默認為 0song1.overlay(song2, positinotallow=5000)

聲道分離

關于聲道，我們一會兒解釋。

from pydub import AudioSegmentsong = AudioSegment.from_ogg("高梨康治 - 百鬼夜行.mp3")# 聲道的分離，得到兩個不同聲道對應的 AudioSegment 對象left_channel, right_channel = song.split_to_mono()

獲取音頻的某一幀

song.get_frame(1)  # 獲取第一幀

獲取音頻屬性

下面我們來獲取音頻的一些屬性，不過在獲取之前，先介紹一下音頻屬性的一些細節。

采樣頻率：又被稱作取樣頻率，是單位時間內的采樣次數，決定了數字化音頻的質量。采樣頻率越高，數字化音頻的質量越好，還原的波形越完整，播放的聲音越真實，當然所占的大小也就越大。根據奎特采樣定理，要從采樣中完全恢復原始信號的波形，采樣頻率要高于聲音中最高頻率的兩倍。人耳可聽到的聲音的頻率范圍是在 16 赫茲到 20 千赫茲之間，因此要將聽到的原聲音真實地還原出來，采樣頻率必須大于 40千赫茲。而 44千赫茲的音頻可以達到 CD 的音質，當然可以更高，只不過高于 48 千赫茲的采樣頻率人耳很難分別，沒有實際意義。

采樣位數：也叫量化位數(單位：比特)，是存儲每個采樣值所用的二進制位數，采樣值反映了聲音的波動狀態，采樣位數決定了量化精度。采樣位數越長，量化的精度就越高，還原的波形曲線越真實，產生的量化噪音越小，回放的效果越真實。常用的量化位數有 4、8、12、16、24等等，量化位數與聲卡的位數和編碼有關。

聲道數：使用的聲音通道的個數，也是采樣時所產生的聲音波形個數。播放聲音時，單聲道的 wav 一般使用一個喇叭發聲，立體聲的 wav 可以使用兩個喇叭發聲。記錄聲音時，單聲道每次產生一個波形的數據;雙聲道每次產生兩個波形的數據，當然最終音頻所占的存儲空間也會增加一倍。

比特率：比特率是指每秒傳送的比特(bit)數，單位為 bps(Bit Per Second)，比特率越高，傳送的數據越大。在音頻、視頻領域，比特率又被稱為碼率、位率、位速(這四個老鐵是同一個東西，只是不同領域、不同翻譯造就了這么多的名詞)。比特率表示經過編碼(壓縮)后的音、視頻數據每秒鐘需要用多少個比特來表示。比特率與音、視頻壓縮的關系，簡單來說就是比特率越高，音頻、視頻的質量就越好，但編碼后的文件就越大;如果比特率越少則情況剛好相反，比特率 = 采樣頻率 * 采樣位數 * 聲道數。

from pydub import AudioSegmentsong = AudioSegment.from_mp3("高梨康治 - 百鬼夜行.mp3")# 聲道數, 1 表示單聲道, 2 表示雙聲道print(song.channels)  # 2# 采樣寬度, 采樣位數除以 8 就是采樣寬度了, 因為一個字節有 8 位# 同理采樣寬度乘以 8 就是采樣位數，當前音頻是 16 位的print(song.sample_width)  # 2print(song.sample_width * 8)  # 16# 采樣頻率, 采樣頻率等于幀速率print(song.frame_rate)  # 44100# 塊對齊之后的大小, 或者一幀的字節數# 等于 通道數 * 采樣位數 / 8, 或者 通道數 * 采樣寬度print(song.frame_width)  # 4print(song.channels * song.sample_width)  # 4# 字節率, 等于 采樣頻率 * 聲道數量 * 采樣寬度(采樣位數 / 8), 可以直接計算得到print(song.frame_rate * song.channels * song.sample_width)  # 176400# 時長(單位秒)print(song.duration_seconds)  # 87.8225850340136# 幀數目print(song.frame_count())  # 3872976.0# 原始的音頻數據, 不打印了song.raw_data

音頻導出

我們對音頻進行了一些操作之后，怎么保存到本地呢？這也是關鍵的一部分，不然你處理完了沒有用啊。很簡單，直接調用 AudioSegment 對象的 export 方法即可。

from pydub import AudioSegmentsong = AudioSegment.from_mp3("高梨康治 - 百鬼夜行.mp3")song.export("百鬼夜行.wav", "wav")

指定文件名和保存的類型即可，注意：第二個參數表示保存的音頻的類型，必須要指定正確。如果不指定那么默認是 mp3，即便我們第一個參數的文件名結尾是 .wav，但是保存的時候仍是 mp3。

所以基于 pydub 可以很容易地實現音頻格式轉換。

修改屬性

有時我們需要改變文件的格式，但有時也需要改變文件的屬性。比如某個 MP3 文件的采樣頻率有點高，我們需要降低一些，或者雙聲道變成單聲道等等，這個時候該怎么做呢？

from pydub import AudioSegmentsong = AudioSegment.from_mp3("高梨康治 - 百鬼夜行.mp3")print(song.channels)  # 2# 將通道設置為 1, 然后導出song.set_channels(1).export("高梨康治 - 百鬼夜行_1.mp3", "mp3")# 重新讀取, 查看通道print(    AudioSegment.from_mp3(r"高梨康治 - 百鬼夜行_1.mp3").channels)  # 1

1 表示單聲道，2 表示雙聲道，從單聲道轉成雙聲道不會有任何的改變，但從雙聲道轉成單聲道可能會導致質量損失（當左右聲道不同時）。

單聲道：只用一條音頻通道記錄聲音，是最古老、最基礎的聲音記錄方式。單聲道因為只有一條音頻通道，所以我們的大腦接收的左右耳的信息沒有差異，聽覺系統就不會產生心理聲學的定位，所以不會有寬度及深度的差異。只能感受到聲音、音樂的前后位置及音色、音量的大小，而不能感受到聲音從左到右等橫向的移動。效果相對于真實的自然聲來說，是簡單化的，是失真了的。所以聽出來的聲音干澀，沒有層次感，沒有現場感，一般用來聽新聞廣播，因為單聲道信號簡單不易丟失。原理是把來自不同方位的音頻信號混合后統一由錄音器材把它記錄下來，再由一只音箱進行重放。

雙聲道：人們聽到聲音時可以根據左耳和右耳對聲音的相位差來判斷聲源的具體位置，在電路上它們往往各自傳遞的電信號是不一樣的。相當于實現立體聲的原理，在空間放置兩個互成一定角度的揚聲器，每個揚聲器單獨由一個聲道提供信號。而每個聲道的信號在錄制的時候就經過了處理，有些音樂就跟氣流一樣，從左到右再從右到左，因為是兩個不同的聲道，當一個聲道的響度比另一個聲道大的時候，我們就感覺聲音好像有了方向一樣。雙聲道立體感強，有音場，多用于音樂、CD 等專輯。基本上音樂都是雙聲道，如果是單聲道的音樂，只能說明音質非常非常差。

注意：設置的話不要通過下面這種方式來設置。

from pydub import AudioSegmentsong = AudioSegment.from_mp3("高梨康治 - 百鬼夜行.mp3")song.channels = 1

因為一個屬性變了，可能會影響其它的屬性，比如：幀大小，它等于通道數乘上采樣寬度（采樣位數 / 8），如果通道變了，那么幀大小也會受到影響。所以我們應該通過 pydub 提供的 API 來設置，內部會自動幫我們處理。

from pydub import AudioSegmentsong = AudioSegment.from_mp3("高梨康治 - 百鬼夜行.mp3")print(song.frame_rate)  # 44100# 更改采樣頻率, 一般都是 44100, 我們可以修改為其它的值# 注意: 并不是任意值都可以, 只能是 8000 12000 16000 24000 32000 44100 48000 之一# 如果不是這些值當中的一個, 那么會當中選擇與設置的值最接近的一個# 比如我們設置 18000, 那么會自動變成 16000song.set_frame_rate(18000).export("高梨康治 - 百鬼夜行_1.mp3", "mp3")print(    AudioSegment.from_mp3(r"高梨康治 - 百鬼夜行_1.mp3").frame_rate)  # 16000

采樣頻率等于幀速率，以赫茲為單位。增大這個值通常不會導致質量的下降，但降低這個值一定會導致質量的下降，因為更高的幀速率意味著更大的頻響特征（即可以表示更高的頻率）。

除了通道數、采樣頻率之外，我們還可以設置采樣寬度（采樣位數除以 8），對于一個音頻而言能設置這些屬性已經足夠了。像很多大廠提供的音頻識別服務，也會對音頻屬性有嚴格的限制，而限制的屬性也基本上就這些。無非是通道、采樣頻率、采樣位數等等。

from pydub import AudioSegmentsong = AudioSegment.from_mp3("高梨康治 - 百鬼夜行.mp3")print(song.sample_width)  # 2song.set_sample_width(3).export("高梨康治 - 百鬼夜行_1.mp3", "mp3")print(    AudioSegment.from_mp3(r"高梨康治 - 百鬼夜行_1.mp3").sample_width)  # 2

從打印的結果上來看，我們似乎沒有設置成功，因為這和音頻本身也是有相應關系的。可能音頻本身的采樣寬度就只能是 2，不過絕大部分音頻的采樣寬度都是 2，即采樣位數為 16。

export 的其它參數

我們導出音頻的時候使用的是 export 方法，這里面還可以接收其它參數，先來看看我們導出的音頻的原始的音頻之間的差異。

我們看到原始的音頻有很多其它信息，比如作曲人、專輯等等，但是我們導出的沒有，那么可不可以設置呢。答案是可以的，在導出的時候加上一個 tags 參數即可。

from pydub import AudioSegmentsong = AudioSegment.from_mp3(r"高梨康治 - 百鬼夜行.mp3")song.export("高梨康治 - 百鬼夜行_1.mp3",            "mp3",            tags={"artist": "古明地覺",                  "album": "地靈殿專輯",                  "title": "好聽的百鬼夜行",                  "comments": "媽耶, 真好聽"})

再來看看效果。

其它的屬性可以單擊右鍵，然后點擊屬性查看。對了還有圖片，如果在導出的時候想要自定義封面的話，可以通過 cover 參數，傳遞一個圖片文件地址即可。

另外，我們這里導出的文件要比原始文件小很多，原因在于比特率不一樣。原始的音頻的比特率是 320kbps，而我們導出的音頻的比特率要小很多。因為比特率表示音頻一秒所需的比特數，比特率越小，顯然文件就越小。而我們在導出的時候也是可以修改比特率的：

song.export("高梨康治 - 百鬼夜行_1.mp3",            "mp3",            bitrate="320k")

以上就是 pydub 對音頻的一些常見操作，總的來說支持的功能還是比較多的。如果你對音視頻處理感興趣，可以在這一領域深耕下去，因為涉足該領域的人確實不多。

本文鏈接：http://www.www897cc.com/showinfo-26-34900-0.html分享一個 Python 處理音頻的庫

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Gin 實現統一異常處理和封裝統一返回結果

下一篇： TypeScript中遍歷對象鍵的方法

標簽：

熱門焦點

K60至尊版剛預熱一加Ace2 Pro正面硬剛

Redmi這邊剛如火如荼的宣傳了K60 Ultra的各種技術和硬件配置，作為競品的一加也坐不住了。一加中國區總裁李杰發布了兩條微博，表示在自家的一加Ace2上早就已經采用了和PixelWo
天貓精靈Sound Pro體驗：智能音箱沒有音質？來聽聽我的

這幾年除了手機作為智能生活終端最主要的核心之外，第二個可以成為中心點的產品是什么？——是智能音箱。手機在執行命令的時候有兩種操作方式，手和智能語音助手，而智能音箱只
女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

近日，江蘇蘇州一女孩租房當天充值了100元電費，開著空調不到2小時發現電費已用完。對于為什么這個快，房東表示，電表壞了這種情況很多，之前也遇到過，給租客換
從零到英雄：高并發與性能優化的神奇之旅

作者 | 波哥審校 | 重樓作為公司的架構師或者程序員，你是否曾經為公司的系統在面對高并發和性能瓶頸時感到手足無措或者焦頭爛額呢？筆者在出道那會為此是吃盡了苦頭的，不過也得
Temu起訴SHEIN，跨境電商戰事升級

來源 | 伯虎財經（bohuFN）作者 | 陳平安日前據外媒報道，拼多多旗下跨境電商平臺Temu正對競爭對手SHEIN提起新訴訟，訴狀稱Shein“利用市場支配力量強迫服裝廠商與之簽訂獨家
梁柱接棒兩年，騰訊音樂闖出新路子

文丨田靜出品丨牛刀財經（niudaocaijing）7月5日，企鵝FM發布官方公告稱由于業務調整，將于9月6日正式停止運營，這意味著騰訊音樂長音頻業務走向消亡。騰訊在長音頻領域還在摸索。為
iQOO Neo8 Pro即將開售：到手價3099元起安卓性能最強旗艦

5月23日，iQOO如期舉行了新品發布會，全新的iQOO Neo8系列也正式與大家見面，包含iQOO Neo8和iQOO Neo8 Pro兩個版本，其中標準版搭載高通驍龍8+，而Pro版更
聯想小新Pad Pro 12.6將要推出，搭載高通驍龍 870 處理器

聯想小新Pad Pro 12.6將于秋季新品會上推出，官方按照慣例直接在發布會前給出了機型的所有參數。聯想小新 Pad Pro 12.6 將搭載高通驍龍 870 處理器，重量為 5
利用職權私自解除被封帳號 Meta開除20多名員工

11月18日消息，據外媒援引知情人士表示，過去一年時間內，Facebook母公司Meta解雇或處罰了20多名員工以及合同工，指控這些人通過內部系統以不當方式重置用戶帳號，其

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

分享一個 Python 處理音頻的庫

打開音頻文件

截取某一個片段

音量增加和減小

音頻拼接

淡入淡出

重復

反轉音頻

兩個音頻重疊播放

聲道分離

獲取音頻的某一幀

獲取音頻屬性

音頻導出

修改屬性

export 的其它參數

K60至尊版剛預熱一加Ace2 Pro正面硬剛

天貓精靈Sound Pro體驗：智能音箱沒有音質？來聽聽我的

女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

從零到英雄：高并發與性能優化的神奇之旅

Temu起訴SHEIN，跨境電商戰事升級

梁柱接棒兩年，騰訊音樂闖出新路子

iQOO Neo8 Pro即將開售：到手價3099元起安卓性能最強旗艦

聯想小新Pad Pro 12.6將要推出，搭載高通驍龍 870 處理器

利用職權私自解除被封帳號 Meta開除20多名員工

最新推薦

猜你喜歡

熱門推薦

相關資訊