日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

使用Python分析時序數據集中的缺失數據

來源: 責編: 時間:2023-10-10 18:31:46 248觀看
導讀簡介時間序列數據幾乎每秒都會從多種來源收集,因此經常會出現一些數據質量問題,其中之一是缺失數據。在序列數據的背景下,缺失信息可能由多種原因引起,包括采集系統的錯誤(例如傳感器故障)、傳輸過程中的錯誤(例如網絡連接的

簡介

時間序列數據幾乎每秒都會從多種來源收集,因此經常會出現一些數據質量問題,其中之一是缺失數據。5wU28資訊網——每日最新資訊28at.com

在序列數據的背景下,缺失信息可能由多種原因引起,包括采集系統的錯誤(例如傳感器故障)、傳輸過程中的錯誤(例如網絡連接的故障)或者數據收集過程中的錯誤(例如數據記錄過程中的人為錯誤)。這些情況經常會在數據集中產生零散和明確的缺失值,對應于采集數據流中的小缺口。5wU28資訊網——每日最新資訊28at.com

此外,缺失信息也可能由于領域本身的特性而自然產生,從而在數據中形成較大的缺口。例如,某個特征在一段時間內停止采集,從而產生非顯性的缺失數據。5wU28資訊網——每日最新資訊28at.com

無論底層原因如何,時間序列中存在缺失數據會對預測和預測模型產生嚴重的不利影響,并且可能對個人(例如誤導的風險評估)和業務結果(例如偏差的業務決策、收入和機會的損失)造成嚴重后果。5wU28資訊網——每日最新資訊28at.com

因此,在為建模方法準備數據時,一個重要的步驟是能夠識別這些未知信息的模式,因為它們將幫助我們決定處理數據的最佳方法,以提高數據的一致性和效率,可以通過某種形式的對齊校正、數據插值、數據填補,或者在某些情況下,進行逐案刪除(即,在特定分析中對具有缺失值的特征省略案例)。5wU28資訊網——每日最新資訊28at.com

因此,進行全面的探索性數據分析和數據剖析是不可或缺的,這不僅有助于理解數據特征,還能就如何為分析準備最佳數據做出明智決策。5wU28資訊網——每日最新資訊28at.com

在這個實踐教程中,我們將探索如何使用新版本ydata-profiling最近推出的功能來解決這些相關問題。本文將使用Kaggle上提供的美國污染數據集(許可證DbCL v1.0),該數據集詳細記錄了美國各州的NO2、O3、SO2和CO污染物的信息。5wU28資訊網——每日最新資訊28at.com

【ydata-profiling】:https://github.com/ydataai/ydata-profiling5wU28資訊網——每日最新資訊28at.com

【Kaggle上提供的美國污染數據集】:https://www.kaggle.com/datasets/sogun3/uspollution?resource=download5wU28資訊網——每日最新資訊28at.com

實踐教程:對美國污染數據集進行剖析

為了開始我們的教程,首先需要安裝最新版本的ydata-profiling:5wU28資訊網——每日最新資訊28at.com

pip install ydata-profiling==4.5.1

然后就可以加載數據,刪除不必要的特征,并專注于我們要研究的內容。為了本例的目的,我們將重點研究亞利桑那州馬里科帕縣斯科茨代爾站測量的空氣污染物的特定行為:5wU28資訊網——每日最新資訊28at.com

import pandas as pd data = pd.read_csv("data/pollution_us_2000_2016.csv")data = data.drop('Unnamed: 0', axis = 1) # 刪除不必要的索引 # 從亞利桑那州,馬里科帕縣,斯科茨代爾站(站點編號:3003)選擇數據data_scottsdale = data[data['Site Num'] == 3003].reset_index(drop=True)

現在,準備開始對數據集進行剖析!請記住,在使用時間序列剖析時,我們需要傳遞參數tsmode=True,以便ydata-profiling可以識別與時間相關的特征:5wU28資訊網——每日最新資訊28at.com

# 將'Date Local'改為日期時間格式data_scottsdale['Date Local'] = pd.to_datetime(data_scottsdale['Date Local']) # 創建概述報告profile_scottsdale = ProfileReport(data_scottsdale, tsmode=True, sortby="Date Local")profile_scottsdale.to_file('profile_scottsdale.html')

時間序列概述

輸出報告將與我們已經知道的內容一樣熟悉,但在體驗上有所改進,并新增了時間序列數據的匯總統計:5wU28資訊網——每日最新資訊28at.com

圖片圖片5wU28資訊網——每日最新資訊28at.com

從概述中可以通過查看所提供的匯總統計數據,從而對該數據集有一個整體的了解:5wU28資訊網——每日最新資訊28at.com

  • 它包含14個不同的時間序列,每個時間序列有8674個記錄值;
  • 該數據集報告了2000年1月至2010年12月的10年數據;
  • 時間序列的平均時間間隔為11小時零7分鐘左右。這意味著平均而言每11小時就進行一次測量。

還可以獲取數據中所有序列的概覽圖,可以選擇以原始值或縮放值顯示:可以很容易地把握序列的總體變化情況,以及正在測量的組分(二氧化氮、臭氧、二氧化硫、一氧化碳)和特征(平均值、第一最大值、第一最大小時、空氣質量指數)。5wU28資訊網——每日最新資訊28at.com

檢查缺失數據

在對數據有一個總體了解之后,我們可以關注每個時間序列的具體情況。5wU28資訊網——每日最新資訊28at.com

在最新版本的ydata-profiling中,分析報告在針對時間序列數據方面進行了大幅改進,即針對“時間序列”和“間隙分析”指標進行報告。這些新功能極大地方便了趨勢和缺失模式的識別,現在還提供了具體的匯總統計數據和詳細的可視化。5wU28資訊網——每日最新資訊28at.com

所有時間序列都會呈現不穩定模式,其中在連續測量之間似乎存在某種“跳躍”。這表明存在缺失數據(缺失信息的“間隙”),應該對其進行更仔細的研究。本文以S02 Mean為例來看一下。5wU28資訊網——每日最新資訊28at.com

圖片圖片5wU28資訊網——每日最新資訊28at.com

圖片圖片5wU28資訊網——每日最新資訊28at.com

在研究間隙分析所提供的細節時,可以獲得對于已識別間隙特征的信息描述。總體而言,時間序列中有25個間隙,最短間隔為4天,最長為32周,平均為10周。5wU28資訊網——每日最新資訊28at.com

從所呈現的可視化效果中,可以注意到較為“隨機”的細條紋代表的是較小的間隙,而較大的間隙似乎遵循著一種重復的模式。這表明我們的數據集中存在兩種不同的缺失數據模式。5wU28資訊網——每日最新資訊28at.com

較小的間隙對應于產生缺失數據的零星事件,很可能是由于采集過程中的錯誤而發生的,通常可以很容易地對數據進行插值或從數據集中刪除。反之,較大的間隙則更為復雜,需要進行更詳細的分析,因為它們可能揭示了需要更徹底解決的潛在模式。5wU28資訊網——每日最新資訊28at.com

在本文的例子中,如果我們調查較大的間隙,實際上會發現它們反映了一個季節性模式:5wU28資訊網——每日最新資訊28at.com

df = data_scottsdale.copy()for year in df["Date Local"].dt.year.unique():    for month in range(1,13):        if ((df["Date Local"].dt.year == year) & (df["Date Local"].dt.month ==month)).sum() == 0:            print(f'Year {year} is missing month {month}.')
# Year 2000 is missing month 4.# Year 2000 is missing month 5.# Year 2000 is missing month 6.# Year 2000 is missing month 7.# Year 2000 is missing month 8.# (...)# Year 2007 is missing month 5.# Year 2007 is missing month 6.# Year 2007 is missing month 7.# Year 2007 is missing month 8.# (...)# Year 2010 is missing month 5.# Year 2010 is missing month 6.# Year 2010 is missing month 7.# Year 2010 is missing month 8.

正如我們所猜測的那樣,時間序列中呈現出一些較大的信息間隙,它們似乎具有重復性,甚至是季節性的:在大多數年份中,從5月到8月(第5至8個月)之間未收集數據。出現這種情況可能是由于不可預測的原因,或者與業務決策有關,例如與削減成本有關的決定,或者僅僅是與天氣模式、溫度、濕度和大氣條件相關的污染物的季節性變化有關。5wU28資訊網——每日最新資訊28at.com

根據這些發現,我們可以進一步調查為什么會發生這種情況,是否應該采取措施防止今后出現這種情況,以及如何處理我們目前擁有的數據。5wU28資訊網——每日最新資訊28at.com

最后的思考:填補、刪除、重新對齊?

在本教程中,已經了解到理解時間序列中缺失數據模式的重要性,以及有效的分析方法如何揭示缺失信息的奧秘。無論是電信、醫療、能源還是金融等所有收集時間序列數據的行業,都會在某個時候面臨缺失數據的問題,并需要決定處理和從中提取所有可能知識的最佳方法。5wU28資訊網——每日最新資訊28at.com

通過全面的數據分析,我們可以根據手里擁有的數據特征做出明智而高效的決策:5wU28資訊網——每日最新資訊28at.com

  • 信息間隙可能是由于采集、傳輸和收集過程中的零星事件導致的。我們可以通過修復問題以防止其再次發生,并根據間隙的長度進行插值或填補缺失數據。
  • 信息間隙也可能表示季節性或重復性模式。我們可以選擇重構我們的流程,開始收集缺失的信息,或者用來自其他分布式系統的外部信息替代缺失的間隙。我們還可以確定檢索過程是否失敗(也許是在數據工程方面輸入錯誤的查詢)。

希望本教程能夠幫助你正確識別和描述時間序列數據中的缺失數據,期待你在間隙分析中的發現!5wU28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-12731-0.html使用Python分析時序數據集中的缺失數據

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 如何校驗內存數據的一致性,DynamicExpresso 算是幫上大忙了

下一篇: 構建容器化的電子簽名和文件加密系統:保護數據的完整性與隱私

標簽:
  • 熱門焦點
  • 5月安卓手機好評榜:魅族20 Pro奪冠

    性能榜和性價比榜之后,我們來看最后的安卓手機好評榜,數據來源安兔兔評測,收集時間2023年5月1日至5月31日,僅限國內市場。第一名:魅族20 Pro好評率:97.50%不得不感慨魅族老品牌還
  • Rust中的高吞吐量流處理

    作者 | Noz編譯 | 王瑞平本篇文章主要介紹了Rust中流處理的概念、方法和優化。作者不僅介紹了流處理的基本概念以及Rust中常用的流處理庫,還使用這些庫實現了一個流處理程序
  • CSS單標簽實現轉轉logo

    轉轉品牌升級后更新了全新的Logo,今天我們用純CSS來實現轉轉的新Logo,為了有一定的挑戰性,這里我們只使用一個標簽實現,將最大化的使用CSS能力完成Logo的繪制與動畫效果。新logo
  • 一文看懂為蘋果Vision Pro開發應用程序

    譯者 | 布加迪審校 | 重樓蘋果的Vision Pro是一款混合現實(MR)頭戴設備。Vision Pro結合了虛擬現實(VR)和增強現實(AR)的沉浸感。其高分辨率顯示屏、先進的傳感器和強大的處理能力
  • 三言兩語說透設計模式的藝術-單例模式

    寫在前面單例模式是一種常用的軟件設計模式,它所創建的對象只有一個實例,且該實例易于被外界訪問。單例對象由于只有一個實例,所以它可以方便地被系統中的其他對象共享,從而減少
  • 十個簡單但很有用的Python裝飾器

    裝飾器(Decorators)是Python中一種強大而靈活的功能,用于修改或增強函數或類的行為。裝飾器本質上是一個函數,它接受另一個函數或類作為參數,并返回一個新的函數或類。它們通常用
  • 阿里大調整

    來源:產品劉有媒體報道稱,近期淘寶天貓集團啟動了近年來最大的人力制度改革,涉及員工績效、層級體系等多個核心事項,目前已形成一個初步的“征求意見版”:1、取消P序列
  • OPPO K11評測:旗艦級IMX890加持 2000元檔最強影像手機

    【Techweb評測】中端機型用戶群體巨大,占了中國目前手機市場的大頭,一直以來都是各手機品牌的“必爭之地”,其中OPPO K系列機型一直以來都以高品質、
  • 聯想的ThinkBook Plus下一版曝光,鍵盤旁邊塞個平板

    ThinkBook Plus 是聯想的一個特殊筆記本類別,它在封面放入了一塊墨水屏,也給人留下了較為深刻的印象。據有人爆料,聯想的下一款 ThinkBook Plus 可能更特殊,它
Top 主站蜘蛛池模板: 邢台县| 榆林市| 甘泉县| 岳阳市| 兴和县| 武城县| 政和县| 珲春市| 白水县| 老河口市| 扬中市| 堆龙德庆县| 宿迁市| 吉首市| 昌宁县| 牡丹江市| 兴仁县| 陵川县| 徐闻县| 鄂州市| 桑日县| 永和县| 锡林郭勒盟| 淳化县| 洪雅县| 长寿区| 桓台县| 隆回县| 迁西县| 遵化市| 名山县| 黄山市| 祁东县| 海伦市| 渝北区| 库车县| 晋宁县| 叶城县| 铜川市| 和平县| 梓潼县|