日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 科技  > 軟件

四個(gè)解決特定的任務(wù)的Pandas高效代碼

來源: 責(zé)編: 時(shí)間:2023-12-04 17:25:59 280觀看
導(dǎo)讀在本文中,我將分享4個(gè)在一行代碼中完成的Pandas操作。這些操作可以有效地解決特定的任務(wù),并以一種好的方式給出結(jié)果。從列表中創(chuàng)建字典我有一份商品清單,我想看看它們的分布情況。更具體地說:希望得到唯一值以及它們?cè)诹?/div>

在本文中,我將分享4個(gè)在一行代碼中完成的Pandas操作。這些操作可以有效地解決特定的任務(wù),并以一種好的方式給出結(jié)果。uIv28資訊網(wǎng)——每日最新資訊28at.com

uIv28資訊網(wǎng)——每日最新資訊28at.com

從列表中創(chuàng)建字典

我有一份商品清單,我想看看它們的分布情況。更具體地說:希望得到唯一值以及它們?cè)诹斜碇谐霈F(xiàn)的次數(shù)。uIv28資訊網(wǎng)——每日最新資訊28at.com

Python字典是以這種格式存儲(chǔ)數(shù)據(jù)的好方法。鍵將是字典,值是出現(xiàn)的次數(shù)。uIv28資訊網(wǎng)——每日最新資訊28at.com

這里可以使用value_counts和to_dict函數(shù),這項(xiàng)任務(wù)可以在一行代碼中完成。uIv28資訊網(wǎng)——每日最新資訊28at.com

這里有一個(gè)簡單的例子來說明這種情況:uIv28資訊網(wǎng)——每日最新資訊28at.com

import pandas as pd  grades = ["A", "A", "B", "B", "A", "C", "A", "B", "C", "A"]  pd.Series(grades).value_counts().to_dict()  # output {'A': 5, 'B': 3, 'C': 2}

將列表轉(zhuǎn)換為Pandas Series,這是Pandas的一維數(shù)據(jù)結(jié)構(gòu),然后應(yīng)用value_counts函數(shù)來獲得在Series中出現(xiàn)頻率的唯一值,最后將輸出轉(zhuǎn)換為字典。這個(gè)操作非常高效且易于理解。uIv28資訊網(wǎng)——每日最新資訊28at.com

從JSON文件創(chuàng)建DataFrame

JSON是一種常用的存儲(chǔ)和傳遞數(shù)據(jù)的文件格式。uIv28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)我們清理、處理或分析數(shù)據(jù)時(shí),我們通常更喜歡使用表格格式(或類似表格的數(shù)據(jù))。由于json_normalize函數(shù),我們可以通過一個(gè)操作從json格式的對(duì)象創(chuàng)建Pandas DataFrame。uIv28資訊網(wǎng)——每日最新資訊28at.com

假設(shè)數(shù)據(jù)存儲(chǔ)在一個(gè)名為data的JSON文件中。一般情況我們都是這樣讀取:uIv28資訊網(wǎng)——每日最新資訊28at.com

import json  with open("data.json") as f:     data = json.load(f)  data # output {'data': [{'id': 101,    'category': {'level_1': 'code design', 'level_2': 'method design'},    'priority': 9},  {'id': 102,    'category': {'level_1': 'error handling', 'level_2': 'exception logging'},    'priority': 8}]}

如果我們將這個(gè)變量傳遞給DataFrame構(gòu)造函數(shù),它將創(chuàng)建如下的DataFrame,這絕對(duì)不是一個(gè)可用的格式:uIv28資訊網(wǎng)——每日最新資訊28at.com

df = pd.DataFrame(data)

uIv28資訊網(wǎng)——每日最新資訊28at.com

但是如果我們使用json_normalize函數(shù)將得到一個(gè)整潔的DataFrame格式:uIv28資訊網(wǎng)——每日最新資訊28at.com

df = pd.json_normalize(data, "data")

uIv28資訊網(wǎng)——每日最新資訊28at.com

Explode函數(shù)

如果有一個(gè)與特定記錄匹配的項(xiàng)列表。需要重新格式化它,為該列表中的每個(gè)項(xiàng)目提供單獨(dú)的行。uIv28資訊網(wǎng)——每日最新資訊28at.com

uIv28資訊網(wǎng)——每日最新資訊28at.com

這是一個(gè)經(jīng)典的行分割成列的問題。有許多的不同的方法來解決這個(gè)任務(wù)。其中最簡單的一個(gè)(可能是最簡單的)是Explode函數(shù)。uIv28資訊網(wǎng)——每日最新資訊28at.com

我們以這個(gè)df為例uIv28資訊網(wǎng)——每日最新資訊28at.com

uIv28資訊網(wǎng)——每日最新資訊28at.com

使用explosion函數(shù)并指定列名:uIv28資訊網(wǎng)——每日最新資訊28at.com

df_new = df.explode(column="data").reset_index(drop=True)

uIv28資訊網(wǎng)——每日最新資訊28at.com

reset_index會(huì)為DataFrame分配一個(gè)新的整數(shù)索引。uIv28資訊網(wǎng)——每日最新資訊28at.com

combine_first函數(shù)

combine_first函數(shù)用于合并兩個(gè)具有相同索引的數(shù)據(jù)結(jié)構(gòu)。uIv28資訊網(wǎng)——每日最新資訊28at.com

它最主要的用途是用一個(gè)對(duì)象的非缺失值填充另一個(gè)對(duì)象的缺失值。這個(gè)函數(shù)通常在處理缺失數(shù)據(jù)時(shí)很有用。在這方面,它的作用與SQL中的COALESCE函數(shù)相同。uIv28資訊網(wǎng)——每日最新資訊28at.com

df = pd.DataFrame(    {         "A": [None, 0, 12, 5, None],          "B": [3, 4, 1, None, 11]    } )

uIv28資訊網(wǎng)——每日最新資訊28at.com

我們需要a列中的數(shù)據(jù)。如果有一行缺少值(即NaN),用B列中同一行的值填充它。uIv28資訊網(wǎng)——每日最新資訊28at.com

df["A"].combine_first(df["B"])  # output 0     3.0 1     0.0 2    12.0 3     5.0 4    11.0 Name: A, dtype: float64

可以看到的列A的第一行和最后一行取自列B。uIv28資訊網(wǎng)——每日最新資訊28at.com

如果我們想要使用3列,我們可以鏈接combine_first函數(shù)。下面的代碼行首先檢查列a。如果有一個(gè)缺失的值,它從列B中獲取它。如果列B中對(duì)應(yīng)的行也是NaN,那么它從列C中獲取值。uIv28資訊網(wǎng)——每日最新資訊28at.com

df["A"].combine_first(df["B"]).combine_first(df["C"])

我們還可以在DataFrame級(jí)別使用combine_first函數(shù)。在這種情況下,所有缺失的值都從第二個(gè)DataFrame的相應(yīng)值(即同一行,同列)中填充。uIv28資訊網(wǎng)——每日最新資訊28at.com

df1 = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}, index=['a', 'b', 'c', 'd']) df2 = pd.DataFrame({'A': [10, np.nan, 30, 40], 'B': [50, 60, np.nan, 80]}, index=['a', 'b', 'c', 'd']) result_df = df1.combine_first(df2)

在合并的過程中,df1 中的非缺失值填充了 df2 中對(duì)應(yīng)位置的缺失值。這有助于處理兩個(gè)數(shù)據(jù)集合并時(shí)的缺失值情況。uIv28資訊網(wǎng)——每日最新資訊28at.com

Merged DataFrame:       A     B a   1.0   5.0 b   2.0  60.0 c  30.0   7.0 d   4.0   8.0

總結(jié)

從計(jì)算簡單的統(tǒng)計(jì)數(shù)據(jù)到高度復(fù)雜的數(shù)據(jù)清理過程,Pandas都可以快速解決任務(wù)。上面的代碼可能不會(huì)經(jīng)常使用,但是當(dāng)你需要處理這種任務(wù)時(shí),它們是非常好的解決辦法。uIv28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-37666-0.html四個(gè)解決特定的任務(wù)的Pandas高效代碼

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 深入淺出JavaScript異步編程

下一篇: 開發(fā)者必備的五類AI工具,不容錯(cuò)過!

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 如何通過Python線程池實(shí)現(xiàn)異步編程?

    線程池的概念和基本原理線程池是一種并發(fā)處理機(jī)制,它可以在程序啟動(dòng)時(shí)創(chuàng)建一組線程,并將它們置于等待任務(wù)的狀態(tài)。當(dāng)任務(wù)到達(dá)時(shí),線程池中的某個(gè)線程會(huì)被喚醒并執(zhí)行任務(wù),執(zhí)行完任
  • Python異步IO編程的進(jìn)程/線程通信實(shí)現(xiàn)

    這篇文章再講3種方式,同時(shí)講4中進(jìn)程間通信的方式一、 Python 中線程間通信的實(shí)現(xiàn)方式共享變量共享變量是多個(gè)線程可以共同訪問的變量。在Python中,可以使用threading模塊中的L
  • 雅柏威士忌多款單品價(jià)格大跌,泥煤頂流也不香了?

    來源 | 烈酒商業(yè)觀察編 | 肖海林今年以來,威士忌市場開始出現(xiàn)了降溫跡象,越來越多不斷暴漲的網(wǎng)紅威士忌也開始悄然回歸市場理性。近日,LVMH集團(tuán)旗下蘇格蘭威士忌品牌雅柏(Ardbeg
  • 梁柱接棒兩年,騰訊音樂闖出新路子

    文丨田靜 出品丨牛刀財(cái)經(jīng)(niudaocaijing)7月5日,企鵝FM發(fā)布官方公告稱由于業(yè)務(wù)調(diào)整,將于9月6日正式停止運(yùn)營,這意味著騰訊音樂長音頻業(yè)務(wù)走向消亡。騰訊在長音頻領(lǐng)域還在摸索。為
  • 阿里大調(diào)整

    來源:產(chǎn)品劉有媒體報(bào)道稱,近期淘寶天貓集團(tuán)啟動(dòng)了近年來最大的人力制度改革,涉及員工績效、層級(jí)體系等多個(gè)核心事項(xiàng),目前已形成一個(gè)初步的“征求意見版”:1、取消P序列
  • 半導(dǎo)體需求下滑 三星電子DS業(yè)務(wù)部門今年?duì)I業(yè)虧損預(yù)計(jì)超10萬億韓元

    7月17日消息,據(jù)外媒報(bào)道,去年下半年開始的半導(dǎo)體需求下滑,影響到了三星電子、SK海力士、英特爾等諸多廠商,營收明顯下滑,部分廠商甚至出現(xiàn)了虧損。作為
  • 回歸OPPO兩年,一加贏了銷量,輸了品牌

    成為OPPO旗下主打性能的先鋒品牌后,一加屢創(chuàng)佳績。今年618期間,一加手機(jī)全渠道銷量同比增長362%,憑借一加 11、一加 Ace 2、一加 Ace 2V三款爆品,一加
  • 聯(lián)想小新Pad Pro 12.6將要推出,搭載高通驍龍 870 處理器

    聯(lián)想小新Pad Pro 12.6將于秋季新品會(huì)上推出,官方按照慣例直接在發(fā)布會(huì)前給出了機(jī)型的所有參數(shù)。聯(lián)想小新 Pad Pro 12.6 將搭載高通驍龍 870 處理器,重量為 5
  • 世界人工智能大會(huì)國際日開幕式活動(dòng)在世博展覽館開啟

    30日上午,世界人工智能大會(huì)國際日開幕式活動(dòng)在世博展覽館開啟,聚集國際城市代表、重量級(jí)院士專家、國際創(chuàng)新企業(yè)代表,共同打造人工智能交流平臺(tái)。上海市副市
Top 主站蜘蛛池模板: 阿拉善盟| 广平县| 连州市| 珠海市| 涿鹿县| 建昌县| 阿克陶县| 封开县| 香格里拉县| 绍兴市| 田阳县| 绵竹市| 惠水县| 全州县| 晋城| 岢岚县| 和政县| 定安县| 昌乐县| 尉犁县| 库车县| 泰和县| 大竹县| 满洲里市| 长沙县| 绵竹市| 宁河县| 宁陵县| 南京市| 杭州市| 台江县| 潞城市| 绵竹市| 富裕县| 思茅市| 元朗区| 沧州市| 盘锦市| 内丘县| 安阳县| 会泽县|