pandasの前処理で使っているもの自分用まとめ
どんな記事?
pandasの前処理で使ったことのあるmethodの書いているウェブページなどをまとめていく記事。
用途は自分用。
どんどん追加していく(予定)
基本的に
前処理大全[データ分析のためのSQL/R/Python実践テクニック]
- 作者: 本橋智光
- 出版社/メーカー: 技術評論社
- 発売日: 2018/04/13
- メディア: 大型本
- この商品を含むブログ (1件) を見る
に載ってそう。
ただ,外で突然調べたいときに,もう一度調べるのがめんどくさいので,時間があるときに少しずつ調べたmethodを書いておく。
列名をindexに変更する
set_index()
df.set_index("hoge")
でhoge
がindex名に変わる。
index名でmergeする。
が詳しい。
merge
だったり,join
だったりする。
pandasの公式
pandas.DataFrame.join — pandas 0.23.4 documentation
を見たけど,nanを自動的にドロップする引数はないので,必要があればdropna()
を使う。
dropna()
dropna()
は列であれば,axis
を指定しなくてもよいが,あとで読む人がわかりやすいように,axis=0
と明示的に書いておいたほうが良さそう。
また,inplace=True
を入れておくことで
df = df.dropna(axis=0, how=`any`)
と自分に代入していたのを,
df.dropna(axis=0, how=`any`, inplace=True)
と代入しなくてもよくなるので,このほうがわかりやすいだろう(ほんとか?)
reset_index()
unstackしたりしたときに,multicolumnsになったりするので,インデックスをリセットしてくれる。
multi columnsになったら,columnsがdataframeのnameになったりするので,それはどうにかできないか不明。