概要
pandas は超便利です
pandas で解釈した dataframe の操作に関するメモをまとめます
思い出したら定期的に追記していきます
テーブルから dataframe の生成
df = pd.read_html(str(table_html_source)) |
抽出
例:特定のカラムで条件に合う行を抽出
df = df[~(df["キー 1"].isna()) & ~(all["キー 2"] == 0)] |
.isna
は数字かどうか、==0
はそのままですね
~
これで否定です
dataframe はなにかフィルター系の処理をしたら dataframe がまた返ってくるので、元のものを上書きするか、別で保持する必要があります
正規表現を使った抽出
例:特定のカラムで正規表現を使って抽出
print(df["キー名"].str.extract(r"(\d.+)")) |
置換
df = df["キー 1"].replace("あ", "", regex=True).astype(int) |
型の強制
df = df["キー 1"].astype(int) |
置換とかをしたあとに意図したデータだけになっているかとかの確認で使ってます
異常値があれば置換だったりの不足に使えます