Python【前処理】補習塾

【Excel操作のイメージでPandas前処理①】csv読み込み、データサイズの確認、各データの種類数を確認

Python【前処理】補習塾
【基本データ】(基本情報・リスト)
product_list …商品名と値段の2列、メニュー表みたいなもの。
list_2021 …顧客リスト。登録順につけたIDと、企業名・所在地・電話番号・アドレス・業種を記録している。
【記録データ】
202107_list …日々の販売記録。購入日・ID・商品・合計支払金額を記録しており、毎日新しい行が下に追加される。(商品ごとに記録していたが、個数を記録していない)

データの読み込み(CSV)

Pandasを使ってcsvファイルを読み込みます。

# pandasを読み込む
import pandas as pd

# pathを指定しておく
path_01 = "(2021207_list.csvのコピーしたパス)"

# df_01にデータ(csvファイル)を読み込む
df_01 = pd.read_csv(path_01)

# df_01の先頭5行を見て確認する
# .head(10)にすると、先頭10行を見れる
df_01.head()

Windowsの場合、エクスプローラー(フォルダ)を開いて読み込みたいファイルを選んだ後、左上「ホーム」の「クリップボード」のうち『パスのコピー』というのがあるので、これをクリックすればマウス操作だけで選んだファイルのパスがコピーされるので、そのままペーストすればOKです。(この操作の場合、「” ”」が自動で入ってくるので上のコードの「” ”」は不要です)

【補足】
csvを読み込んだとき、上手く読み込めないことが多々あります。その中でも「エンコードがおかしい」というケース(エラー)が多いように思います。その場合、

# エンコードエラーの場合
df_01 = pd.read_csv(path_01, encoding="utf-8")

このように、パスの後ろに「, encoding=”◯◯”」を付けると、読み込み時のエンコードを指定することができます。
経験上、◯◯の部分は『utf-8』『shift-jis』『cp932』のどれかにすると、どれかで上手く読み込まれることが多い印象です。

 

データのサイズ(行数・列数)を確認する

# 行数と列数を一気に確認(データのサイズを見る)

# データのサイズを見る
data.shape

この「.shape」ですが、データ結合など行った後は毎回これで正しく操作できたかを確認した方が良い、と言えるくらい使ったほうが良いです。

 

各データの種類数を確認する

今回はIDや商品が何種類あるのか全く分からないので、いったん「それぞれのデータが何種類の内容を持っているのか」を見てみます。

# 各データの種類数を見る
df_01.nunique()
購入日 6
ID 18
商品 5
支払金額 28
dtype: int64

df_01に「.nunique()」を付けると、各列に何種類のデータが含まれているのか、その数が一覧で分かります。
次に、各列の内容が「どのようなデータなのか」を見てみます。

# (例)商品の内容を見る
df_01["商品"].unique()
array([‘E’, ‘B’, ‘A’, ‘D’, ‘C’], dtype=object)

種類を一覧で見るには、df_01[“列名”]で見たい列名を指定し、「.unique()」を付けます。

 

 

【プログラミング入門書ランキング】

 

コメント

タイトルとURLをコピーしました