データの読み込み(CSV)
Pandasを使ってcsvファイルを読み込みます。
# pandasを読み込む
import pandas as pd
# pathを指定しておく
path_01 = "(2021207_list.csvのコピーしたパス)"
# df_01にデータ(csvファイル)を読み込む
df_01 = pd.read_csv(path_01)
# df_01の先頭5行を見て確認する
# .head(10)にすると、先頭10行を見れる
df_01.head()
Windowsの場合、エクスプローラー(フォルダ)を開いて読み込みたいファイルを選んだ後、左上「ホーム」の「クリップボード」のうち『パスのコピー』というのがあるので、これをクリックすればマウス操作だけで選んだファイルのパスがコピーされるので、そのままペーストすればOKです。(この操作の場合、「” ”」が自動で入ってくるので上のコードの「” ”」は不要です)
【補足】
csvを読み込んだとき、上手く読み込めないことが多々あります。その中でも「エンコードがおかしい」というケース(エラー)が多いように思います。その場合、
# エンコードエラーの場合
df_01 = pd.read_csv(path_01, encoding="utf-8")
このように、パスの後ろに「, encoding=”◯◯”」を付けると、読み込み時のエンコードを指定することができます。
経験上、◯◯の部分は『utf-8』『shift-jis』『cp932』のどれかにすると、どれかで上手く読み込まれることが多い印象です。
データのサイズ(行数・列数)を確認する
# 行数と列数を一気に確認(データのサイズを見る)
# データのサイズを見る
data.shape
この「.shape」ですが、データ結合など行った後は毎回これで正しく操作できたかを確認した方が良い、と言えるくらい使ったほうが良いです。
各データの種類数を確認する
今回はIDや商品が何種類あるのか全く分からないので、いったん「それぞれのデータが何種類の内容を持っているのか」を見てみます。
# 各データの種類数を見る
df_01.nunique()
購入日 6
ID 18
商品 5
支払金額 28
dtype: int64
ID 18
商品 5
支払金額 28
dtype: int64
df_01に「.nunique()」を付けると、各列に何種類のデータが含まれているのか、その数が一覧で分かります。
次に、各列の内容が「どのようなデータなのか」を見てみます。
# (例)商品の内容を見る
df_01["商品"].unique()
array([‘E’, ‘B’, ‘A’, ‘D’, ‘C’], dtype=object)
種類を一覧で見るには、df_01[“列名”]で見たい列名を指定し、「.unique()」を付けます。
【プログラミング入門書ランキング】
コメント