今回はpythonのライブラリのpandasについて紹介します。
pandasは大規模なデータの処理が得意なライブラリです。
AIやビッグデータでは大量のデータを扱うため、pandasの利用がほぼ必須となってきます。
今回は簡単なサンプルプログラムをお見せして、どのように使うのかを紹介します。
《PR:Pythonにお困りでしたらこちらからご相談ください》
pandasの使い方
pandasではデータフレーム(dataframe)という独自の型が存在します。
pandasを使うならデータフレームを理解することが必須となります。
データフレームを使うイメージを覚えてもらうため、データフレームの使用サンプルとして、データフレームにランダムな数(乱数)を入れてみたいと思います。
import pandas as pd
import numpy as np
# 行と列のサイズを指定
rows = 5
cols = 3
# 乱数を生成して変数に代入
random_data = np.random.rand(rows, cols)
# 乱数で埋めるデータフレームを作成
df = pd.DataFrame(random_data, columns=['A', 'B', 'C'])
# 結果を表示
print(df)
データフレームに乱数を入れるプログラムはこのようになります。
順番に説明していきます。
# 乱数を生成して変数に代入
random_data = np.random.rand(rows, cols)
まずこの部分で、5かける3の乱数の配列を作っています。
乱数の作成にはnumpyというライブラリを使っています。
# 乱数で埋めるデータフレームを作成
df = pd.DataFrame(random_data, columns=['A', 'B', 'C'])
そしてpd.DataFrameメソッドでデータフレームを作成して、その中に先ほどの乱数の配列を入れています。
columns=['A', 'B', 'C']はデータフレームの見出しです。
プログラムを実行すると、画像のように5かける3の乱数が表示されます。
見出しがA, B, Cとなっているのも分かると思います。
これを他の言語でやろうとすると骨が折れるのですが、Pythonならわずか15行のプログラムで実現できます。
この簡単さがPythonの魅力です。
Pythonをやってみたいけど、よく分からないことが出てきたときには、下のリンクからご相談受け付けていますのでお気軽にご連絡ください。