1. DataFrame
におけるフィルタリングの基本
フィルタリングって何のためにあるの?
セルフィーのアプリのフィルターのように、 pandasのフィルタリングは重要な部分に集中するのを手助けしてくれるよ。 いらないデータを除いて、本当に必要なものだけを残せるんだ。 これはデータ分析において基本的なツールで、大きなデータセットを扱う時や レポートを作成するときに特に役に立つよ。
最初のフィルタリング
シンプルな例から始めよう。商品の販売情報が入った
DataFrame
があるとしよう:
import pandas as pd
data = {
"商品": ["オレンジ", "バナナ", "リンゴ", "オレンジ", "リンゴ"],
"数量": [10, 5, 8, 7, 6],
"価格": [3.5, 2.0, 4.0, 3.0, 4.5]
}
df = pd.DataFrame(data)
# 商品名でフィルタリング
filtered_df = df[df["商品"] == "オレンジ"]
print(filtered_df)
条件を使うと?
条件を組み合わせることもできるよ!例えば、販売数量が6個以上で 価格が3.5以下の商品を探そう:
# 条件を & (論理「and」) を使って組み合わせる
filtered_df = df[(df["数量"] > 6) & (df["価格"] <= 3.5)]
print(filtered_df)
大事なポイントを覚えておこう
pandasではフィルターには角括弧を、条件には丸括弧を使うことを忘れないでね。 これを忘れると、「あの人」扱いされちゃうかもよ。
2. データのソート
ソートの重要性
データをソートすることで、混沌の中に秩序を見つけることができるんだ (データセットが混沌に見えることがあるとしてね)。 例えば、本が乱雑に置かれた図書館を想像してみて。 ソートは情報を整理して、分析やレポート作成、値を探すのに便利だよ。
1つの列でソート
DataFrame
を商品の価格昇順で並び替えよう:
# 価格の昇順でソート
sorted_df = df.sort_values(by="価格")
print(sorted_df)
複数列でのソート
例えば、数量でソートして、数量が同じなら価格で降順に並べたいとしよう。 こんな感じだよ:
# 数量と価格でソート
sorted_df = df.sort_values(by=["数量", "価格"], ascending=[True, False])
print(sorted_df)
ソートの注意点
ascending
パラメータを使えば、昇順や降順を指定できる。
データを効率的にコントロールするために重要なポイントだよ。
3. 実務での応用
実践課題
知識を活用しよう!例えば、ガジェットを販売する会社で働くアナリストだとする。 販売数量が100個を超える携帯モデルを見つけて、利益の降順で並べてみよう:
# 携帯電話の販売データ
data = {
"モデル": ["Phone X", "Phone Y", "Phone Z", "Phone X", "Phone Y"],
"販売量": [120, 150, 90, 130, 80],
"利益": [200, 180, 220, 210, 190]
}
df = pd.DataFrame(data)
# 販売量が100を超えるモデルをフィルタリング
filtered_df = df[df["販売量"] > 100]
# 利益の降順でソート
sorted_df = filtered_df.sort_values(by="利益", ascending=False)
print(sorted_df)
分析と議論
フィルタリングとソートを活用して、レポート用や必要なデータを 効率的に取得しよう。どんなツールでも、使いこなすには経験が必要だよ。 よくフォーマットされたデータはアナリストの誇りでもあるんだ。
よくある間違い
初心者がよくやるミスとしては、条件に丸括弧を使い忘れることだね。
そのせいでエラーが起きることがあるよ。料理中に鍋の蓋を閉め忘れるみたいに、
全てが制御不能になるかも。あと、複数列のソートで順序を間違えることも
よくあるね。ascending
を正しく使って、データを逆さまにしないようにね!
実務での応用
実務ではフィルタリングとソートはデータアナリストにとって不可欠なツールだよ。 複雑なデータセットから必要なデータを迅速に取得して、レポート用に準備するのに役立つ。 現実世界では、金融テクノロジーから医療研究に至るまで、どこでも使われているんだ。 例えば、銀行は怪しい取引活動を発見するためにトランザクションをフィルタリングしたり、 研究者は薬の試験データをソートして隠れた関係を発見したりするよ。 この知識は面接でも役に立つ強力な武器になるんだ。
4. 学習のための外部リソース
もっと深く学びたい人には pandasの公式ドキュメント をおすすめするよ。ここには、このライブラリのすべての可能性を 理解するための多くの例と説明が載っているから、プロとしてツールを 習得するのに役立つよ。
GO TO FULL VERSION