CodeGym /コース /Python SELF JA /データ収集自動化プロジェクトの要件収集と計画

データ収集自動化プロジェクトの要件収集と計画

Python SELF JA
レベル 37 , レッスン 1
使用可能

まず、なぜこれが必要なのかから始めよう。日常的な作業の自動化は、まるで家にロボットがいるような感じだね。 そのロボットが退屈な仕事を代わりにやってくれる間、自分は人生を楽しむことができる。Seleniumはそういう "ロボット"の一つで、ただしプログラミングの世界の話だ。Seleniumは人間のようにウェブページとやりとりできる。 想像力を膨らませてみて、自分のボットがデータを自動収集したり、フォームを記入したり、大好きな商品の価格を チェックしたりできたらどうなるかを考えよう。すごくない?

でも、プロジェクトを始める前に、自動化しようとしているのは何か、そしてどうするかを決めることが大事なんだ。 これから、そのプロジェクト計画を助けるステップを見ていこう。

1. プロジェクト要件の分析

プロジェクトのタスクの解析

プログラミングの世界では、料理と同じで、まず何を目指すのかを把握しないといけない。 レシピのアナロジーはここでは適切だね。必要な "材料" — 集めるべきデータ — のリストがある。 そして、それをどの "調理方法" で取り出すかを決める。

例えば、マーケティング会社で働いていて、競合他社のデータを収集する必要があるとする。 その時、自分に問いかける質問はこうなる:

  • どのデータが必要か?(例:価格、レビュー、評価など)
  • 手作業でやるとどれくらい時間がかかるのか?
  • どのウェブサイトやサービスを使用するか?

必要なデータとその抽出方法のリスト作成

必要なデータのリストを作ることは重要なステップだ。それは、ボットが全部の重要なデータを 確実に収集するためで、洗濯機に忘れられた靴下のように何かを忘れないためでもある。

例えば、オンラインショッピングサイトの製品データを収集する計画を立てているとする。 必要なのは以下の通り:

  • 製品名
  • 価格
  • 在庫状況

データリストが出来たら、そのデータをどうやって取り出すかを考える必要がある。 Seleniumのメソッド、例えばfind_element_by_idfind_elements_by_class_name などを使える。でも、それについては次のレクチャーで話すから、とりあえずボットが必要な情報を 経験豊富な探偵のように特定できるよう訓練されると思っておけばOK!

データ収集に適したウェブページやサービスの選定

次はデータソースの選定という重要な決定をする番だ。それはまるでスパイ活動における信頼できる ニュースソースを選ぶようなもの。信頼性があって構造化されたウェブページを探す。

例えば、本のデータを収集するとする。AmazonやGoodreadsのようなサイトを選ぶこともできる。 ただし、選んだサイトがデータ収集の制限を設けていないことを確認するのが重要だ。 ちょっとしたヒントだけど、robots.txtファイルに注意を払うといい。そこに通常、 サイトでのウェブスクレイピングが許可されているかどうかの情報が書かれている。

2. 開発ステージの計画

アクションの順序とタスクへのリンク

必要な材料が揃ったら、「調理」プロセスを計画する番だ。開発のコンテキストでは、 アクションの順序が重要になる。それはまるでケーキを焼くときの手順のようだ。 最初に生地をこねて、その後焼く。我々の場合は、以下のようになる:

  1. サイトへの認証(必要であれば)
  2. データの検索と抽出
  3. データを適切な形式で保存する

各ステージに含まれるタスクはどれか?最適化のためにいつでも追加ステップを 増やせる自由があることを覚えておこう。

リソース計画とタスク配分

チームで作業するとき、リソース計画とタスクの配分はプロジェクトの成功の鍵だ。 誰がコードを書くのか、誰がテストをするのか、そして誰がドキュメントを作成するのかを 決める。

一人で作業している?大丈夫!タスクをもっと小さな部分に分けて、自分に締め切りを設定しよう。 自分をチェックするのを忘れないで!それは「魔法のコード」を書くのを避けるのに役立つ。 (みんな知ってるけど、それはデバッグが大変で、あまりフレンドリーじゃないかもしれないからね)。

リスク評価とその最小化の方法の決定

どんなプロジェクトもミニ冒険であり、良い冒険映画のように、それには罠があるかもしれない。 プロジェクトでの潜在的なリスクを考えてみよう:

  • ボットが操作するサイトの構造変更
  • サイトへのリクエスト数の制限
  • コードのエラー

これらのリスクをどう減らすか?常に「プランB」を持ち、適応する準備をしておこう。 例えば、柔軟なコード構造を使用して、サイトの変更に伴って簡単にデータ選択を 変更できるようにする。または、一定時間内のリクエスト数に制限を設定して、 ロックアウトを防ぐ。

計画と要件の収集は、プロジェクトの土台だ。それはまるで建物を設計する建築家の 仕事のようで、すべての細かい点を考慮する必要がある。しかし、この土台を築いたら、 あなたの自動化はストラディバリウスバイオリンのように滑らかに、スムーズに動作するよ。

さて、自動化ボットの世界に飛び込む準備はできた?次のレクチャーでは、 ウェブページの要素を検索し、操作するための関数を作成し始めるよ。これは楽しいね、 ジェームズ・ボンドの映画のように。ただし、私たちのボットはエージェント404だ!

3. Seleniumの歴史

2004年、開発者のジェイソン・ハギンズは、ThoughtWorksで勤務中に、その時間管理や経費の トラッキング用の内部ウェブアプリケーションのテストを自動化する必要があった。 そのプロセスを簡略化するために、JavaScriptで作られたツールを作成し、それを JavaScriptTestRunnerと名付けた。後にこれがSelenium Coreとして知られるようになった。 面白いことに、「Selenium」という名前はジョークに由来している:ハギンズは、 セレンが水銀中毒の解毒剤であると指摘し、競合製品「Mercury Interactive」を 皮肉った。

このツールはすぐに同僚たちの注目を集め、やがてポール・ハムマントのような他の 開発者もプロジェクトに参加した。彼はSeleniumをオープンソース化し、さまざまな プログラミング言語で動作できるように機能を拡張することを提案した。こうして Seleniumの進化が始まり、ウェブアプリケーションのテスト自動化において最も 人気のあるツールの一つとなった。

コメント
TO VIEW ALL COMMENTS OR TO MAKE A COMMENT,
GO TO FULL VERSION