絞り込み条件を変更する
検索条件を絞り込む
有料ブログの投稿方法はこちら

すべてのカテゴリ

11 件中 1 - 11 件表示
カバー画像

netkeibaからデータを取得する【第4回】pythonスクレイピング

netkeibaからデータを取得するの第四弾です。 といっても 一回目でレース日程とレース一覧 二回目で出走表と結果 三回目で競走馬情報 を取得してきましたので、基本的な分析データは集まったと言えるので正直あまりやることはなく 今までのデータを一活取得するツールを作成したので、よろしくといった記事です。 フローを書くと 1.指定した開始日と終了日からレースが行われている日程リストを取得 2.1から開催日のレース一覧を取得 3.2から特定のレースの出走表または結果を取得 4.3から出走している競走馬のプロフィールや過去成績のデータを取得する といった流れです。詳しくは前回の記事を参照ください。注意点などは前回の記事に記載しています。 またサンプルのexeファイルを配布しています。商品ページに載せておきます。(※もしサイズや拡張子的に載せられない場合は配布するのでお声掛けください) サンプルでは、実際取得可能な日程とレースは固定しておりますので、操作感を確認していただければと思いますので、よろしくお願いします。 次回は取得したデータを実際に分析する記事を作成しようと思います。 未定ですが、統計学の観点や機械学習を取り入れた分析入門的な記事が書ければと思っています。 以上
0
カバー画像

netkeibaから馬のプロフィールと過去成績を取得する方法【第3回】pythonスクレイピング

netkeibaからデータを取得するの第三弾です。 前回は取得済みのレース一覧または指定の日付範囲から出走表と結果を取得しました。今回は馬ごとのプロフィールと過去成績を取得していきます。競走馬のページを確認特定の馬のページは以下urlに’horse/{horse_code}/’という形でページ分けされています。 今回欲しい情報はページ上部中央のプロフィールとその下にある過去レースの成績一覧です。取得テスト前回のブログをご覧になった方なら、テーブル状になってるからpandasで簡単に取得できるかも!ということがわかるかもしれません。 試しにやってみましょう。 前回同様にdriverをgetするところからですfrom time import sleepimport pandas as pddriver = get_driver()# アーモンドアイのページを取得driver.get(r"/horse/2015104961") # 使用不可文字なのでドメイン部分を追記してくださいsleep(3) # 遅延data = pd.read_html(driver.page_source)取得したdataを確認しますこれをみると2つ目と5つ目を取得すれば問題なさそうですが、実はそう上手く行かず。。 というのも4つ目のテーブルを見てみるとこの受賞歴の欄は、優秀な実績を残した馬にのみ与えられる賞で、ほとんどの馬には存在しない欄なのです。 試しに重賞馬ではない他の馬を見てみましょう。この馬は現在2勝クラスで活躍中のエンプレスペイという馬です。 余談ですが、私がDMMの一口馬主で出資している馬なので
0
カバー画像

netkeibaから出走表と結果を取得する方法【第2回】pythonスクレイピング

netkeibaからデータを取得するの第二弾です。前回は指定の日付範囲から日程とレース一覧を取得しましたが、 今回は具体的な出走表と結果と払い戻しを取得します。 netkeibaには通常の結果とデータベースの結果ページが存在しますが、今回は前者をターゲットとします。対象ページの確認まずは出走表のページを見ると、レースIDが書いてます。そして結果ページも同様です。 レースIDは前回のレース一覧で取得済みです。(RIDという列名で保存してます) 出走表ページに戻って、欲しい出走表がどのように配置されているか開発者ツールで確認します。 するとテーブルになっているので、こういう時は便利なpandasを使いましょう。取得テスト前回同様にget_driver関数でドライバを取得し、出走表のURLを入力してdriver.get(url)します。 そして以下のようにpandasのテーブルタグを読みこんでデータフレームリストで返す関数を使用しますdata = pd.read_html(driver.page_source) len(data) # テーブルが何個読み取られたか # 5お目当てのデータは最初のリストに格納されていました。pandasを使用すると簡単に取得できますが、馬名に貼られているリンクは別途取得する必要があります。 今回は省略しますが、作成したツールの方では取得しています。出走表取得コードdef get_race_table(driver, race_id):     url = f"race/shutuba.html?race_id={race_id}" # 禁止文字列のた
0
カバー画像

面倒なことをお任せ!SNSアカウント収集代行サービス

SNS上でのターゲットを見つけるのは、非常に時間と労力を要します。しかし、今回ご紹介するのは、その問題を解決してくれます!ご紹介するのは、「アカウント収集代行サービス」です!Instagram、X(旧Twitter)、TikTok上の様々なジャンルや業種のアカウントを収集し、ビジネスや広報活動に役立てることができます。本サービスを利用することで、ターゲット層や業界、目的に合ったアカウントを収集できます。どんな方にこのサービスがおすすめなのか?1. リサーチの時間がない方 事業を運営する中で、リサーチに費やす時間は貴重です。アカウント収集を代行することで、時間を節約し、他の重要な業務に集中できます。2. どこからリサーチしていいかわからない方SNS上でのリサーチは、ある程度の知識と経験が必要です。代行してもらうことで、確実かつ効果的なデータ収集が可能です。3. 複数の参考アカウントが必要な方特定のテーマや業界に関連する複数のアカウントを必要とする場合、条件に合うアカウントを探すのは大変です。代行サービスなら、必要な数のアカウントを効率よく収集できます。4. 事業や企業などの広報活動をしてくれそうなアカウントをお探しの方広報活動に必要なアカウントを見つけることは、事業の成功に必要不可欠なものです。この代行サービスは、広報活動に最適なアカウントを収集します。5. アカウントの傾向を模索したい方特定のアカウントの傾向やトレンドを把握することはSNSや事業を運用していく上で大切なことです。6. 営業をするターゲットを探している方  営業戦略の一環として、DM送信をしたいアカウントを見つけ
0
カバー画像

PythonとBeautifulSoupを使ったWebスクレイピングの高速化:処理速度向上のコツと事例紹介

Webスクレイピングは、ウェブページから情報を抽出する技術です。PythonとBeautifulSoupを使用してスクレイピングを行うことで、効率的にデータ収集が可能になります。しかし、大量のデータを扱う際は、処理速度が重要な要素となります。本記事では、PythonとBeautifulSoupを使ったWebスクレイピングの高速化について、実践的なコツと事例を紹介します。 目次 1.PythonとBeautifulSoupの基本 2.処理速度を向上させるポイント 3.実践的な高速化テクニック 4.事例紹介 5.まとめ 1.PythonとBeautifulSoupの基本 Pythonは、シンプルで読みやすいコードが特徴のプログラミング言語です。Webスクレイピングには、PythonのライブラリであるBeautifulSoupがよく使われます。BeautifulSoupは、HTMLやXMLのパース(解析)を行い、データ抽出を容易にします。 2.処理速度を向上させるポイント Webスクレイピングで処理速度を向上させるためには、以下のポイントを考慮してください。 (1) スクレイピング対象のページ数を最小限にする (2) 不要なタグや属性を除外する (3) 適切なセレクタを使用する (4) マルチスレッドやマルチプロセスを利用する 3.実践的な高速化テクニック (1) ページ数の最小化スクレイピング対象となるページ数を減らすことで、処理速度が向上します。例えば、ページネーションを活用することで、一度に取得するデータ量を制限できます。(2) 不要なタグや属性の除外 BeautifulSou
0
カバー画像

Excel VBAとWebスクレイピングを組み合わせた自動データ収集・レポート作成の効率化

はじめに 近年、データ分析や情報収集が企業のビジネス戦略において重要な役割を果たしています。特に、Web上からデータを取得し、Excelで解析することは日常業務の一部となっています。しかし、データの取得や解析に手作業を要することは効率が悪く、時間の無駄です。そこで、Excel VBAとWebスクレイピングを組み合わせた自動データ収集・レポート作成の効率化を解説します。目次 1.Webスクレイピングとは 2.Excel VBAとWebスクレイピングの基本 3.データ収集の自動化 4.レポート作成の自動化 5.実践例 6.まとめ Webスクレイピングとは Webスクレイピングとは、Webサイトから情報を抽出し、構造化されたデータとして保存する技術のことです。HTMLやXML形式で記述されているWebページから、必要なデータを効率的に取得することができます。 【Excel VBAとWebスクレイピングの基本】Excel VBAを使ってWebスクレイピングを行う場合、以下の手順が基本です。 ①Webサイトへアクセスし、HTMLソースコードを取得する。 ②取得したソースコードから必要なデータを抽出する。 ③抽出したデータをExcelシートに書き込む。 データ収集の自動化 ①Excel VBAを使ってWebスクレイピングを行い、データ収集を自動化する方法を紹介します。まず、参照設定で「Microsoft HTML Object Library」と「Microsoft XML, v6.0」を有効にします。↓②次に、Webサイトへアクセスし、HTMLソースコードを取得するVBAコードを作成しま
0
カバー画像

Pythonで業務効率を爆あがり!?

最近リモートワークも定着し始めリモートワークでやることといえば書類整理やら報告書作成、簡単な作業ばかりでつまらなくないですか?特に単純作業なんていやですよね。そこでプログラミングができると業務効率を上げることができ、簡単な作業を手を動かすことなくできるのです!タイトルではPythonと書いていますが、ExcelであればVBAという言語で効率を上げることができるし、他の言語でも可能です!ではなぜPythonと書いているかというともちろん私が1番利用しているからというのもありますがその他にも理由はあります。・初心者でも始めやすい・理解がしやすい・パズル感覚でできる・分からないことは検索すれば出てくるなどの要素があり、おすすめなのです!この記事を読んでいる大半の方がプログラミングをあまり経験していない方が多いと思われるので自身で始める場合にもとてもおすすめなのです!業務効率を上げることができるのは・画像サイズの一括変更・データ収集・データ入力・コピーアンドペーストが多いもの・自動返信ツールなどなどこんなことに時間を使いたくないと思う単純作業の効率を上げることができるのです!私が得意としているのはWebサイトのデータ収集とデータ入力です!営業の方などは企業情報を収集したかったり、物販をやっている方はショッピングサイトやオークションサイトの情報をプログラム一本で何百件もの情報を収集したいと考えるはず。プログラマーではなくとも営業の方などがプログラミングを覚えるだけで自分の成績も上げると共に楽に仕事ができるようになります!ぜひプログラミングを始めて周りとの差を作ったり、業務効率をあげて見て
0
カバー画像

サービス紹介動画①:Amazon商品データの自動抽出

この度はYusa_0309のブログにお越しくださり、ありがとうございます!以下の動画では、Yusa_0309が提供させていただいているWebデータ収集サービスの一つである『Amazon商品データの自動抽出』をご覧いただけます。("Nintendo Switch"の検索結果10ページ分のデータを抽出しております。)本ツールは、Python (selenium/BeautifulSoup)を用いたブラウザの自動化・WebサイトのHTML情報の抽出、の二点をベースに動いています。本動画内で取得しているデータは、ページ番号・ASIN・商品名・価格・評価・在庫の有無の6つですが、お客様のご要望に応じて取得項目を追加することが可能です。お気軽にご相談ください!
0
カバー画像

スクレイピングはお任せください

Ruby・Pythonどっちの言語でもスクレイピングできます。WEBサイト形式でのスクレイピングツール、実行ファイルでのスクレイピングツール作成やCSVファイルやエクセルファイルでの納品も可能です。お気軽にご連絡ください。
0
カバー画像

ランキング上位1000アイテムのデータ収集を自動化

先日、とある顧客の方から受けた依頼で、ECサイトのランキング上位、1000アイテムのデータを自動収集してCSVにする機能を実装しました。・ URLを入力して、ボタンを押す・ 各商品の、商品名・カテゴリ・価格・商品説明などのリストが生成されるというものです。グーグルのスプレッドシート上に実装しました。誰でも簡単に操作できます。同様の案件、お受けすることが可能です。もしお困りでしたら、ご相談ください!
0
カバー画像

【AllExpress】アリエク用商品データ収集ツール アリエクスプレス

アリエクの商品データを収集出来るツールを別途作成しようか検討中。 いいねをくれた方か、ダイレクトメールくれた方で、かつ、バグ報告をしてくれる方にツールをプレゼントしようと思っています。(5名様ぐらいかな)とは言っても、あくまで需要があればですが…理由は、商品出品データ変換ツールのお仕事を、ご依頼して頂くお客様の中で、”変換元データがない”という方がいらっしゃったからです。さすがに、当方がリソースを使用し、API手続きだしてスクレイピングするのは・・・ちょっとね。いいねとか、頑張って作ってくださいとか、なにかしら、リアクション頂ければ、ちょっとやってみます。笑
0
11 件中 1 - 11
有料ブログの投稿方法はこちら