絞り込み条件を変更する
検索条件を絞り込む
有料ブログの投稿方法はこちら

すべてのカテゴリ

59 件中 1 - 59 件表示
カバー画像

html要素のXPathをワンクリックでクリップボードにコピーするchrome拡張機能を作成する

概要表題の通りwebページのhtml要素のXPathをマウスクリック1回でクリップボードにコピーする機能を持つchrome拡張機能を作成しました。XPathは目的のhtml要素を検索・取得したいときに時々使用することがあるかと思います。例えばブラウザからXPathを取得するには、ディベロッパーツールを開いてから要素を探してコピーするので取得したい要素が多い場合は面倒になることがあるかもしれません。また、XPathを取得可能にするような便利なjavascriptの関数はおそらくないと思う(私が知る限りですが)ので自作する必要があります。XPathを構築し取得するにはターゲットの要素タグ名から親要素へ向かって再帰的に探索しながら構築する必要があります。実際のコード実装部分は有料になります。保有機能・ボタンによる機能のON/OFF切り替え・要素にマウスカーソルを合わせるとその要素の色が反転(見やすさのため完全な反転色にせず少しずらしています)、マウスカーソルを外すと元の色へ・右クリックで要素のXPathをクリップボードにコピー(この時右クリックメニューが出ないようにしています。機能をOFFにすると元に戻ります)例例として、以下はココナラの「お知らせ」ベルを右クリックしたときの様子です。要素は分かりやすくするため、マウスホバーすれば色が変わるように設定しています。コピーされたXPathは以下になります。(ブログの禁止ワードに引っかかったので画像です)使用方法・このブログ末尾の項目、コード項目のコードをコピペなどして作成したファイルを同封したフォルダを作って拡張機能を読み込んでください。
0 500円
カバー画像

Excel VBAのスクレイピングでデータ抽出を簡単に!【イメージ動画あり】

こんにちは、あやせです!私はココナラでExcelやVBAを活用した効率化サービスを提供しています。今回は、Excel VBAのスクレイピングを使用して、データ抽出する事例について紹介します。この方法で、どれだけ簡単にデータ抽出できるかをお伝えします。 スクレイピングでできることExcel VBAを使ったスクレイピングは、情報収集を簡単かつ迅速に行うための素晴らしい手段です。以下は、スクレイピングでできることの一部です。 データの収集: Excel VBAを活用することで、様々なサイトから必要な情報を自動的に収集できます。 定期的な更新: 定期的に情報を更新することで、最新の情報を常に手に入れることができます。 カスタマイズ可能なレポート: 抽出した情報をカスタマイズ可能なレポートにまとめ、分析しやすくします。 デモ動画: 不動産情報のスクレイピング動画では、実際にExcel VBAを使用して不動産情報をスクレイピングするプロセスを紹介しています。ぜひご覧ください! スクレイピングのメリット主に以下2つのメリットがあります。時間の節約: 手作業で情報を収集する手間を省き、時間を有効活用できます。 人的ミスの削減: 人為的なミスがなく、抽出されるデータは高い正確性を保ちます。 私の提供するサービス 私もExcel VBAを駆使したスクレイピングサービスを提供しています。あなたのやりたいことが整理できていなくても、私からご提案させて頂きます!情報抽出をお考えの方は、ぜひ一度ご相談ください。https://coconala.com/services/3078591まとめ Excel V
0
カバー画像

netkeibaからデータを取得する【第4回】pythonスクレイピング

netkeibaからデータを取得するの第四弾です。 といっても 一回目でレース日程とレース一覧 二回目で出走表と結果 三回目で競走馬情報 を取得してきましたので、基本的な分析データは集まったと言えるので正直あまりやることはなく 今までのデータを一活取得するツールを作成したので、よろしくといった記事です。 フローを書くと 1.指定した開始日と終了日からレースが行われている日程リストを取得 2.1から開催日のレース一覧を取得 3.2から特定のレースの出走表または結果を取得 4.3から出走している競走馬のプロフィールや過去成績のデータを取得する といった流れです。詳しくは前回の記事を参照ください。注意点などは前回の記事に記載しています。 またサンプルのexeファイルを配布しています。商品ページに載せておきます。(※もしサイズや拡張子的に載せられない場合は配布するのでお声掛けください) サンプルでは、実際取得可能な日程とレースは固定しておりますので、操作感を確認していただければと思いますので、よろしくお願いします。 次回は取得したデータを実際に分析する記事を作成しようと思います。 未定ですが、統計学の観点や機械学習を取り入れた分析入門的な記事が書ければと思っています。 以上
0
カバー画像

netkeibaから馬のプロフィールと過去成績を取得する方法【第3回】pythonスクレイピング

netkeibaからデータを取得するの第三弾です。 前回は取得済みのレース一覧または指定の日付範囲から出走表と結果を取得しました。今回は馬ごとのプロフィールと過去成績を取得していきます。競走馬のページを確認特定の馬のページは以下urlに’horse/{horse_code}/’という形でページ分けされています。 今回欲しい情報はページ上部中央のプロフィールとその下にある過去レースの成績一覧です。取得テスト前回のブログをご覧になった方なら、テーブル状になってるからpandasで簡単に取得できるかも!ということがわかるかもしれません。 試しにやってみましょう。 前回同様にdriverをgetするところからですfrom time import sleepimport pandas as pddriver = get_driver()# アーモンドアイのページを取得driver.get(r"/horse/2015104961") # 使用不可文字なのでドメイン部分を追記してくださいsleep(3) # 遅延data = pd.read_html(driver.page_source)取得したdataを確認しますこれをみると2つ目と5つ目を取得すれば問題なさそうですが、実はそう上手く行かず。。 というのも4つ目のテーブルを見てみるとこの受賞歴の欄は、優秀な実績を残した馬にのみ与えられる賞で、ほとんどの馬には存在しない欄なのです。 試しに重賞馬ではない他の馬を見てみましょう。この馬は現在2勝クラスで活躍中のエンプレスペイという馬です。 余談ですが、私がDMMの一口馬主で出資している馬なので
0
カバー画像

netkeibaから出走表と結果を取得する方法【第2回】pythonスクレイピング

netkeibaからデータを取得するの第二弾です。前回は指定の日付範囲から日程とレース一覧を取得しましたが、 今回は具体的な出走表と結果と払い戻しを取得します。 netkeibaには通常の結果とデータベースの結果ページが存在しますが、今回は前者をターゲットとします。対象ページの確認まずは出走表のページを見ると、レースIDが書いてます。そして結果ページも同様です。 レースIDは前回のレース一覧で取得済みです。(RIDという列名で保存してます) 出走表ページに戻って、欲しい出走表がどのように配置されているか開発者ツールで確認します。 するとテーブルになっているので、こういう時は便利なpandasを使いましょう。取得テスト前回同様にget_driver関数でドライバを取得し、出走表のURLを入力してdriver.get(url)します。 そして以下のようにpandasのテーブルタグを読みこんでデータフレームリストで返す関数を使用しますdata = pd.read_html(driver.page_source) len(data) # テーブルが何個読み取られたか # 5お目当てのデータは最初のリストに格納されていました。pandasを使用すると簡単に取得できますが、馬名に貼られているリンクは別途取得する必要があります。 今回は省略しますが、作成したツールの方では取得しています。出走表取得コードdef get_race_table(driver, race_id):     url = f"race/shutuba.html?race_id={race_id}" # 禁止文字列のた
0
カバー画像

netkeibaからレース日程とレース一覧を取得する方法【第1回】pythonスクレイピングの基本編

私はフリーランスでメインはデータを扱う仕事をしています。 その他ですとjavascript/react/typescriptを使用したフロントエンドの作成・バックエンドAPIの作成やAWSを使用したインフラの整備や動画編集・ウェブサイトの運用をしています。 一番長くやっているのがpythonとデータベースを連携したデータ取得・加工・集計・分析・運用といったデータのライフサイクルを扱う仕事で 趣味で競馬分析を行っていることから、特に、このココナラやその他クラウドソーシングでは競馬のデータ取得や分析などのツール作成を請け負うことが多いです。 そこで今回は競馬データを扱うことをテーマにブログを書いていこうと思います。第一弾はnetkeibaからレースデータを取得する方法をして紹介します。ややプログラムを書く技術者よりになると思いますが、手っ取り早くデータ取得ツールが必要な方はツールを作成して出品しておきますので、ご購入のご検討をお願いします。またpythonを扱う方はコピペでデータ取得できるように書いていきます。 ※また自分が超めんどくさがりなので詳細な説明は省き、結論のコードだけのせることも多いと思います。第1回はnetkeibaからレース日程とレース一覧を取得する方法 第2回はnetkeibaから出走表とレース結果とその他結果データ(払い戻し等)を取得する方法 第3回はnetkeibaから競走馬のプロフィール・過去レース結果を取得する方法 を予定しています。 第4回以降は未定で、その他のデータ取得方法/データベース格納/統計学と集計方法/競馬×機械学習入門、このあたりを書こうかと
0
カバー画像

定期的にフレッシュな求人情報を掲載しますよ

まだ始めたばかりですが、営業リストを作ったり新規顧客開拓のためのリストを作るお手伝いになるサイトを始めてます。新しいサイトなので検索でヒットするか分かりませんが「シゴトのタネ」で検索してみてくださいね。新しく情報が登録されたら、そのデータを抽出して掲載してダウンロードできるサイトを目指してます。今のところ飲食店だけですが、新しく求人情報のWebデザイナーのジャンルだけテスト的に抽出して掲載してみました。営業マン・フリーランス・副業・インサイドセールスなどの方が、下請けでなく自身の顧客を作って良い関係で繋がり続けることにより、安定した生活を送れるお手伝いを目指してます。お仕事はココナラでお受けいたしております。見積り相談などご相談に応じてます。お気軽にどうぞ。
0
カバー画像

スクレイピングしたらデータ量が少なく出精値引きした話

現在、1URLのスクレイピングに対して3,000円が基本料金とさせていただいています。お客様のご要望によるサイトには情報量数千件(例えば5,000件)とか記載があってもスクレイピングすると数百件、数十件という時もあります。お客様からするとガッカリですよね。ボクもガッカリなんです。ただ、そんな時に限ってデータを抽出するのに丸一日かかってしまった時もあるんです。(まだまだ駆け出しですね)先日も初のリピーターとなっていただけたお客様からの依頼がそんな感じだったのです。1URLにつき数件しかデータが抽出できませんでした。誤解が無いように説明しますとデータ数は数百件抽出できてます。しかし重複データを削除すると数件しか掲載してない場合があるんです。違う写真を使って一見色々データがあるように見えるけど、同じ広告主がいくつも広告を掲載しているパターンですね。このようなサイトがありますと、お仕事を出される方も受ける方もデータが少なくお互い料金に見合わない感じになってしまいます。ですので先程のお客様には少しですが出精値引きとさせていただきました。ですので、いきなり「出品サービス」を購入いただけるのは、もちろんありがたいのですが、ご相談いただけた方がお互い安心できると思います。ちなみに求人広告など広告などは検索して「●●件ヒット!」と表示されても重複しないデータの数は半分以下、普通で2割から3割くらいと思っておいた方が良いです。以下の流れがお互いにとってスムースだと考えています。ご相談 → サイトの簡易調査 → サンプル確認 → 見積もり → 全データ抽出 → 納品営業リスト・新規顧客開拓リスト作成
0
カバー画像

新規店舗などのフレッシュなデータを営業リストとしてサイトで公開

データが取得できた日は毎朝更新していきます。現在は、飲食店のみですが、希望があれば他の業種の新店舗や求人の新規募集している会社などを毎日公開していく予定です。現在β版として誰でも登録やログインなしに無料で閲覧できますので、ぜひご覧になってください。サイト名は「シゴトのタネ」です。できたばかりなので、検索してもしばらくはヒットしないと思われます。以前からスクレイピングしたデータを公開していたページに緑色でリンクを貼っておきますので、そちらからお入りください。そのページを探す検索キーワードは「python演習問題ドリル」ですので、コピペして検索してください。KBQ.JPがURLのサイトです。「python演習問題ドリル」で検索する↓検索結果のKBQ.JPをクリックする↓ページ上部のグリーンエリアの「シゴトのタネ」のサイトはコチラから!をクリック↓「シゴトのタネ」ご自由に閲覧およびダウンロードしてくださいお仕事の依頼はココナラからお願いします。
0
カバー画像

ココナラでスクレイピングで抽出した営業用データを納品させていただきました

クライアントからはAサイト・Bサイト・Cサイト(全て求人サイト)から会社名やURLや住所などの営業リストとなるデータを収集して作って欲しい旨、打診がありました。サイトを確認するとCサイトはURLや住所のデータが掲載されておらず、データを抽出する意味がないと思われCサイトは省いた方が良いと提案。また、AサイトとBサイトはスクレイピングして抽出したデータをサンプルとして前もってご確認いただくよう提案。さらに全体の流れも説明(サンプルご確認、全てのデータを1つのファイルに集約し重複データを削除の後に納品)するとクライアントからDサイトも含めてほしい、また金額の提示を求められる。それぞれのサンプルを提示し、それぞれの取得できるデータ数(重複データ削除前の数値)を報告。そして概算をメッセージ。サンプルをご確認いただき、金額も承諾いただけたので、見積もり提案を出させていただくと、すぐにお支払いいただき、数十分後には納品させていただき、承認いただきました。ご相談いただきながら、こちらからもご提案させていただき確認いただきながら進めるので、お互い安心してお取引できたような気がします。営業リストなどの元となるスクレイピングによるデータ収集のお仕事お待ちしております。まずはご相談からどうぞ。
0
カバー画像

家具・雑貨 | イケア (IKEA) の商品のレビューをスクレイピングする

こんにちは😃 ノアです😀 今回は、pythonを使ってイケアの商品レビューをスクレイピングしていきたいと思います🥺 また、当アカウントではスクレイピングのサービスを出品していますので興味がある方は気軽にご相談ください🍉イケア(IKEA)はスウェーデン発祥の家具および家庭用品の小売チェーンで、自己組み立て可能な家具やシンプルなデザイン、手頃な価格が特徴です。顧客は家具をパーツごとに購入し、自宅で組み立てることができます。イケアのデザインは機能的でモダンなスタイルが多く、店舗内では実際の部屋が再現されて展示されています。低価格と広範な品揃えも魅力で、環境への配慮や社会的な貢献も行っています。 イケアは世界中で広く支持される家具ブランドとして知られています。 ちなみに、英語圏では "イケア" ではなく、「アイキーア」のように発音されます。 やることは大まかに以下の3つです  ・商品のレビューを収集したい IKEAの商品ページのURLを指定する  ・商品URLにアクセスして、商品ページからレビューを抽出する  ・そのデータをCSVに出力する ■データ収集する理由は? IKEAの商品のレビューを収集するメリット 1. 消費者の声を把握 2. 競合分析 3. 市場トレンドの把握 4. 評判管理 5. マーケティングに活用 6. 製品改善への活用 ・消費者の声を把握       商品のレビューは実際の消費者の意見や評価を知るための貴重な情報源です。       これにより、商品の良い点や改善すべき点を把握し、それに基づいて製品やサービスの品質向上に役立てることができます。       また、
0
カバー画像

スクレイピング オクトパースを使って楽々データ収集

Octoparse(オクトパース)は、自動データ抽出(Web scraping)を行うための強力なデータ抽出ツールです。非プログラマーでも直感的に使用できるビジュアルなインターフェースを提供し、ウェブサイトからデータを抽出して収集することができます。 Octoparseの主な特徴と機能: ビジュアルタスクエディター:ウェブサイトの構造を視覚的に分析し、データ抽出のためのタスクを作成するためのビジュアルエディターがあります。HTMLタグの選択、テキストの抽出、リンクの取得などが直感的に行えます。 豊富なデータ抽出:テキスト、画像、リンク、テーブル、商品情報、価格など、さまざまなデータをウェブページから抽出できます。 データの変換と整形:抽出したデータをCSV、Excel、JSON、HTMLなどの形式に変換し、必要に応じて整形できます。 スケジュールと自動実行:定期的にタスクを実行してデータを自動的に更新・抽出することができます。 プロキシのサポート:プロキシを使用してIPブロックを回避し、スクレイピングの安定性を向上させることができます。 クラウドサービス:Octoparseはクラウド上で実行されるため、高速で大量のデータを処理することが可能です。 Octoparseは、競合情報の収集、価格比較、マーケットリサーチ、商品情報の収集など、多くの用途で利用されています。また、初心者から上級者まで広範なユーザーレベルに対応しており、簡単なスクレイピングから高度なデータ収集まで幅広く対応しています。 なお、ウェブスクレイピングはウェブサイトの利用規約や法律に違反しないように行うことが重要
0
カバー画像

Google Mapsのデータ公開

先日お客様より、Google Mapsを元に評価やコメント数の条件を付けてデータ収集をできないかとの問い合わせがあり、その件は立ち消えになりましたが、面白そうなので少し研究してみました。そして、せっかくなので収集したデータを公開してみました。「python演習問題ドリル」で検索すると「pythonお勉強サイト」というページが出てきますので、ここに今後もアップしていきます。サイト名は最近変更したので「Green Storage」と言います。手始めに「新宿区 カラオケ店」のキーワードでコメントが4件以上のものだけ表示しています。随時、業種やエリアを変更して掲載予定です。ぜひブックマークしてください。営業リスト代わりにご利用ください。スクレイピングのお仕事、ココナラを通じてお待ちしてます。
0
カバー画像

コンテンツマーケティングの救世主!インスタグラムスクレイピングで、効率的な情報収集を実現しよう!

はじめに初めまして.ココナラでプログラミングや語学など様々なサービスを展開中のodrag0nと申します.タイトルの通り、本記事ではインスタグラムスクレイピングの重要性や、具体的な方法、そして実際に使用できるスクレイピングツールを参考資料として紹介しています。興味深い内容が満載の10000文字以上の記事となっておりますので、ぜひ最後までご覧ください。コンテンツマーケティングにおける情報収集の重要性現代のマーケティング戦略において、コンテンツマーケティングは欠かせない要素の一つとなっています。しかし、コンテンツを生み出すためには、ターゲットユーザーに合わせた情報収集が必要不可欠です。その中でも、SNSであるインスタグラムは現在、ビジネスにおいて最も有効なプラットフォームの一つとなっています。しかしながら、インスタグラムには膨大な数のアカウントが存在するため、情報収集には時間と手間がかかるものです。そこで、本記事では、インスタグラムスクレイピングの重要性と、その方法、有料で提供していたツールを特別に公開させていただきます。
0 500円
カバー画像

せどりにおけるプログラミング技術の活用方法

改めてせどりとは、商品を仕入れて販売するビジネスモデルの一つであり、オンラインマーケットプレイスなどでの販売が主流です。プログラミング技術を使うことで、せどりビジネスの効率化や競争力の向上につながるメリットがあります。以下に、私がせどりとITをかけあわせたことで感じたメリットをまとめてみました★自動化が可能になるーーーーーーーーーーーーーーーーーーーーーーーーープログラミング技術を使うことで、せどりビジネスの作業を自動化することができます。例えば、WebスクレイピングやAPI連携を使って、商品情報を取得し、自動的に価格比較や在庫管理を行うことができます。これにより、作業の手間や時間を減らし、効率化が図れます。 ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー★大量のデータを処理できるーーーーーーーーーーーーーーーーーーーーーーせどりビジネスでは、多くの商品データを扱うことが必要です。プログラミング技術を使うことで、大量のデータを処理することができます。例えば、機械学習やデータ分析を使って、商品価格の変動や需要予測を行うことができます。これにより、競合他社よりも正確な価格設定や仕入れ先の選定が可能になります。 ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー★アルゴリズムを実装できるーーーーーーーーーーーーーーーーーーーーーープログラミング技術を使うことで、複雑なアルゴリズムを実装することができます。例えば、画像認識技術を使って、商品画像から商品情報を自動的に取得することができます。例えばあるECサイト商品画像から、他社のECサイトでの
0
カバー画像

ココナラブログはじめました。

はじめまして。 まさと申します。よろしくおねがいします。まずは、簡単に自己紹介をします!!普段は、フリーランスエンジニアとして、大手企業様のシステムの開発支援をさせて頂いております。システムエンジニアとしては、10年以上経験しております。最近はpythonの案件に携わるようになり、pythonの将来性、可能性を感じながら業務を行っております。詳細な私のプロフィールについては、以下をご参照ください。↓https://coconala.com/users/515073このブログでは、pythonのツールを使用した業務効率化の事例を順次、紹介していこうと思います。pythonには様々なライブラリーというものが存在し、Web上の情報、Excelの操作、PDFに対する操作、画像の編集など様々なことができます。そのため、ライブラリーを駆使することによって皆様が行っている定常業務などを短時間でしかも高品質に実施することが可能になります。「めんどうくさい」「時間がかかる」ような手作業をなくすことによって、本質的な業務に注力し、売り上げ・利益を伸ばしていくことが可能となります。私も、ココナラを通して、少しでも多くの方の業務効率化のお手伝いをさせて頂ければと思い始めました。今後も定期的に、業務効率化の事例を投稿していこうと思います。少しでも気になる内容、ご質問があればお気軽メッセージ頂ければと思います。以上、最後まで読んでいただきありがとうございました!!
0
カバー画像

【完全初心者向け】おすすめのプログラミング言語

こんにちは。ゆうです!私は大学在学中にプログラミングを始め、今は大学の研究と並行して、ココナラでプログラミング関連のお仕事をしています。よく私の下にこんなメッセージが届きます。・人気なプログラミング言語は何?・どの言語を学ぶのがおすすめなの?結論、私は「python」がおすすめです。その理由は以下の3つが挙げられます。・初心者でも学びやすい・需要が高い・ライブラリが豊富まず、一つ目の「初心者でも学びやすい」点について。これはpythonを学ぶメリットとして、まず挙げられますね。pythonは学習コストが他の言語と比べて圧倒的に低いことが特徴です。例として、プログラミング言語の中でも有名なC言語とコードの比較をしてみましょう。● C言語#include <stdio.h>int main(void){    printf("Hello World!");    return 0;}●pythonprint("Hello World!")どうでしょう? pythonが学びやすいと言われる理由が分かると思います。次に、二つ目の「需要が高い」点について。pythonというプログラミング言語は今話題のAIやデータ分析に特化した言語です。米国の電気工学技術の学会誌である「IEEE Spectrum」が2022年に発表したプログラミング言語ランキングによると、pythonが堂々の1位である事がわかります。日本でも海外に倣って需要が伸びてきていますが、今後もさらに需要が伸びていく事が予想されます。最後に、三つ目の「ライブラリが豊富」という点について。まず、ライブラリとは何? と思っ
0
カバー画像

無料で使えるおすすめのWeb集客ツール5選【真木幸子】

近年、インターネットを活用した「Web集客」に注力する企業が増えてきました。インターネットを活用するといっても、ブログでからの情報発信、SNSへの投稿、広告運用など、さまざまです。Web集客における情報配信はターゲットに合わせたアプローチが必要で、ネタ探しや情報収集というハードルもあります。これらの理由から、内製すべきか外注すべきかとお悩みの方も多いでしょう。そんなときには、さまざまな便利ツールが役に立ちます。今回は、Web集客に役立つ、無料で使えるツールをご紹介します。1.検索順位がわかる:検索順位チェッカーWebサイトやブログのキーワードの順位が気になるという方は、『検索順位チェッカー』がオススメです。URLとキーワードを入力するだけで検索順位が表示されます。他のツールもいろいろあるので、試してみたい方はインターネットから【キーワード 順位】と検索してみてください。2.日常的に検索順位を確認する:GRC日常的にキーワードの順位をチェックしたいという方は、『GRC』がオススメです。 無料版は、3URL、10項目を上限として利用できます。キーワードの順位の変動がグラフで表示されるので視覚的にストレスなく使いやすいです。無料とは思えないほどです。有料版はベーシックプランは495円/月でURL数5つ、キーワード500項目まで確認できます。3.すばやく検索ボリュームと関連キーワードをチェックする:WhatsmyserpGoogle Chromeから便利機能を追加できる拡張機能。検索しながら検索ボリュームと関連キーワードをチェックしたいという方は、『Whatsmyserp』を追加すると
0
カバー画像

インターネットから欲しい情報を自動収集!

ご要望があり、sampleプログラムを作りました。画像は、そのプログラムから出力したものです。要望内容・ヤフオクからカメラやレンズを多々購入したいと思っています。 ・信頼できそうな出品者から購入したいです。 ・「カメラ、光学機器」「レンズ」分類を対象に、 ・取引件数、よい評価率、ストアor個人などの条件設定することで、  それに該当する  ①出品者ID  ②良い評価率  ③①が出品されている商品名、現在価格、即決価格、入札件数、残り時間  ④③にリンクが張られている というものでした。最終的に、下記3項目を、条件下に出力しました。01 カテゴリー 02 総合評価 100以上で、 03 評価率   99.00%以上が抽出対象 自動データ収集プログラムだけでなく、ここから画像ダウンロード機能や、指定時刻にデータ収集予約実行機能(毎朝10時とか)とか、Excel形式ではなく、スプレッドシートへ連携し、データをアップロードするなんてことも可能です。 なかなか人の手でして貰うには、単調で苦痛な作業・・・そういったものは、是非自動化を検討してみてください。ご相談にものりますので。 せっかくの高いパソコン・・・毎日いっぱい働かせてあげてくださいね。
0
カバー画像

python初学者がボートレースの結果とレーサー情報を取得して連結する

前回、やっとの思いで一年分のボートレースの結果を取得した中川です。閲覧してくれた方、いいねを押してくれた方本当にありがとうございました。今回は、まず前回取得したボートレースの結果(2232レース分)がpandasのデータフレームのdfという名前で格納されているので結果を可視化したいと思います。前回のブログはこちらです!そして、作業に取り掛かる前に前回取得したデータをcsvファイルに出力しておきます。df.to_csv("任意のファイル名.csv",encoding='utf_8_sig')encoding は文字化けを防ぐために指定しています。そして、前回取得したデータを棒グラフで表示していきたいと思います。matplotlib と、リストのデータを要素ごとにまとめてくれるモジュール collections をインポートしておきます。import numpy as np import pandas as pd import requests import reimport collectionsimport matplotlib.pyplot as pltfrom bs4 import BeautifulSoup次にcollection メソッドをつかって同じ要素(ここでは順位の1~6位を)の出現回数を数え、それを変数に代入します。first = collections.Counter(df['一着'])そして、まとめられた要素の中の個別の要素を取ってきてくれるくれるメソッド keys() と各要素が何個ずつ存在しているか教えてくれるメソッド values()を使います。試しに
0
カバー画像

python初学者がスクレイピングでボートレースの結果1年分を取得してみた。

こんばんはブログって楽しいですね!中川です。帰って見てみると4つもいいねを頂いていたのでめちゃくちゃテンションあがっちゃいました。今日は昨日作ったボートレースの順位取得するアプリを強化し、自動的に多くの情報を取得できるようにしていきたいと思います。ちなみに前回完成したコードはこちらです。import numpy as np import pandas as pd import requests import re from bs4 import BeautifulSoupurl="ボートレースのサイト名/owpc/pc/race/resultlist?jcd=12&hd=20220417"res = requests.get(url) soup = BeautifulSoup(res.text, "html.parser") counter = 0 i=0 ranking_1 = [] ranking_2 = [] ranking_3 = [] for content in soup.find_all("span", class_='numberSet1_number'):     i+=1     if i%5==0 or i%5==4:         continue     number = re.sub(r"\D", "", content.text)     counter += 1     if counter%3 ==1:         ranking_1.append(int(number))     if counter%3 ==2:      
0
カバー画像

勤怠登録をVBAで自動化してみた

初めてブログ投稿いたします。派遣先からの依頼でOAツール開発を依頼され、VBAでエクセル操作を自動化することから始まり、気づけばOutlook受信トレイからメールを取り出したりすることまでいろんなことをVBAでやってました。同じくいろんなオブジェクトが扱えるWSH(主にVBScript)も使っていろんなものを自動化していましたその中である目標ができました。それが・・・”WEB勤怠登録の自動化”経緯として、派遣会社から派遣されている自分は派遣先と派遣元の2重で勤怠管理となる。これが煩わしくて仕方がないのですが、派遣されてる以上仕方ない・・・。前提1: 派遣先勤怠はカードスキャンで完結派遣先勤怠はカードスキャンだけで出退勤登録でき、派遣先ポータルサイトでWEB勤怠テーブルを確認できる※メンテナンスなどの依頼は別で必要です前提2: 派遣元勤怠はWEBアプリで登録派遣元勤怠は手作業で登録が必要です。出勤および退勤の”時””分”はそれぞれプルダウンです。WEB上なのでTABキーなどで選択してテンキーで入力もできるのですが、それを知らないとひたすらマウスをカチカチカチカチそれをひと月(約20日)分・・・もう気が狂う!きっかけ: WEBスクレイピングがVBAからできるらしい?とある書籍を見てIEオブジェクトというものがあり、アクセス処理をVBAから操作できるらしいことを知る。大変さ: ★★★★☆手順として、・ページにアクセス・ログインパスワードを入力してログインボタンを押下、・リンクをクリック・読み込みが終わるまで待機・どこのプルダウンにどんなIDが割り当てられてるか確認と、いろんな関数を作
0
カバー画像

アフィリエイトを10年近くやっているただの会社員です

表題の通りですが、アフィリエイトを始めて10年くらいになります。お小遣いかせぎから、今ではうん万円の収益を毎月得ることができています。ただずっと本業は会社員です。アフィリエイトの活動はもっぱら休みの日と通勤時間などのスキマ時間しかありません。とにかく、会社員を辞めて専業アフィリエイターになりたいのですが、家族を養うまでの域には達することができないのですね。。。。それが、10年近くだらだらやっている理由です。好きなアフィリエイトの型は、プログラムやツールを使った自動化によるものです。記事や投稿を量産したり、ブラウザでマウスやキーボードを操作したり。プログラムはVBAを実務レベルで使えます。Wordpressでブログを構築する際にPHPを軽く触ります。ほか、pythonをかじっています。ただ、プログラムは最近ほとんど自分で作らないです。プログラムを作るのは大好きですが、アフィリエイトの企画や運営で手いっぱいになるからです。ツールを作ってくださる方は、幅広く募集しておりますのでよろしければ気軽にお声がけください!!
0
カバー画像

instagramから情報取得をするライブラリ(instaloder)【Python】

前置き以前趣味でInstagramからのビッグデータ収集を行っているのですがInstagramってスクレイピング対策堅いですよね。そんな対策を打破するライブラリをご紹介します!インスタのスクレイピング対策はトップレベルユーザーページへのアクセスで、数十回ユーザーページにアクセスしただけなのに本人確認画面に飛ばされる始末でした。スクレイピング対策の対策に奮闘(プロキシでアクセス、UA変更や人間らしい動きを)しながら様子を伺っていたのですがどれも弾かれダメでした。 どうやらAIなどでスクレイピングを判断しているようです。。希望のライブラリ Instaloader!最終的に海外の掲示板を頼りに周回していると面白いライブラリが見つかりました。『Instaloader』という名前のライブラリでユーザーIDさえあればその人のプロフィールや投稿数、フォロワー、フォロー中の取得が数行で行えました。コンソール(cmd)で、pip install instaloaderと入力すればインストールできます。ライブラリでできること・特定のハッシュタグが付いた投稿の情報取得・ストーリーや投稿画像のダウンロード・投稿のいいね数・プロフィール文やプロフィール画像、フォロワー数など取得などなどプログラミング例【ソース】from instaloader import Instaloader, Profileid = 'watanabenaomi703'  # 渡辺直美さんのアカウントIDを入力しましたprofile = Profile.from_username(L.context, id)  # プロファイル取
0
カバー画像

スクレイピングしたデータはこうやって使う!

皆さんこんにちは。今回は、このサービスを使って得たデータをどうやって使うか?をご紹介します。この方法で、あなたのビジネスがいい方向に向かうかもしれません。このサービスを利用すれば、あなたは、気になるお店のURLを私に教えるだけで、こんな風にお店のデータを一括で取得することができます。さて、このようなデータを作ったら、次にどうすればいいでしょうか。色んな使い方があるので、普段、私が使っている方法をご紹介いたしますね。①販売傾向を見る基本的には、データのもとは、すでに実績のあるお店のデータである可能性が高いです。お店を選ぶときは、評価数を見れば一目瞭然ですよね。そんな実績のあるお店の取り揃えている商品なら、売れる可能性が高いはずです。スプレッドシートには、画像のURLを、画像を表示してくれる便利な関数があるので、写真で並べれた一目瞭然です。同じ商品を仕入れるもよし。ちょっと違う商品を仕入れるもよしです。②気になる商品を外注さんに調べてもらう。私は、気になる商品を予めピックアップして、このデータごと、リサーチ専門の外注さんに投げてしまいます。中国、韓国、欧州、アメリカetcなど、仕入れられる先をリサーチしてもらいます。このツールのいいところは、販売価格まで取得してしてくれるので、仕入れ値と販売価格を比較して、利益が出そうならOK。利益が出なさそうなら見送りと、とても簡単に判断が出来ます。私は、このツールで、データを取ってきて、外注さんにリサーチをお願い。仕入れ先の見つかったものは、販売の準備と、かなり自動化をしていますので、やることは、ライバル店を探す→(ツールで販売データを一括で取
0
カバー画像

アパレル販売したい方必見 BUYMAの使い方

あなたは、BUYMAというサイトをご存知でしょうか。世界中の出品者がファッションアイテムを販売しているサイトです。 「世界を買える」 と、BUYMAのHPに書いてありますが、本当にそんな感じです。 安くブランド物を手に入れることが出来たりするので、もしかしたら、買い物好きな方はよくご存知かもしれません。 ファッション好きなら、ついつい長時間見てしまうようなサイトです。このサイトは、あなたが物販をしていて、アパレルを扱っているなら、要チェックです。 色々見ていれば、トレンドも分かってきますし、仕入れ先を探せば安く仕入れることが出来るかもしれません。 BUYMAで売っていて、安く仕入れることが出来て、他では売ってないものが見つかれば、BUYMA以外の媒体で販売すれば、利益を独占できるかもしれません。ショップの実績を丸裸にする方法とは言え、これだけでは、そこまで詳細なデータを確保することはできません。 もっと、どのくらい販売されているか知りたい!ですよね。 実は、BUYMAは、そのお店の注文実績を簡単に見ることが出来ます。商品ページを下の方にスクロールすると、赤枠で囲ったところに、ショップ名が表示されています。すると、お店のトップページに行くことが出来ます。 その中で赤枠で囲った「注文実績」というところをクリックしてください。なんと、このお店で販売された注文が全部見れます。 凄いですよね! こんなデータ、他のサイトでも欲しいです!。 ここから、どんな商品が、何個売れたか?を数えることが出来ます。 エクセルなんかで保存することはできないですが、気になる商品、何個も売れている商品を他の
0
カバー画像

こんなサービスが欲しくて作りました!ECサイトのデータを取得します

今回はこのサービスを作り、販売するに至った経緯をご紹介したいと思います。 私は、各種ECサイトで店舗の運営をしています。 物販の経験のある方なら、とても共感してもらえると思うのですが、一番最初、物販を始めるにあたって、効率的な方法は、 「ライバル店の商品をリサーチする事」 です。 間違っても、何の経験もないのに、自分のセンスや勘を頼りに商品を仕入れてはいけません。 大体、売れません(笑) いかに、自分のセンスが、市場で通用しないのかを痛感する瞬間ですよね。 こんな経験がある方も多いのではないでしょうか。 ですので、最初は、まずは、実績を出しているお店が、どんな商品を出しているのか? これを調べないことには始まらないと言っても過言ではありません。 もしも、自分のセンスだけで仕入れをしようとしている方が、この記事をご覧になっているなら、思いととどまって欲しいと思います。 なんだ。 売れているお店を見つけて、その商品を参考にすればいいのか! となりますが、中々そこは簡単な話ではありません。 かくいう私も、最初は手当たり次第にリサーチしようとしてしまいました。 しかし、 ・ECサイトによっては、数千~数万の商品を扱っている。 ・見るたびごとに、商品の並びが変わってしまい、どこまで調べたかわからなくなる ・そもそも手作業で、商品の価格や商品ページのURLをメモしていくのは本当に大変だし、気合と根性で何とかなるレベルではない 気合と根性で何とかしようと思っていた時、こんなことを考えていました。 今調べているお店の商品データを一気に取得してくることが出来ればいいのに、、、、 今回ご紹介するサ
0
カバー画像

チャットボット屋を自称し始めたのに自動化ツールの出品を始めました

前回のブログから早いもので一ヶ月以上が経過していました。まだ初購入も達成していませんが、私は元気です。前回、「自分は何者だろう」と考えて「チャットボット屋」ととりあえず名乗ることにしました。ですが、それでもチャットボットは売れません。そこで考えました。「どうして売れないのだろうか」と。・チャットボットそのものに需要が無い・チャットボットの需要はあるが、月額課金制を受け入れてくれるユーザーがいない・チャットボットの需要はあるが、自分の出品説明が拙くて伝わっていない・チャットボットの需要はあるが、自分の出品が他のユーザーに認知されていない(宣伝不足)・チャットボットの需要はあるが、自分のアカウントのランクが低いので信用が足りないどうしようもない順に挙げていくとこんな感じでしょうか。どうしようもないものはどうしようもないので、どうにかできそうなやつからどうにかしてみようと思い、まずはアカウントランクを上げることを目標にしてみることにしました。そこで話は冒頭の「自動化プログラムの出品」に戻ります。とりあえず私が出してみたのがこれ。これがまぁ伸びなかった。チャットボットの何分の1だよって感じの閲覧数で、「自動化って人気無いのか?世の中RPAだの何だので盛り上がってるのに??」って感じで心配になりました。で、危うくさじを投げかけたのですが思いとどまり、「そもそも自動化ってざっくりしすぎでは?」と思うことにしました。改善点の一つでも見つけないとやってられなかったからです。そこで、自動化で考えられるプログラムでかつ自分が作れそうなジャンルを切り出していったらこんな感じになりました。ジャンルによ
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その13 固定客を獲得せよ!!

 今回もココナラをWebスクレイピングしていきます。  今回は、「固定客を獲得せよ!!」というタイトルで分析結果の一部を紹介していきます。 先に結論を述べると、ココナラで販売実績を伸ばすには固定客が重要であるということです。固定客とは1人の出品者に対して何度も購入している購入者のことです。別の言い方をすると「リピーター」ですね。<集計方法> スクレイピングで集計のもととするデータは、出品サービスページの「評価・感想」の中の評価者の名前と評価の日付とします。 ここに仮定として、評価者=購入者としています。 ここの「評価・感想」で同じ購入者が何度も評価コメントをしていたらその人がリピーターとなりますね。 集計対象の出品カテゴリーは「ITプログラミング・開発」⇨「作業自動化・効率化」にしぼります。出品件数は約2300件です。 https://coconala.com/categories/230<集計結果> 「固定客がどれだけ重要であるか」というのが客観的に分かるようなデータを取得するために、今回は「購入件数の多い購入者がどれだけ出品者を選んでいるか」というのが分わかればよいです。違う味方として購入者の目線に合わせて質問してみると「購入先で選んだ出品者の人数は?」という感じでしょう? 例えば、購入件数が複数である購入者が、購入先で選んだ出品者が1人だとするとその購入者は「他の出品者には目もくれない完全リピーター」になります。 そうやって集計できたデータは図1のようになります。購入件数が10件以上の購入者(49人)に絞って「購入先で選んだ出品者の人数」をパーセンテージで表しています。図
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その12 ココナラは新規参入がしやすい?

 今回もココナラをWebスクレイピングしていきます。  今回は、過去にも取り上げた「ココナラは新規参入は難しいのか?」というテーマを新たな指標で分析して見ます。 以前の記事とは異なる視点で分析することで、また異なる答えとなりますが、その点も参考にしてもらえたら。  過去記事<集計方法> 「新規参入のしやすさ」というものを客観的に数値化出来るように定義します。 今回は出品サービスの「販売実績1件から2件まで要した日数」としました。この日数が少ないほど「販売に繋がりやすい」=「新規参入がしやすい」となります。 以前の記事と同様、出品サービスが売れた日は、出品サービスの評価コメントの日付から取得します。評価コメントをしない購入者もいたり、出品サービスが売れてすぐコメントをくれる購入者もいるため、取得対象のデータとして完璧ではありませんが、ココナラのサービスページから取得できるデータとして最も近いものとなります。 集計対象の出品カテゴリーは「ITプログラミング・開発」⇨「作業自動化・効率化」にしぼります。出品件数は約2300件です。https://coconala.com/categories/230<集計結果> 集計結果をグラフで表すと図1のようになります。図1:販売実績1件から2件までにかかった日数 図1では集計された各出品サービスの「販売実績1件から2件までかかった日数」の各年(2016~2021年)でまとめて箱ひげ図で表しています。 私の当初の予想では「最近になるほど新規参入はしづらくなっている」と思っていたため、グラフは右肩上がりになると思っていましたが、予想は完全にくつがえ
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その10 出品サービスの出品開始日を計算する

 今回もココナラをWebスクレイピングしていきます。  今回は、ココナラの各出品サービスの出品開始日を求める方法を紹介します。<集計方法> まず、ココナラの各出品サービスは「出品の開始日」はどこにも記載してありません。なので出品サービスがココナラ上に掲載された出品開始日を求める方法は大変特殊な方法を取ります。 出品開始日を求める方法として二つの2つの仮定を置きます。仮定1:出品サービスのURLの番号は古い出品ほど小さい番号になる。「https://coconala.com/services/1855272」なら出品番号は「1855272」仮定2:出品サービスのページの「評価・感想」の最も古い日付(=最初の販売日)より出品サービスの販売開始日のほうが古い この2つの仮定より、出品サービスページの「評価・感想」をスクレイピングで取得し、その最も古い日付に近い日付をもとに出品開始日をもとめます。 今回は取得対象の出品のカテゴリを「相談関係」にします。https://coconala.com/categories/51 理由として、最初の購入の相談から納品までの期間が短いため、「評価・相談」の日付と出品開始日ができるだけ近いと予想されるためです。<集計結果> 集計結果を図1に示します。横軸に出品番号、縦軸に最初の販売日です。図1:出品番号と最初の販売日の関係  図1を見て分かるように、出品番号が大きいほど、すなわち新しい出品ほど、最初の販売日が新しい傾向がくっきりと分かります。 次に、出品番号前後での一番古い販売日を抽出すると、図2のようになります。 図2:出品番号と最初の販売日の関係
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その9 ブログ執筆は販売実績につながるか?

 今回もココナラをWebスクレイピングしていきます。  今回は、前回記事「ココナラブログの1日あたりの執筆件数の変化」の続きとして、実際に「ブログ執筆は販売実績につながるか?」という疑問について答えを求めていきましょう。<集計方法>  ココナラのブログのカテゴリーはいくつかありますが、全部集計するのではなく「ビジネス・マーケティング」のカテゴリに絞って集計します。 https://coconala.com/blogs/categories/2<集計結果> 「ブログ執筆は販売実績につながるか?」という疑問に答えるためには「ブログの執筆件数」と「執筆者の販売実績」の関係性をグラフにしてみればよいです。その結果が図1となります。図1:ブログ執筆件数と販売実績の関係 普通に考えると、「ブログ執筆でいっぱい宣伝できるほど販売実績につながる」と思うかもしれませんが、図1から必ずしもそうではなさそうというのが分かります。 ブログ執筆件数でずば抜けて270件書いている出品者は、実際は販売実績は一桁台にとどまっています。それどころか販売実績が50件以上で執筆者のブログ執筆件数は多くて執筆件数10件以下ぐらいです。 もっと分かりやすいように、ブログ執筆件数を50件以下を拡大してみると図2のようになります。図2:ブログ執筆件数と販売実績の関係(執筆件数50件以下拡大)  やはりブログ執筆件数が多いほど販売実績が多いという傾向は必ずしも当てはまらないようです。 しかし、Webスクレイピングで集計した結果はここまでで、実際はブログの内容、宣伝方法などのノウハウまではそれぞれですので、この時点で言えること
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その7 初心者向けに選ばれるには?

 今回もWebスクレイピングを用いて集計したデータより分析を行っていきます。 今回は、出品サービスが初心者向けランキングに選ばれる条件を探って行きたいと思います。 ココナラの出品サービスのランキングは「おすすめ順」「新着順」「お気に入り数順」「初心者向け順」「ランキング」の5つですが、この内「初心者向け順」は最近追加されたランキングです。(2021年8月現在) 初心者向け順は、同じカテゴリーの出品サービスの中ですべてが掲載されるわけでないようで掲載にはなんらかの条件があるようです。(カテゴリー「エクセル・VBA関係」では900件中280件が初心者向けに掲載されている。) 本シリーズのその4にて、「初心者向け順」と「おすすめ順」はほぼ同じランキングとなるが、「初心者向け順」に掲載される出品は全体の約3割で、「おすすめ順」からまんべんなく抽出されて掲載される。と結論づけました。  今回は、その「初心者向け順」に掲載される条件を探っていきます。<集計方法>  今回もカテゴリを絞って集計します。  集計対象のカテゴリは「IT-プログラミング開発→作業自動化・効率化→エクセル・VBA関係」に絞ります。出品数は約900件になります。 https://coconala.com/categories/230/65<集計と考察> まず、おさらいも兼ねて本シリーズその4にて示したグラフをもう一度示します。図1:初心者向け順とおすすめ順の関係 出品サービス全体は900件ほどですが、そのうち「おすすめ順」には700件、「初心者向け順」には280件ほどが掲載されています。また、「初心者向け順」の順位は「
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その6 新着順と販売実績

 今回もWebスクレイピングを用いて集計したデータより、出品サービス「新着順」と「販売実績」の関係性から考察していきます。 今回のテーマとして「新規参入は難しいのか?」という疑問に対して答えを求めていきます。 シリーズ第1回のテーマとかぶりますが、今回は異なるアプローチでやっていきます。  テーマの「新規参入は難しい」とはすなわち「購入は古い出品サービスに偏りがちになる」という仮定になります。<集計方法>  今回もカテゴリを絞って集計します。  集計対象のカテゴリは「IT-プログラミング開発→作業自動化・効率化→エクセル・VBA関係」に絞ります。出品数は約900件になります。 https://coconala.com/categories/230/65 <結果> 早速、「新着順」と「販売実績」の関係性を可視化してみます。図1:新着順と販売実績の関係  図1を見て分かるように、古い出品ほど販売実績が多いのが分かります。しかし、販売実績が700件ほどで飛び抜けた出品があるせいで、全体の分布が分かりづらいです。ですので、次に、販売実績を20件までに絞って表示してみます。図2:新着順と販売実績の関係(販売実績20件まで)  図2の分布を見てみても、古い出品ほど販売実績が多いことが分かります。 次に、もっと最近の出品サービスに絞って表示してみます。図3:新着順と販売実績の関係(販売実績20件まで、最近200件の新着まで)  図3では最近200件までの出品においての販売実績を表示しています。 図3からは、より最近出品されて販売につながった出品がどのくらいかがわかるようになります。 具体的に
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その5 おすすめ順と販売実績

 今回もWebスクレイピングを用いて集計したデータより、出品サービスの「おすすめ順」と「販売実績」の関係性を示してみます。 「販売実績が多いほど、おすすめ順も上位だろう」という仮定について、「実際どうなのか」を明らかにしていきましょう<集計方法>  今回もカテゴリを絞って集計します。  集計対象のカテゴリは「IT-プログラミング開発→作業自動化・効率化→エクセル・VBA関係」に絞ります。出品数は約900件になります。 https://coconala.com/categories/230/65<結果> 早速、「おすすめ順」と「販売実績」の関係をグラフ化してみます。図1:おすすめ順と販売実績の関係性 図1を見て分かるように、「販売実績」が多いほど「おすすめ順」が上位になるのは確かなようです。しかし、販売実績が700件近くでずば抜けた出品があるせいで、全体の詳しい分布が分かりづらいです。 なので次に、販売実績の範囲を0~20件の間で絞って見てみましょう。図2:おすすめ順と販売実績の関係性(販売実績0~20件) 図2から、販売実績が1件1件の違いで見ることが出来ます。図2を見て分かるように、販売実績が1件の出品でもおすすめ順上位にいることがわかります。このことから冒頭に述べた「販売実績が多いほど、おすすめ順も上位だろう」という仮定は必ずしも正しいとは言えないとなります。 しかし販売実績0件の場合は、おすすめ順はよくても60位ぐらいで、あとは100位以下となり、販売実績0件と1件の違いは大きいということが分かりますね。ちなみに、ココナラの出品サービス一覧のページは1ページあたり40件が
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その4 各ランキングの関係

 今回はWebスクレイピングを用いて、ココナラの出品一覧ページの各ランキングについて調べてみます。 ココナラの出品一覧ページのランキングは下記5つがあります。・おすすめ順・新着順・お気に入り数順・初心者向け順・ランキング(以下:通常ランキング) 最近(2021年8月時点)、初心者向け順が追加されましたね。 購入者が主に閲覧するのは、まず最初に表示される「おすすめ順」と思われるので、「販売につなげるにはおすすめ順上位を狙う」とまず位置付けしておきましょう。 なお、「おすすめ順上位 = 販売に繋がりやすい」というロジックはあくまで「普通はそう思うよね?」っていう程度の個人的な仮定であり、確固たる証拠はないのでご注意ください。<集計方法> 今回もカテゴリを絞って集計します。 集計対象のカテゴリは「IT-プログラミング開発→作業自動化・効率化→エクセル・VBA関係」に絞ります。出品数は約900件になります。https://coconala.com/categories/230/65 <結果> まず5つのランキングのうち、「おすすめ順」と「新着順」の関係を見てみます。図1:おすすめ順と新着順の関係 図1:おすすめ順と新着順の関係  図1を見て分かるように、「おすすめ順」と「新着順」には相関はほぼ内容です。すなわち、古くからある出品であるからといっておすすめ順上位になるとは限らないということです。 これは、本シリーズの第1回で詳しく述べていますので、興味のある方はご参照ください。 次に「通常ランキング」と「おすすめ順」の関係を見てみます。 図2:通常ランキングとおすすめ順の関係 図2を見て
0
カバー画像

Python スクレイピング(requests, BeautifulSoup) メモ 01

import requests from bs4 import BeautifulSoup import tkinter url = 'ターゲットURLをにゅうりょく [夏目 智徹]' site = requests.get(url) site.encoding = site.apparent_encoding # 文字化け対策 data = BeautifulSoup(site.text, 'html.parser') data_02 = BeautifulSoup(site.text, 'html.parser') data_03 = BeautifulSoup(site.text, 'html.parser') print(data.title) # printf(data.title.text) print(data.title.text) # テキストだけ取得 # print(data.find('a').text) # print(data.find('p').text) # print(data.find('a').text) print(data.find_all('img')) #すべての「a」タグを出力する print(data.find_all('p')) #すべての「a」タグを出力する print(data.find_all(id='sysDescription')) #id属性「id_name」に一致するタグを出力する # arr_item = data.find(id='sysDescription') # print(data.find(c
0
カバー画像

【Selenium】Instagramスクレイピング-ノウハウ

数ある記事の中からご覧頂きありがとうございます!今回は私が趣味でスクレイピングしていた「Instagram」でつまずいたところを皆さんに共有しようと思います。≪実行環境≫・Windows10 pro・Python3.6.3・Pycharm2020-3・Chrome driver 最新バージョン・Google Chormeブラウザー・Chromedriver オプションでモバイルモードにしています1.Instagramにログインする際の注意事項まずInstagramをスクレイピングする際にはinstagramにログインする必要があります。その際下記のような弊害が出てきます。>>高速な処理を心がけていると入力できないとエラーが出たこれは初学者が陥りやすく、単純ですが原因解明に時間がかかることもあ      ります。今までスクレイピングの経験がある方は分かるかと思いますが、      高速な処理でログインを行うとブラウザが入力処理を行う前や行ってい    る途中に「ログインボタン」が押されてしまい次の処理に移れないことがあります。〔対策〕入力やクリック処理の前には必ず「time.sleep(1)」と入れるとこういったバグはなくなります。これは1秒間待機するという意味です。よく使うので必ず覚えておきましょう。〔例〕※あくまで例文なのでインスタグラムで使用はできません。import timefrom selenium import webdriver~省略~driver.find_element_by_id("username").send_keys(”ログインID”)tim
0
カバー画像

Web上のパズルゲームをSeleniumを使って自動で解く

SeleniumSeleniumはWebドライバーAPIと相互にやり取りを行って、Webブラウザを自動化するためのライブラリーとして、Webサイトの動作テストやスクレイピングによく使われます。SeleniumはJavaScriptを実行してWebページの操作を行うことが出来るので、Web上のゲームの操作も自動化することが出来ます。任意のJavaScriptコードを実行することが出来るので、ハックしてゲームで任意スコアを出したかのように見せかけることもできます(この記事ではやりません)。この記事ではSeleniumを用いたブラウザ自動化の利用例の一つとして、Python + Seleniumを用いてパズルゲームの自動化を行います。今回はPythonを使用しますが、SeleniumのバインディングとしてPythonの他にJava、JavaScript等があります。2048この記事では「2048」というWebページ上にあるパズルゲームを自動化します。「2048」は4×4マスにある数字が書かれたタイルを矢印キーを押すことで上下左右どれかの方向にスライドさせ、「同じ数字」がぶつかると合体し、タイルの数字が足し合わされます。以下の動画は実際に私がPython + Seleniumで自動化プログラムを作成し、実行した様子を撮ったものです。2048ルール・同じ数字のタイルがぶつかれば、その数字の分だけスコア獲得・最終的に2048のタイルを一つでも作ることが出来ればクリア・クリア後もゲームを続行して2048以上の数字を作ることも可能・タイルを動かすことが出来ない状態になればゲームオーバー「204
0
カバー画像

外部の求人データをWordPressサイトで表示

医療系ならHRBC、行政ならe-Gov、その他リクルート系の求人情報APIなど多数あると思います。そういった膨大な求人データの中から、自社管轄区域/領域の求人に絞り、自サイトで表示させたいという要望は多いかと思います。特集ページや記事連動型の求人も可能になります。大手求人サイトでは、REST API、あるいはRESTful APIと呼ばれるものが提供されているものが多く、それを用いたデータ取得が可能です。WordPressのプラグインで、WP All importというものがあり、URLを指定してXML形式でのデータ取得が可能です。ただ、これだと認証の処理やWPのインポート形式にそぐわないデータを加工しないといけません。そこで、定期的なAPI呼び出しとデータ加工をするサーバを建て、そこで生成されたXMLファイルに対してWP All importを実行するという方法を採ります。配列形式のデータについてはカスタムフィールドで対応します。基本的な構成ができれば、REST API呼び出しが可能な様々なサイトに対して、同様のサービスが構築可能です。また、APIを持たないサイトに対しては、取得先サイトの規約に準じた範囲でスクレイピングを行うこともあります。
0
カバー画像

リスト作成に費やす時間を外注して解決しませんか?

「営業リスト作成の課題を解決!効率的な営業リスト作成方法とは」営業活動において、質の高い営業リストを効率的に作成することは非常に重要です。しかし、多くの営業担当者が営業リスト作成に頭を悩ませているのが現状ではないでしょうか。営業リスト作成における代表的な課題としては、以下の2点が挙げられます。・時間と手間がかかる - 企業情報の収集や入力に多大な工数が必要・確度の高いリストを作るのが難しい - ターゲットに合致した見込み客情報の収集が困難これらの課題に直面し、「もっと効率的な方法はないのか」と感じている方も多いのではないでしょうか。そんな営業リスト作成の悩みを解決するのがサービスをご提供しています。優位性としては、先進的なシステム化によって、質の高い営業リストを効率的に作成するノウハウを持っています。具体的には、Webスクレイピング技術を活用することで、お客様のターゲットに合致した企業情報を瞬時に収集・整理することが可能です。これにより、これまで手作業で行っていた営業リストの作成を大幅に効率化することができるのです。弊社のサービスを利用することで、以下のようなメリットが得られます。◎営業リスト作成に要する時間とコストを大幅に削減◎ターゲットに合致した高品質な営業リストを短時間で入手可能◎営業活動の生産性向上と商談獲得率のアップ営業リスト作成に課題を感じている方は、ぜひサービスをご検討ください。効率的な営業リスト作成を実現し、営業活動に変革をもたらすお手伝いをさせていただきます。お客様のビジネスの成長・発展に貢献できるよう、全力でサポートさせていただきます。営業リスト作成のことな
0
カバー画像

Webスクレイピングの出品をご購入頂きました!

先日以下の出品をご購入頂き、昨日無事納品が完了したので今日はその記事を書いてみたいと思います。以前こちらの記事を書きましたが、当出品でのご購入は1回目、買い切り出品通算では4回目になります。こちらはオーダーメイドの開発なので詳細は明かせませんが、今回も色々と学びのあるお取引をさせて頂きました。今回は特に権限周りについて学ばせて頂きました。私のPCでは開発用検証用2台両方とも普通に動くのに、購入者様のPCではファイル作成時にエラーになる…Windows、なかなか厄介ですね。OSは一緒でもメーカーが複数あるためでしょうか。こういうトラブルは以前にもありました。そのときはウイルス対策ソフトに引っ掛かってしまうというものでしたが、こういうときにきちんと対応方法を調べておけば今後のお取引の際にも慌てずに済みます。今回も調査して解消方法を発見し、無事納品することができました。また、今回は当初依頼の内容は早い段階で実現していたのですが、自分で使ってみて不便だなと感じる点があり、自分から提案をして機能を追加させて頂きました。スクレイピングは時間のかかる処理なので、できるだけ購入者様の負担になるようなことを減らせれば、と思ったのですがご快諾頂けて良かったです。さて、今回の出品物も「モニター価格」ということで格安で出品しております。3枠限定ということにしていたので、今回のお取引により残り2枠となりました。もしこの出品にご興味のある方は是非お早めにご検討下さい!※Webスクレイピングは対象のサイトによってはスクレイピング不可になっていたりするのでお断りさせて頂く場合がございます。また、あくまで当出品
0
カバー画像

【スクレイピング動画イメージ】※簡易的ではございますが・・・

おはようございます。こんにちは。こんばんわ。未だサービスのご提供には至っておりませんが、私ができる事を少しずつ発信していけたらと思っております。語彙力皆無で言葉・文字では伝え切れないことが多いもので、動画を作成しました。凄く簡易的な仕様ではありますが、スクレイピングというものになります。インターネットより情報を取得し、そのデータを加工・分析して活用いただくものになります。先にお伝えしておきますが、スクレイピングは仕組み上可能でも禁止しているサイトがありますのでその点ご留意を。スクレイピングの用途はお客様次第で様々だと思いますので、まずは【インターネッツ!から多量な情報が簡単に取得できるんだな】と考えていただければ結構です。他にも、多量でなくとも日々のルーティンワークにネット接続があっていつもID・PASSの入力/定型処理が発生するものなどでもご活用いただける技術です。どうぞお試しあれw
0
カバー画像

Selenium + EC2でブラウザがクラッシュする

以前はXサーバーなどでDjangoで作ったサービスなどの運営を行っていたのですが今は完全にAWSにシフトをし、Seleniumを使ったサービスに力を入れていました。そして昨夜、ブラウザがクラッシュする不具合に頭を悩まされました。事の発端現在取り扱っている案件の1つに「スマホでスクレイピングをしたい」と要望を受けてあるECサイトをローカルでテストしていました。そして本番環境、つまりEC2に上げていざ実装という時になんとブラウザがクラッシュしました。。。その時の環境が以下です・EC2(microt2)・Nginx・Docker・Gunicorn・Django3.0・Python 3.8AWSに詳しい方はすぐに見てわかると思うのですがこのインスタンスってスクレイピングをするにはかなりスペックが低いんです。なので落ちて当たり前なんですけどこの時はリミットを掛けていてこのスペックでも落ちるはずのない物でした。原因はメモリ不足Seleniumが実行中に落ちた原因はメモリ不足でした。直す方法は主に2つあります。1つ目は「インスタンスをアップグレードする」ことです。どうしても内部のコードを変えたくない方はこの方法が良いと思いますが個人的にはあまりおすすめはしたくないです。高くなるというのももちろんありますが根本的に処理を軽くしないと取得数が増えれば同じことが起こります。2つ目は今回やった方法なのですが「省エネモードを使うこと」です。Headlessモードを使う時点で必ずoptionのライブラリを使う必要が出てくるので使っているとは思いますはoptionには処理を軽くする機能があります。今回はこ
0
カバー画像

[Python]最近のスクレイピング事情

スクレイピングを個人又は案件でこなしている人向けにスクレイピングに関しての実情をまとめます。Reactなどの影響で年々難易度が上がっている。特に画像系は対策をしても取りこぼしが出るようになってきている。解決するにsleepなどの待機時間を伸ばす必要がある。そして出来れば一覧のところではなく、個別ページのURLに一覧取得後にアクセスしてスクレイピングをした方が良い。EC系のrecaptureが増えつつあるこれが今の1番の問題で以前と比べるとかなりrecaptureを導入するサイトが増えてきました。案件の見積もりでも対策方はあるのかと聞かれたが今のところは一旦止めて手動で認証を行うしかない。Beautiful Soupがほぼオワコン1つ目のと共通するのですがこれからはBeautiful Soupはこのままだと活躍の場が限りなく少なくなります。理由としてBeautiful SoupはHTMLファイルに記述されていないものは取れないと言うこと。Reactなどのを使っているサイトではアニメーションも駆使して実際にアクセスしなければ要素が取得できないようになっています。使ってみると分かると思いますが多くのサイトでメインのコンテンツの要素が取得出来ません。これはrequestのライブラリでダウンロードするhtmlファイルにそれらの要素がロードされる前にダウンロードしてしまうからです。現時点ではSeleniumのようなブラウザを使うライブラリ以外では対応策はありません。スクレイピング系ライブラリもアップデートが必要現在ではスクレイピング系のライブラリが新しい技術に追いついてない印象を受けます。
0
カバー画像

抽出したデータをまとめた営業リストを販売してみよう!

ちょっと気がついたのですが、「スクレイピングします」とか受注生産的(オーダーメイド)なスタンスが基本ですが、ココナラ内で情報商材(テキストやPDF)も販売しているので、誰が買うか分からないけど頼まれてないのにデータを抽出して営業リスト作成の手助けになるExcelファイルを販売してみようかと考えてみた。いわゆるプロダクトアウトな発想。例えば求人サイトから得た「介護サービス」業界の運営者名/所在地/URL/設立年/資本金/代表者 など。あるいは、飲食店紹介サイトから得た 飲食店名/URL/所在地 など。美容系サイトのヘアサロン名/住所/電話番号 など需要あるかなぁ。
0
カバー画像

販売件数5件達成!ありがとうございます!

販売件数5件を達成しました!ありがとうございます!今後とも、みなさんのお役に立てるように努めてまいります。・スクレイピングに関すること・Pythonに関することでお困り事がありましたら、ぜひ力になりますのでよろしくお願いいたします!
0
カバー画像

大阪市福島区 スクレイピングデータ収集 無料ダウンロード

今回は福島区のデータをスクレイピングしてみました。梅田に近いのでデータ量も多いかと期待しましたが、面積が小さいのか思ったほどは収集できませんでした。次は東京都港区そして大阪市淀川区あたりから収集してみます。評価の低いコインランドリーなどは、新たな土地活用やスペース活用の提案営業のチャンスかもしれませんね。無料ダウンロードのファイル置き場はいつもの場所です。ココナラのお仕事もお待ちしております。
0
カバー画像

品川区のお店などの収集データ無料ダウンロード公開中

品川区のリフォームやサウナやネイルサロン、コインランドリーなど。ホテルはやはり件数多いですね。評価が低いところも一覧で発見できるので、コンサルティングや提案営業、さらにはM&Aの営業リストなどにもご利用できるかもしれません。データ保管はいつものところです。ご自由に閲覧、ダウンロードしてください。ココナラからのお仕事もお待ちしております。
0
カバー画像

スクレイピングはお任せください

Ruby・Pythonどっちの言語でもスクレイピングできます。WEBサイト形式でのスクレイピングツール、実行ファイルでのスクレイピングツール作成やCSVファイルやエクセルファイルでの納品も可能です。お気軽にご連絡ください。
0
カバー画像

東京のGoogle Mapsのデータ公開に続き大阪も開始

東京都新宿を皮切りに現在は大阪市中央区で取得したGoogle Mapsのデータ(カラオケ店・リフォーム・メンズエステ・コインランドリーなど)を取得し公開中。csvをアップしています。もちろん無料でサイト上でも見ることができます。評価の得点も掲載していますので、提案営業などにお役立てください。サイトの場所は前のブログでご確認ください。お仕事もココナラでお待ちしております。
0
カバー画像

天皇賞・春

天皇賞・春用のデータをスクレイピングしてます。今回は以前のデータに「各馬のその年度の天皇賞から前3走分の着順と賞金」を追加して予想を行う予定。このやり方も大分煮詰まってきたけど、スクレイピング技術が向上しているのでデータは集め続ける予定。時間があれば予想結果をブログに投稿したいと思いますが、単勝、人気、体重、体重増減がレース1時間前なので厳しんです(;^ω^)以前のデータ・枠番、着順、人気、単勝オッズ、体重、増減、過去レースの平均着順
0
カバー画像

【備忘録】html関連のチートシート

目次・属性値を指定してタグを取得する・タグの階層指定してタグを取得する・文字列から数字をInt型で抽出する・属性値を指定してタグを取得する
0 500円
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その3 (出品者の販売実績件数の割合)

 前回行った、「出品サービスの販売実績」に引き続き、今回は「出品者の累計販売実績」の統計を行ってみます。 前回記事↓  今回も前回同様、ココナラサーバーの負担を考慮して出品者は分野で絞ります。出品者の分野は「エンジニアーExcelマクロ作成・VBA開発」とします。 「エンジニアーExcelマクロ作成・VBA開発」の一覧のページ↓https://coconala.com/users/search 該当する出品者は4000人ぐらいになります。  このページから出品者の累計販売実績だけを取得していきます。 早速、取得結果から統計値を見ていきます。 前回同様に販売実績別のヒストグラム(図1)と、円グラフ(図2)で可視化しす。図1:出品者の累計販売実績の分布図2:出品者の累計販売実績件数別の割合 図1,2から分かるように、出品者の統計も、出品サービスの統計とほぼ同じとなります。7割が販売件数0の出品者で、多くの販売実績がある出品者ほどピラミッドの頂点という感じですね。 これ以上深い考察は行いませんが、販売実績1件以上を達成するのはまず最初の壁というのは間違い無いようです。しかし、ココナラでは出品サービスやプロフィールを充実させて、理解しやすいものにしておくと自然と出品ランキング上位になったりと、真面目に取り組めば販売実績につながるような仕組みになっているので、販売実績0でもめげずに頑張りましょう。  
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その2 (販売実績件数の割合)

 前回の続きをやっていきます。 前回記事↓ 前回の記事は、小難しい内容になってしまったので、今回は簡単な統計結果を紹介して終わらせます。 今回統計をとったのは「出品サービスの販売実績件数の割合」です。 前回同様、ココナラサーバーの負担を考慮してサービスのカテゴリは「IT・プログラミング・開発>作業自動化・効率化」に絞ります。 https://coconala.com/categories/230 早速、統計結果のグラフを示します(図1)。 横軸に販売実績件数、縦軸にその件数のサービスの総数を表しています。図1:販売実績の分布  図1を見て分かるように、販売実績0件が2000件と圧倒的に多いことがわかります。ココナラ出品者ならある程度分かるかと思いますが、「販売実績0から1にするのが一番大変」というのがはっきり分かりますね。 次にこれを円グラフにしてみましょう。 本記事のカバー画像と同じものですが、具体的に割合(パーセンテージ)で分かるように円グラフにしています(図2)。図2:販売実績件数別の割合 販売実績0件が約70%、1件が約10%、2件が4.5%、3~10件が9.6%、11~100件が5.7%、それ以上が0.4%となっています。 販売実績10件以上が6%ぐらいで、100件以上となるとほんの一握りどころか、ひとつまみの0.4%ですね。 次回は、出品者別で販売実績などを統計をとってみます。
0
カバー画像

【AllExpress】アリエク用商品データ収集ツール アリエクスプレス

アリエクの商品データを収集出来るツールを別途作成しようか検討中。 いいねをくれた方か、ダイレクトメールくれた方で、かつ、バグ報告をしてくれる方にツールをプレゼントしようと思っています。(5名様ぐらいかな)とは言っても、あくまで需要があればですが…理由は、商品出品データ変換ツールのお仕事を、ご依頼して頂くお客様の中で、”変換元データがない”という方がいらっしゃったからです。さすがに、当方がリソースを使用し、API手続きだしてスクレイピングするのは・・・ちょっとね。いいねとか、頑張って作ってくださいとか、なにかしら、リアクション頂ければ、ちょっとやってみます。笑
0
カバー画像

本年も宜しくお願いいたします。

新年明けましておめでとうございます。昨年は大変お世話になりました。現在スクレイピングツールのOctoparseを利用しているユーザーからの相談を受けています。coconala利用前からの案件なのですが、今後はcoconalaでの受け付けにしていこうと思います。Pythonでの独自スクレイピングも可能ですが、データ量や実行環境を考慮すると、外部サービスの利用をしているユーザも多いと思います。OctoparseのサンプルタスクはXPATHの使い方が甘いものがあるので、より最適にスクレイピング可能になるお助けができるかと。本年も宜しくお願いいたします。
0
カバー画像

購入しました 日経ソフトウエア全バックナンバー

※画像はDVD内のindex.htmlファイルを開いたものです。懐かしいですね。1998年当時はVisual BasicでWindowsプログラミングをしていました。『日経ソフトウエア』の創刊号から全てが入ったDVD3本セットが発売され、そちらを購入しました。このままでも良いのですが、収録内容を検索したい場合、テキストで全文検索するしかないので、HTMLをスクレイピングしてローカルDBにデータ化しようと思います。
0
カバー画像

スクレイピングで一番役立つXPATH

Pythonで自作プログラムを書いてる人も多いかと思いますが、データ件数を考慮してOctoparseを利用する人も多いですね。テーブル形式のデータ取得の例を見ると、大抵以下のようになってます。これだと、取得先ページで表の行が挿入されただけで、目的とするデータが取得できなくなります。列見出しに着目して、「〇〇という見出しの隣のデータ」という具合に取得すると一番確実かと思います。必要な方はご相談ください。
0
59 件中 1 - 59
有料ブログの投稿方法はこちら