絞り込み条件を変更する
検索条件を絞り込む

すべてのカテゴリ

113 件中 1 - 60 件表示
カバー画像

【Selenium】Instagramスクレイピング-ノウハウ

数ある記事の中からご覧頂きありがとうございます!今回は私が趣味でスクレイピングしていた「Instagram」でつまずいたところを皆さんに共有しようと思います。≪実行環境≫・Windows10 pro・Python3.6.3・Pycharm2020-3・Chrome driver 最新バージョン・Google Chormeブラウザー・Chromedriver オプションでモバイルモードにしています1.Instagramにログインする際の注意事項まずInstagramをスクレイピングする際にはinstagramにログインする必要があります。その際下記のような弊害が出てきます。>>高速な処理を心がけていると入力できないとエラーが出たこれは初学者が陥りやすく、単純ですが原因解明に時間がかかることもあ      ります。今までスクレイピングの経験がある方は分かるかと思いますが、      高速な処理でログインを行うとブラウザが入力処理を行う前や行ってい    る途中に「ログインボタン」が押されてしまい次の処理に移れないことがあります。〔対策〕入力やクリック処理の前には必ず「time.sleep(1)」と入れるとこういったバグはなくなります。これは1秒間待機するという意味です。よく使うので必ず覚えておきましょう。〔例〕※あくまで例文なのでインスタグラムで使用はできません。import timefrom selenium import webdriver~省略~driver.find_element_by_id("username").send_keys(”ログインID”)tim
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その13 固定客を獲得せよ!!

 今回もココナラをWebスクレイピングしていきます。  今回は、「固定客を獲得せよ!!」というタイトルで分析結果の一部を紹介していきます。 先に結論を述べると、ココナラで販売実績を伸ばすには固定客が重要であるということです。固定客とは1人の出品者に対して何度も購入している購入者のことです。別の言い方をすると「リピーター」ですね。<集計方法> スクレイピングで集計のもととするデータは、出品サービスページの「評価・感想」の中の評価者の名前と評価の日付とします。 ここに仮定として、評価者=購入者としています。 ここの「評価・感想」で同じ購入者が何度も評価コメントをしていたらその人がリピーターとなりますね。 集計対象の出品カテゴリーは「ITプログラミング・開発」⇨「作業自動化・効率化」にしぼります。出品件数は約2300件です。 https://coconala.com/categories/230<集計結果> 「固定客がどれだけ重要であるか」というのが客観的に分かるようなデータを取得するために、今回は「購入件数の多い購入者がどれだけ出品者を選んでいるか」というのが分わかればよいです。違う味方として購入者の目線に合わせて質問してみると「購入先で選んだ出品者の人数は?」という感じでしょう? 例えば、購入件数が複数である購入者が、購入先で選んだ出品者が1人だとするとその購入者は「他の出品者には目もくれない完全リピーター」になります。 そうやって集計できたデータは図1のようになります。購入件数が10件以上の購入者(49人)に絞って「購入先で選んだ出品者の人数」をパーセンテージで表しています。図
0
カバー画像

ココナラブログはじめました。

はじめまして。 まさと申します。よろしくおねがいします。まずは、簡単に自己紹介をします!!普段は、フリーランスエンジニアとして、大手企業様のシステムの開発支援をさせて頂いております。システムエンジニアとしては、10年以上経験しております。最近はpythonの案件に携わるようになり、pythonの将来性、可能性を感じながら業務を行っております。詳細な私のプロフィールについては、以下をご参照ください。↓https://coconala.com/users/515073このブログでは、pythonのツールを使用した業務効率化の事例を順次、紹介していこうと思います。pythonには様々なライブラリーというものが存在し、Web上の情報、Excelの操作、PDFに対する操作、画像の編集など様々なことができます。そのため、ライブラリーを駆使することによって皆様が行っている定常業務などを短時間でしかも高品質に実施することが可能になります。「めんどうくさい」「時間がかかる」ような手作業をなくすことによって、本質的な業務に注力し、売り上げ・利益を伸ばしていくことが可能となります。私も、ココナラを通して、少しでも多くの方の業務効率化のお手伝いをさせて頂ければと思い始めました。今後も定期的に、業務効率化の事例を投稿していこうと思います。少しでも気になる内容、ご質問があればお気軽メッセージ頂ければと思います。以上、最後まで読んでいただきありがとうございました!!
0
カバー画像

チャットボット屋を自称し始めたのに自動化ツールの出品を始めました

前回のブログから早いもので一ヶ月以上が経過していました。まだ初購入も達成していませんが、私は元気です。前回、「自分は何者だろう」と考えて「チャットボット屋」ととりあえず名乗ることにしました。ですが、それでもチャットボットは売れません。そこで考えました。「どうして売れないのだろうか」と。・チャットボットそのものに需要が無い・チャットボットの需要はあるが、月額課金制を受け入れてくれるユーザーがいない・チャットボットの需要はあるが、自分の出品説明が拙くて伝わっていない・チャットボットの需要はあるが、自分の出品が他のユーザーに認知されていない(宣伝不足)・チャットボットの需要はあるが、自分のアカウントのランクが低いので信用が足りないどうしようもない順に挙げていくとこんな感じでしょうか。どうしようもないものはどうしようもないので、どうにかできそうなやつからどうにかしてみようと思い、まずはアカウントランクを上げることを目標にしてみることにしました。そこで話は冒頭の「自動化プログラムの出品」に戻ります。とりあえず私が出してみたのがこれ。これがまぁ伸びなかった。チャットボットの何分の1だよって感じの閲覧数で、「自動化って人気無いのか?世の中RPAだの何だので盛り上がってるのに??」って感じで心配になりました。で、危うくさじを投げかけたのですが思いとどまり、「そもそも自動化ってざっくりしすぎでは?」と思うことにしました。改善点の一つでも見つけないとやってられなかったからです。そこで、自動化で考えられるプログラムでかつ自分が作れそうなジャンルを切り出していったらこんな感じになりました。ジャンルによ
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その12 ココナラは新規参入がしやすい?

 今回もココナラをWebスクレイピングしていきます。  今回は、過去にも取り上げた「ココナラは新規参入は難しいのか?」というテーマを新たな指標で分析して見ます。 以前の記事とは異なる視点で分析することで、また異なる答えとなりますが、その点も参考にしてもらえたら。  過去記事<集計方法> 「新規参入のしやすさ」というものを客観的に数値化出来るように定義します。 今回は出品サービスの「販売実績1件から2件まで要した日数」としました。この日数が少ないほど「販売に繋がりやすい」=「新規参入がしやすい」となります。 以前の記事と同様、出品サービスが売れた日は、出品サービスの評価コメントの日付から取得します。評価コメントをしない購入者もいたり、出品サービスが売れてすぐコメントをくれる購入者もいるため、取得対象のデータとして完璧ではありませんが、ココナラのサービスページから取得できるデータとして最も近いものとなります。 集計対象の出品カテゴリーは「ITプログラミング・開発」⇨「作業自動化・効率化」にしぼります。出品件数は約2300件です。https://coconala.com/categories/230<集計結果> 集計結果をグラフで表すと図1のようになります。図1:販売実績1件から2件までにかかった日数 図1では集計された各出品サービスの「販売実績1件から2件までかかった日数」の各年(2016~2021年)でまとめて箱ひげ図で表しています。 私の当初の予想では「最近になるほど新規参入はしづらくなっている」と思っていたため、グラフは右肩上がりになると思っていましたが、予想は完全にくつがえ
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その5 おすすめ順と販売実績

 今回もWebスクレイピングを用いて集計したデータより、出品サービスの「おすすめ順」と「販売実績」の関係性を示してみます。 「販売実績が多いほど、おすすめ順も上位だろう」という仮定について、「実際どうなのか」を明らかにしていきましょう<集計方法>  今回もカテゴリを絞って集計します。  集計対象のカテゴリは「IT-プログラミング開発→作業自動化・効率化→エクセル・VBA関係」に絞ります。出品数は約900件になります。 https://coconala.com/categories/230/65<結果> 早速、「おすすめ順」と「販売実績」の関係をグラフ化してみます。図1:おすすめ順と販売実績の関係性 図1を見て分かるように、「販売実績」が多いほど「おすすめ順」が上位になるのは確かなようです。しかし、販売実績が700件近くでずば抜けた出品があるせいで、全体の詳しい分布が分かりづらいです。 なので次に、販売実績の範囲を0~20件の間で絞って見てみましょう。図2:おすすめ順と販売実績の関係性(販売実績0~20件) 図2から、販売実績が1件1件の違いで見ることが出来ます。図2を見て分かるように、販売実績が1件の出品でもおすすめ順上位にいることがわかります。このことから冒頭に述べた「販売実績が多いほど、おすすめ順も上位だろう」という仮定は必ずしも正しいとは言えないとなります。 しかし販売実績0件の場合は、おすすめ順はよくても60位ぐらいで、あとは100位以下となり、販売実績0件と1件の違いは大きいということが分かりますね。ちなみに、ココナラの出品サービス一覧のページは1ページあたり40件が
0
カバー画像

【完全初心者向け】おすすめのプログラミング言語

こんにちは。ゆうです!私は大学在学中にプログラミングを始め、今は大学の研究と並行して、ココナラでプログラミング関連のお仕事をしています。よく私の下にこんなメッセージが届きます。・人気なプログラミング言語は何?・どの言語を学ぶのがおすすめなの?結論、私は「python」がおすすめです。その理由は以下の3つが挙げられます。・初心者でも学びやすい・需要が高い・ライブラリが豊富まず、一つ目の「初心者でも学びやすい」点について。これはpythonを学ぶメリットとして、まず挙げられますね。pythonは学習コストが他の言語と比べて圧倒的に低いことが特徴です。例として、プログラミング言語の中でも有名なC言語とコードの比較をしてみましょう。● C言語#include <stdio.h>int main(void){    printf("Hello World!");    return 0;}●pythonprint("Hello World!")どうでしょう? pythonが学びやすいと言われる理由が分かると思います。次に、二つ目の「需要が高い」点について。pythonというプログラミング言語は今話題のAIやデータ分析に特化した言語です。米国の電気工学技術の学会誌である「IEEE Spectrum」が2022年に発表したプログラミング言語ランキングによると、pythonが堂々の1位である事がわかります。日本でも海外に倣って需要が伸びてきていますが、今後もさらに需要が伸びていく事が予想されます。最後に、三つ目の「ライブラリが豊富」という点について。まず、ライブラリとは何? と思っ
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その10 出品サービスの出品開始日を計算する

 今回もココナラをWebスクレイピングしていきます。  今回は、ココナラの各出品サービスの出品開始日を求める方法を紹介します。<集計方法> まず、ココナラの各出品サービスは「出品の開始日」はどこにも記載してありません。なので出品サービスがココナラ上に掲載された出品開始日を求める方法は大変特殊な方法を取ります。 出品開始日を求める方法として二つの2つの仮定を置きます。仮定1:出品サービスのURLの番号は古い出品ほど小さい番号になる。「https://coconala.com/services/1855272」なら出品番号は「1855272」仮定2:出品サービスのページの「評価・感想」の最も古い日付(=最初の販売日)より出品サービスの販売開始日のほうが古い この2つの仮定より、出品サービスページの「評価・感想」をスクレイピングで取得し、その最も古い日付に近い日付をもとに出品開始日をもとめます。 今回は取得対象の出品のカテゴリを「相談関係」にします。https://coconala.com/categories/51 理由として、最初の購入の相談から納品までの期間が短いため、「評価・相談」の日付と出品開始日ができるだけ近いと予想されるためです。<集計結果> 集計結果を図1に示します。横軸に出品番号、縦軸に最初の販売日です。図1:出品番号と最初の販売日の関係  図1を見て分かるように、出品番号が大きいほど、すなわち新しい出品ほど、最初の販売日が新しい傾向がくっきりと分かります。 次に、出品番号前後での一番古い販売日を抽出すると、図2のようになります。 図2:出品番号と最初の販売日の関係
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その9 ブログ執筆は販売実績につながるか?

 今回もココナラをWebスクレイピングしていきます。  今回は、前回記事「ココナラブログの1日あたりの執筆件数の変化」の続きとして、実際に「ブログ執筆は販売実績につながるか?」という疑問について答えを求めていきましょう。<集計方法>  ココナラのブログのカテゴリーはいくつかありますが、全部集計するのではなく「ビジネス・マーケティング」のカテゴリに絞って集計します。 https://coconala.com/blogs/categories/2<集計結果> 「ブログ執筆は販売実績につながるか?」という疑問に答えるためには「ブログの執筆件数」と「執筆者の販売実績」の関係性をグラフにしてみればよいです。その結果が図1となります。図1:ブログ執筆件数と販売実績の関係 普通に考えると、「ブログ執筆でいっぱい宣伝できるほど販売実績につながる」と思うかもしれませんが、図1から必ずしもそうではなさそうというのが分かります。 ブログ執筆件数でずば抜けて270件書いている出品者は、実際は販売実績は一桁台にとどまっています。それどころか販売実績が50件以上で執筆者のブログ執筆件数は多くて執筆件数10件以下ぐらいです。 もっと分かりやすいように、ブログ執筆件数を50件以下を拡大してみると図2のようになります。図2:ブログ執筆件数と販売実績の関係(執筆件数50件以下拡大)  やはりブログ執筆件数が多いほど販売実績が多いという傾向は必ずしも当てはまらないようです。 しかし、Webスクレイピングで集計した結果はここまでで、実際はブログの内容、宣伝方法などのノウハウまではそれぞれですので、この時点で言えること
0
カバー画像

アフィリエイトを10年近くやっているただの会社員です

表題の通りですが、アフィリエイトを始めて10年くらいになります。お小遣いかせぎから、今ではうん万円の収益を毎月得ることができています。ただずっと本業は会社員です。アフィリエイトの活動はもっぱら休みの日と通勤時間などのスキマ時間しかありません。とにかく、会社員を辞めて専業アフィリエイターになりたいのですが、家族を養うまでの域には達することができないのですね。。。。それが、10年近くだらだらやっている理由です。好きなアフィリエイトの型は、プログラムやツールを使った自動化によるものです。記事や投稿を量産したり、ブラウザでマウスやキーボードを操作したり。プログラムはVBAを実務レベルで使えます。Wordpressでブログを構築する際にPHPを軽く触ります。ほか、pythonをかじっています。ただ、プログラムは最近ほとんど自分で作らないです。プログラムを作るのは大好きですが、アフィリエイトの企画や運営で手いっぱいになるからです。ツールを作ってくださる方は、幅広く募集しておりますのでよろしければ気軽にお声がけください!!
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その7 初心者向けに選ばれるには?

 今回もWebスクレイピングを用いて集計したデータより分析を行っていきます。 今回は、出品サービスが初心者向けランキングに選ばれる条件を探って行きたいと思います。 ココナラの出品サービスのランキングは「おすすめ順」「新着順」「お気に入り数順」「初心者向け順」「ランキング」の5つですが、この内「初心者向け順」は最近追加されたランキングです。(2021年8月現在) 初心者向け順は、同じカテゴリーの出品サービスの中ですべてが掲載されるわけでないようで掲載にはなんらかの条件があるようです。(カテゴリー「エクセル・VBA関係」では900件中280件が初心者向けに掲載されている。) 本シリーズのその4にて、「初心者向け順」と「おすすめ順」はほぼ同じランキングとなるが、「初心者向け順」に掲載される出品は全体の約3割で、「おすすめ順」からまんべんなく抽出されて掲載される。と結論づけました。  今回は、その「初心者向け順」に掲載される条件を探っていきます。<集計方法>  今回もカテゴリを絞って集計します。  集計対象のカテゴリは「IT-プログラミング開発→作業自動化・効率化→エクセル・VBA関係」に絞ります。出品数は約900件になります。 https://coconala.com/categories/230/65<集計と考察> まず、おさらいも兼ねて本シリーズその4にて示したグラフをもう一度示します。図1:初心者向け順とおすすめ順の関係 出品サービス全体は900件ほどですが、そのうち「おすすめ順」には700件、「初心者向け順」には280件ほどが掲載されています。また、「初心者向け順」の順位は「
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その6 新着順と販売実績

 今回もWebスクレイピングを用いて集計したデータより、出品サービス「新着順」と「販売実績」の関係性から考察していきます。 今回のテーマとして「新規参入は難しいのか?」という疑問に対して答えを求めていきます。 シリーズ第1回のテーマとかぶりますが、今回は異なるアプローチでやっていきます。  テーマの「新規参入は難しい」とはすなわち「購入は古い出品サービスに偏りがちになる」という仮定になります。<集計方法>  今回もカテゴリを絞って集計します。  集計対象のカテゴリは「IT-プログラミング開発→作業自動化・効率化→エクセル・VBA関係」に絞ります。出品数は約900件になります。 https://coconala.com/categories/230/65 <結果> 早速、「新着順」と「販売実績」の関係性を可視化してみます。図1:新着順と販売実績の関係  図1を見て分かるように、古い出品ほど販売実績が多いのが分かります。しかし、販売実績が700件ほどで飛び抜けた出品があるせいで、全体の分布が分かりづらいです。ですので、次に、販売実績を20件までに絞って表示してみます。図2:新着順と販売実績の関係(販売実績20件まで)  図2の分布を見てみても、古い出品ほど販売実績が多いことが分かります。 次に、もっと最近の出品サービスに絞って表示してみます。図3:新着順と販売実績の関係(販売実績20件まで、最近200件の新着まで)  図3では最近200件までの出品においての販売実績を表示しています。 図3からは、より最近出品されて販売につながった出品がどのくらいかがわかるようになります。 具体的に
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その4 各ランキングの関係

 今回はWebスクレイピングを用いて、ココナラの出品一覧ページの各ランキングについて調べてみます。 ココナラの出品一覧ページのランキングは下記5つがあります。・おすすめ順・新着順・お気に入り数順・初心者向け順・ランキング(以下:通常ランキング) 最近(2021年8月時点)、初心者向け順が追加されましたね。 購入者が主に閲覧するのは、まず最初に表示される「おすすめ順」と思われるので、「販売につなげるにはおすすめ順上位を狙う」とまず位置付けしておきましょう。 なお、「おすすめ順上位 = 販売に繋がりやすい」というロジックはあくまで「普通はそう思うよね?」っていう程度の個人的な仮定であり、確固たる証拠はないのでご注意ください。<集計方法> 今回もカテゴリを絞って集計します。 集計対象のカテゴリは「IT-プログラミング開発→作業自動化・効率化→エクセル・VBA関係」に絞ります。出品数は約900件になります。https://coconala.com/categories/230/65 <結果> まず5つのランキングのうち、「おすすめ順」と「新着順」の関係を見てみます。図1:おすすめ順と新着順の関係 図1:おすすめ順と新着順の関係  図1を見て分かるように、「おすすめ順」と「新着順」には相関はほぼ内容です。すなわち、古くからある出品であるからといっておすすめ順上位になるとは限らないということです。 これは、本シリーズの第1回で詳しく述べていますので、興味のある方はご参照ください。 次に「通常ランキング」と「おすすめ順」の関係を見てみます。 図2:通常ランキングとおすすめ順の関係 図2を見て
0
カバー画像

noteでホットペッパービューティーのサロンデータの販売を開始! - 業務効率化の記録 #19

以前書いたブログにて美容サロンデータの収集を行っている状態なのですが、その成果物を販売することになりました。販売場所はnoteなのですが、エリア別に1記事で分けています。現座時点で北海道、青森県、岩手県エリアの3つですが順次収集予定です。興味ある方は覗いてほしいです。なお、ご要望があれば出来る限り優先して取得して収集する予定です。(詳細はポートフォリオにも記載しております)急ぎやカスタマイズ要望などあればいつも通り、以下のサービスからお問い合わせいただければと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

スクレイピングでPCの温度を計測

スプレイピングの依頼を受ける時がありますが、データ数がかなり多い時は、PCの稼働時間が長くなります。自分の通常の作業用のPCでは、仕事に差し支えるのでいつもはサブ機のノートPCでスプレイピング案件を行っていました。今回、ミニPCを購入して(ミドルレベル位のスペック)、そこでスクレイピングを進めることにしました。ほとんどサーバーのように常時稼働するような使い方です。何日間も稼働しないと、いけない場合がありますので。そこで、心配になったのは、PCの過熱や発火です。外出している時や寝ているときも稼働するので、なにかあると困ります。CPUの温度を計測するソフト「Core Temp」を使って計測し、90度以上になったら、ミニPCを休止させることにしました。90度は、CPU的にはかなり安全な温度です。(CPU自身の過熱限界値は105度になっていました)今のところ、最大63度で、だいたい50度未満で推移しているのでかなり安全です。CPUの使用率も5-30%程度です。ミニPCも両方の側面から、給気口があり、前面で排気しており、ファンの音も聞こえないくらいです。ノートPCよりも、静かです。現在は、2種類のスクレイピング処理を稼働させています。タスクマネージャーで見てみると、スクレイピングでのCPUなどの利用はほんのわずかでした。それよりもこの温度測定のソフトや、タスクマネージャー自体のCPU利用率の方が高いです。あとは、バックグラウンドで少し稼働しているものがある程度です。スクレイピングには、ある程度の休止時間も十分入れています。対象サイトの負荷にならないことも配慮しています。ミニPCは、まだま
0
カバー画像

せどりにおけるプログラミング技術の活用方法

改めてせどりとは、商品を仕入れて販売するビジネスモデルの一つであり、オンラインマーケットプレイスなどでの販売が主流です。プログラミング技術を使うことで、せどりビジネスの効率化や競争力の向上につながるメリットがあります。以下に、私がせどりとITをかけあわせたことで感じたメリットをまとめてみました★自動化が可能になるーーーーーーーーーーーーーーーーーーーーーーーーープログラミング技術を使うことで、せどりビジネスの作業を自動化することができます。例えば、WebスクレイピングやAPI連携を使って、商品情報を取得し、自動的に価格比較や在庫管理を行うことができます。これにより、作業の手間や時間を減らし、効率化が図れます。 ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー★大量のデータを処理できるーーーーーーーーーーーーーーーーーーーーーーせどりビジネスでは、多くの商品データを扱うことが必要です。プログラミング技術を使うことで、大量のデータを処理することができます。例えば、機械学習やデータ分析を使って、商品価格の変動や需要予測を行うことができます。これにより、競合他社よりも正確な価格設定や仕入れ先の選定が可能になります。 ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー★アルゴリズムを実装できるーーーーーーーーーーーーーーーーーーーーーープログラミング技術を使うことで、複雑なアルゴリズムを実装することができます。例えば、画像認識技術を使って、商品画像から商品情報を自動的に取得することができます。例えばあるECサイト商品画像から、他社のECサイトでの
0
カバー画像

instagramから情報取得をするライブラリ(instaloder)【Python】

前置き以前趣味でInstagramからのビッグデータ収集を行っているのですがInstagramってスクレイピング対策堅いですよね。そんな対策を打破するライブラリをご紹介します!インスタのスクレイピング対策はトップレベルユーザーページへのアクセスで、数十回ユーザーページにアクセスしただけなのに本人確認画面に飛ばされる始末でした。スクレイピング対策の対策に奮闘(プロキシでアクセス、UA変更や人間らしい動きを)しながら様子を伺っていたのですがどれも弾かれダメでした。 どうやらAIなどでスクレイピングを判断しているようです。。希望のライブラリ Instaloader!最終的に海外の掲示板を頼りに周回していると面白いライブラリが見つかりました。『Instaloader』という名前のライブラリでユーザーIDさえあればその人のプロフィールや投稿数、フォロワー、フォロー中の取得が数行で行えました。コンソール(cmd)で、pip install instaloaderと入力すればインストールできます。ライブラリでできること・特定のハッシュタグが付いた投稿の情報取得・ストーリーや投稿画像のダウンロード・投稿のいいね数・プロフィール文やプロフィール画像、フォロワー数など取得などなどプログラミング例【ソース】from instaloader import Instaloader, Profileid = 'watanabenaomi703'  # 渡辺直美さんのアカウントIDを入力しましたprofile = Profile.from_username(L.context, id)  # プロファイル取
0
カバー画像

Web上のパズルゲームをSeleniumを使って自動で解く

SeleniumSeleniumはWebドライバーAPIと相互にやり取りを行って、Webブラウザを自動化するためのライブラリーとして、Webサイトの動作テストやスクレイピングによく使われます。SeleniumはJavaScriptを実行してWebページの操作を行うことが出来るので、Web上のゲームの操作も自動化することが出来ます。任意のJavaScriptコードを実行することが出来るので、ハックしてゲームで任意スコアを出したかのように見せかけることもできます(この記事ではやりません)。この記事ではSeleniumを用いたブラウザ自動化の利用例の一つとして、Python + Seleniumを用いてパズルゲームの自動化を行います。今回はPythonを使用しますが、SeleniumのバインディングとしてPythonの他にJava、JavaScript等があります。2048この記事では「2048」というWebページ上にあるパズルゲームを自動化します。「2048」は4×4マスにある数字が書かれたタイルを矢印キーを押すことで上下左右どれかの方向にスライドさせ、「同じ数字」がぶつかると合体し、タイルの数字が足し合わされます。以下の動画は実際に私がPython + Seleniumで自動化プログラムを作成し、実行した様子を撮ったものです。2048ルール・同じ数字のタイルがぶつかれば、その数字の分だけスコア獲得・最終的に2048のタイルを一つでも作ることが出来ればクリア・クリア後もゲームを続行して2048以上の数字を作ることも可能・タイルを動かすことが出来ない状態になればゲームオーバー「204
0
カバー画像

YouTube動画を独自に文字起こししてみた - 業務効率化の記録 #11

データ取得先YouTubeの任意の動画※著作権の扱いはご注意ください取得データの詳細動画で話された言葉のテキスト化取得方法無償提供されているライブラリを使用してプログラム作成完了までに要した時間3時間以内結果(csv)所感・まとめYouTube内で文字起こし自体は機能としてありますが、それを活用しやすくする為に独自に作成してみました。完璧に解析できてはいないですが、これができるとクワウドソーシングでも引き受けられそうです。仕組みとしては以下です。備忘録です1. 動画ファイル(今回は10分以上の動画)を1分動画に分割2. 分割した動画をそれぞれ解析用ファイルに変換3. 解析用ファイルに対して文字を取り出してデータに落としこむなぜ1分動画に分割するのかは、使用しているライブラリ制限で分割しています。ちなみに有償なら長い動画もぶんかつせずにいけますまぁ難しいこと書きましたが結果うまくいきました。精度に関しては弱い部分があるので最終的に人間がみないといけないですねこのようなデータ収集や加工にご興味あればご相談をしてくださればと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

家具・雑貨 | イケア (IKEA) の商品のレビューをスクレイピングする

こんにちは😃 ノアです😀 今回は、pythonを使ってイケアの商品レビューをスクレイピングしていきたいと思います🥺 また、当アカウントではスクレイピングのサービスを出品していますので興味がある方は気軽にご相談ください🍉イケア(IKEA)はスウェーデン発祥の家具および家庭用品の小売チェーンで、自己組み立て可能な家具やシンプルなデザイン、手頃な価格が特徴です。顧客は家具をパーツごとに購入し、自宅で組み立てることができます。イケアのデザインは機能的でモダンなスタイルが多く、店舗内では実際の部屋が再現されて展示されています。低価格と広範な品揃えも魅力で、環境への配慮や社会的な貢献も行っています。 イケアは世界中で広く支持される家具ブランドとして知られています。 ちなみに、英語圏では "イケア" ではなく、「アイキーア」のように発音されます。 やることは大まかに以下の3つです  ・商品のレビューを収集したい IKEAの商品ページのURLを指定する  ・商品URLにアクセスして、商品ページからレビューを抽出する  ・そのデータをCSVに出力する ■データ収集する理由は? IKEAの商品のレビューを収集するメリット 1. 消費者の声を把握 2. 競合分析 3. 市場トレンドの把握 4. 評判管理 5. マーケティングに活用 6. 製品改善への活用 ・消費者の声を把握       商品のレビューは実際の消費者の意見や評価を知るための貴重な情報源です。       これにより、商品の良い点や改善すべき点を把握し、それに基づいて製品やサービスの品質向上に役立てることができます。       また、
0
カバー画像

無料で使えるおすすめのWeb集客ツール5選【真木幸子】

近年、インターネットを活用した「Web集客」に注力する企業が増えてきました。インターネットを活用するといっても、ブログでからの情報発信、SNSへの投稿、広告運用など、さまざまです。Web集客における情報配信はターゲットに合わせたアプローチが必要で、ネタ探しや情報収集というハードルもあります。これらの理由から、内製すべきか外注すべきかとお悩みの方も多いでしょう。そんなときには、さまざまな便利ツールが役に立ちます。今回は、Web集客に役立つ、無料で使えるツールをご紹介します。1.検索順位がわかる:検索順位チェッカーWebサイトやブログのキーワードの順位が気になるという方は、『検索順位チェッカー』がオススメです。URLとキーワードを入力するだけで検索順位が表示されます。他のツールもいろいろあるので、試してみたい方はインターネットから【キーワード 順位】と検索してみてください。2.日常的に検索順位を確認する:GRC日常的にキーワードの順位をチェックしたいという方は、『GRC』がオススメです。 無料版は、3URL、10項目を上限として利用できます。キーワードの順位の変動がグラフで表示されるので視覚的にストレスなく使いやすいです。無料とは思えないほどです。有料版はベーシックプランは495円/月でURL数5つ、キーワード500項目まで確認できます。3.すばやく検索ボリュームと関連キーワードをチェックする:WhatsmyserpGoogle Chromeから便利機能を追加できる拡張機能。検索しながら検索ボリュームと関連キーワードをチェックしたいという方は、『Whatsmyserp』を追加すると
0
カバー画像

Webスクレイピングの出品をご購入頂きました!

先日以下の出品をご購入頂き、昨日無事納品が完了したので今日はその記事を書いてみたいと思います。以前こちらの記事を書きましたが、当出品でのご購入は1回目、買い切り出品通算では4回目になります。こちらはオーダーメイドの開発なので詳細は明かせませんが、今回も色々と学びのあるお取引をさせて頂きました。今回は特に権限周りについて学ばせて頂きました。私のPCでは開発用検証用2台両方とも普通に動くのに、購入者様のPCではファイル作成時にエラーになる…Windows、なかなか厄介ですね。OSは一緒でもメーカーが複数あるためでしょうか。こういうトラブルは以前にもありました。そのときはウイルス対策ソフトに引っ掛かってしまうというものでしたが、こういうときにきちんと対応方法を調べておけば今後のお取引の際にも慌てずに済みます。今回も調査して解消方法を発見し、無事納品することができました。また、今回は当初依頼の内容は早い段階で実現していたのですが、自分で使ってみて不便だなと感じる点があり、自分から提案をして機能を追加させて頂きました。スクレイピングは時間のかかる処理なので、できるだけ購入者様の負担になるようなことを減らせれば、と思ったのですがご快諾頂けて良かったです。さて、今回の出品物も「モニター価格」ということで格安で出品しております。3枠限定ということにしていたので、今回のお取引により残り2枠となりました。もしこの出品にご興味のある方は是非お早めにご検討下さい!※Webスクレイピングは対象のサイトによってはスクレイピング不可になっていたりするのでお断りさせて頂く場合がございます。また、あくまで当出品
0
カバー画像

アパレル販売したい方必見 BUYMAの使い方

あなたは、BUYMAというサイトをご存知でしょうか。世界中の出品者がファッションアイテムを販売しているサイトです。 「世界を買える」 と、BUYMAのHPに書いてありますが、本当にそんな感じです。 安くブランド物を手に入れることが出来たりするので、もしかしたら、買い物好きな方はよくご存知かもしれません。 ファッション好きなら、ついつい長時間見てしまうようなサイトです。このサイトは、あなたが物販をしていて、アパレルを扱っているなら、要チェックです。 色々見ていれば、トレンドも分かってきますし、仕入れ先を探せば安く仕入れることが出来るかもしれません。 BUYMAで売っていて、安く仕入れることが出来て、他では売ってないものが見つかれば、BUYMA以外の媒体で販売すれば、利益を独占できるかもしれません。ショップの実績を丸裸にする方法とは言え、これだけでは、そこまで詳細なデータを確保することはできません。 もっと、どのくらい販売されているか知りたい!ですよね。 実は、BUYMAは、そのお店の注文実績を簡単に見ることが出来ます。商品ページを下の方にスクロールすると、赤枠で囲ったところに、ショップ名が表示されています。すると、お店のトップページに行くことが出来ます。 その中で赤枠で囲った「注文実績」というところをクリックしてください。なんと、このお店で販売された注文が全部見れます。 凄いですよね! こんなデータ、他のサイトでも欲しいです!。 ここから、どんな商品が、何個売れたか?を数えることが出来ます。 エクセルなんかで保存することはできないですが、気になる商品、何個も売れている商品を他の
0
カバー画像

こんなサービスが欲しくて作りました!ECサイトのデータを取得します

今回はこのサービスを作り、販売するに至った経緯をご紹介したいと思います。 私は、各種ECサイトで店舗の運営をしています。 物販の経験のある方なら、とても共感してもらえると思うのですが、一番最初、物販を始めるにあたって、効率的な方法は、 「ライバル店の商品をリサーチする事」 です。 間違っても、何の経験もないのに、自分のセンスや勘を頼りに商品を仕入れてはいけません。 大体、売れません(笑) いかに、自分のセンスが、市場で通用しないのかを痛感する瞬間ですよね。 こんな経験がある方も多いのではないでしょうか。 ですので、最初は、まずは、実績を出しているお店が、どんな商品を出しているのか? これを調べないことには始まらないと言っても過言ではありません。 もしも、自分のセンスだけで仕入れをしようとしている方が、この記事をご覧になっているなら、思いととどまって欲しいと思います。 なんだ。 売れているお店を見つけて、その商品を参考にすればいいのか! となりますが、中々そこは簡単な話ではありません。 かくいう私も、最初は手当たり次第にリサーチしようとしてしまいました。 しかし、 ・ECサイトによっては、数千~数万の商品を扱っている。 ・見るたびごとに、商品の並びが変わってしまい、どこまで調べたかわからなくなる ・そもそも手作業で、商品の価格や商品ページのURLをメモしていくのは本当に大変だし、気合と根性で何とかなるレベルではない 気合と根性で何とかしようと思っていた時、こんなことを考えていました。 今調べているお店の商品データを一気に取得してくることが出来ればいいのに、、、、 今回ご紹介するサ
0
カバー画像

インスタグラムでアカウントを収集してみた - 業務効率化の記録 #12

データ取得先インスタグラム取得データの詳細・取得日・アカウントURL・アカウント名・フォロワー数・フォロー数・投稿数・紹介文フォロワー数などは取得日時点の数値になります。取得方法APIなど完了までに要した時間5時間以内結果(csv)所感・まとめインスタグラムにてAPIなどを利用してアカウントを取得してみました。アクセスの制限等がありますが、ハッシュタグを利用して投稿からアカウントを取得していくプログラム。ちなみに画像にあるアカウントリストは「#レシピ」のタグから蓄積しています。フォロワー数も取得しているので使えそうです。このようなデータ収集や加工にご興味あればご相談をしてくださればと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

スクレイピングしたらデータ量が少なく出精値引きした話

現在、1URLのスクレイピングに対して3,000円が基本料金とさせていただいています。お客様のご要望によるサイトには情報量数千件(例えば5,000件)とか記載があってもスクレイピングすると数百件、数十件という時もあります。お客様からするとガッカリですよね。ボクもガッカリなんです。ただ、そんな時に限ってデータを抽出するのに丸一日かかってしまった時もあるんです。(まだまだ駆け出しですね)先日も初のリピーターとなっていただけたお客様からの依頼がそんな感じだったのです。1URLにつき数件しかデータが抽出できませんでした。誤解が無いように説明しますとデータ数は数百件抽出できてます。しかし重複データを削除すると数件しか掲載してない場合があるんです。違う写真を使って一見色々データがあるように見えるけど、同じ広告主がいくつも広告を掲載しているパターンですね。このようなサイトがありますと、お仕事を出される方も受ける方もデータが少なくお互い料金に見合わない感じになってしまいます。ですので先程のお客様には少しですが出精値引きとさせていただきました。ですので、いきなり「出品サービス」を購入いただけるのは、もちろんありがたいのですが、ご相談いただけた方がお互い安心できると思います。ちなみに求人広告など広告などは検索して「●●件ヒット!」と表示されても重複しないデータの数は半分以下、普通で2割から3割くらいと思っておいた方が良いです。以下の流れがお互いにとってスムースだと考えています。ご相談 → サイトの簡易調査 → サンプル確認 → 見積もり → 全データ抽出 → 納品営業リスト・新規顧客開拓リスト作成
0
カバー画像

スクレイピングしたデータはこうやって使う!

皆さんこんにちは。今回は、このサービスを使って得たデータをどうやって使うか?をご紹介します。この方法で、あなたのビジネスがいい方向に向かうかもしれません。このサービスを利用すれば、あなたは、気になるお店のURLを私に教えるだけで、こんな風にお店のデータを一括で取得することができます。さて、このようなデータを作ったら、次にどうすればいいでしょうか。色んな使い方があるので、普段、私が使っている方法をご紹介いたしますね。①販売傾向を見る基本的には、データのもとは、すでに実績のあるお店のデータである可能性が高いです。お店を選ぶときは、評価数を見れば一目瞭然ですよね。そんな実績のあるお店の取り揃えている商品なら、売れる可能性が高いはずです。スプレッドシートには、画像のURLを、画像を表示してくれる便利な関数があるので、写真で並べれた一目瞭然です。同じ商品を仕入れるもよし。ちょっと違う商品を仕入れるもよしです。②気になる商品を外注さんに調べてもらう。私は、気になる商品を予めピックアップして、このデータごと、リサーチ専門の外注さんに投げてしまいます。中国、韓国、欧州、アメリカetcなど、仕入れられる先をリサーチしてもらいます。このツールのいいところは、販売価格まで取得してしてくれるので、仕入れ値と販売価格を比較して、利益が出そうならOK。利益が出なさそうなら見送りと、とても簡単に判断が出来ます。私は、このツールで、データを取ってきて、外注さんにリサーチをお願い。仕入れ先の見つかったものは、販売の準備と、かなり自動化をしていますので、やることは、ライバル店を探す→(ツールで販売データを一括で取
0
カバー画像

シリーズ<ココナラ Webスクレイピング分析>その2 (販売実績件数の割合)

 前回の続きをやっていきます。 前回記事↓ 前回の記事は、小難しい内容になってしまったので、今回は簡単な統計結果を紹介して終わらせます。 今回統計をとったのは「出品サービスの販売実績件数の割合」です。 前回同様、ココナラサーバーの負担を考慮してサービスのカテゴリは「IT・プログラミング・開発>作業自動化・効率化」に絞ります。 https://coconala.com/categories/230 早速、統計結果のグラフを示します(図1)。 横軸に販売実績件数、縦軸にその件数のサービスの総数を表しています。図1:販売実績の分布  図1を見て分かるように、販売実績0件が2000件と圧倒的に多いことがわかります。ココナラ出品者ならある程度分かるかと思いますが、「販売実績0から1にするのが一番大変」というのがはっきり分かりますね。 次にこれを円グラフにしてみましょう。 本記事のカバー画像と同じものですが、具体的に割合(パーセンテージ)で分かるように円グラフにしています(図2)。図2:販売実績件数別の割合 販売実績0件が約70%、1件が約10%、2件が4.5%、3~10件が9.6%、11~100件が5.7%、それ以上が0.4%となっています。 販売実績10件以上が6%ぐらいで、100件以上となるとほんの一握りどころか、ひとつまみの0.4%ですね。 次回は、出品者別で販売実績などを統計をとってみます。
0
カバー画像

【スクレイピング動画イメージ】※簡易的ではございますが・・・

おはようございます。こんにちは。こんばんわ。未だサービスのご提供には至っておりませんが、私ができる事を少しずつ発信していけたらと思っております。語彙力皆無で言葉・文字では伝え切れないことが多いもので、動画を作成しました。凄く簡易的な仕様ではありますが、スクレイピングというものになります。インターネットより情報を取得し、そのデータを加工・分析して活用いただくものになります。先にお伝えしておきますが、スクレイピングは仕組み上可能でも禁止しているサイトがありますのでその点ご留意を。スクレイピングの用途はお客様次第で様々だと思いますので、まずは【インターネッツ!から多量な情報が簡単に取得できるんだな】と考えていただければ結構です。他にも、多量でなくとも日々のルーティンワークにネット接続があっていつもID・PASSの入力/定型処理が発生するものなどでもご活用いただける技術です。どうぞお試しあれw
0
カバー画像

【時短】数千件のリンク書き換え、まだ手作業で消耗していませんか?

「プラグインを乗り換えたけど、過去記事のリンクを全部書き換えないといけない…」「数百件のデータを手動でコピペして、もう目が限界…」そんな地獄のような単純作業に、貴重な時間(ときには数日間!)を使っていませんか?実はそれ、Pythonというプログラムを使えば、数分で終わるかもしれません。先日、私も「アフィリエイトリンクの一括移行」をご相談いただき、自動化ツールを自作しました。プログラムが裏で爆速で動いてくれるので、人間はコーヒーを飲んで待っているだけでOKです。■ プログラムに任せるメリット・圧倒的な時短: 数日かかる作業が、カップ麺を待つ間に終わります。・ミスゼロ: コピペミスや見落としなどの「ヒューマンエラー」がなくなります。・格安: 人を雇って手作業させるより、はるかにコストを抑えられます。「これ、自動でできないかな?」と思う作業があれば、まずは気軽にご相談ください。最強のPC環境とPythonを駆使して、あなたの時間を守ります!
0
カバー画像

楽天市場から出店企業情報をプラグラムで自動取得 - 業務効率化の記録 #14

データ取得先楽天市場取得データの詳細・会社区分・会社名・郵便番号・住所(都道府県)・住所(市区町村)・住所(その他)・電話番号・FAX・代表者・責任者・メールアドレス取得方法スクレイピング結果会社IDは楽天市場で管理しているIDです。所感・まとめある程度綺麗に取得できそうです。多少手を入れながら修正していくと販売まで漕ぎ着けることができると思います。ここからさらにデータ付与を考えていて、取扱いジャンルを企業ごとに把握できるようにすることです。この会社はレディースファッションを扱っている、こちらの会社ではレディースファッションと食料品を扱っているなどです。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

今日は復習を行いました!!

皆さんこんにちは、沖縄県在住の21歳学生です。オリンピックが終わったそうですね僕は、この頃疲れていて、全然見れませんでしたが、newsで見て楽しんでました!!今回のオリンピックでは、いろんな事で炎上していましたね無事に終わってよかったです!!さて、突然ですが本日は、スクレイピングのスキル向上の学習として復習を行いました!!スクレイピングとは、webページから、必要な情報をまとめて抽出してくれるプログラムのことです。用途といたしましては、トレンドや、市場動向を把握する際の、データ集めなどに使われたりします。その他、大量にデータが必要とされる場合に使われます復習の内容としてましては、三つのurlそれぞれ、次の次のページまで*¹クローリングすること、各々のすべてのページのタイトル、地名を抽出すること以上の動作を行う*²クローラーを作りました!!*¹クローリング(指定したurlをたどること)*²クローラー(指定したurlを自動でたどるプログラム)次は、amazonAPIを使って*¹クローリングに挑戦するために、どんな動作を行うのか調べようと思います!!日々精進してまいります!!
0
カバー画像

Google検索結果一覧をプログラムで取得 - 業務効率化の記録 #6

データ取得先Google検索結果画面取得データの詳細・取得日・検索キーワード(KW)・順位・タイトル・ドメインURL取得方法スクレイピング完了までに要した時間3時間以内結果(csv)csv出力結果です。キーワード(KW)に対して1ページ目検索結果状態を取得しました。取得したURLはドメインですが、詳細URLではありません。どちらも取得はできますが今回はドメインのみ。所感・まとめGoogle検索結果の情報を取得しましたが、YahooでもBingでも可能かと思います。また検索結果以外のTwitter表示やナレッジパネル、画像や動画のタブページなどの結果画面でも同様に取得可能です。サジェスト等も取れるのでときをみてトライしてみようと思っていますこのようなデータ収集や加工にご興味あればご相談をしてくださればと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

一般社団法人ってなに?一覧をプログラムで取得 - 業務効率化の記録 #5

データ取得先秘密取得データの詳細法人名称、法人住所取得方法スクレイピング完了までに要した時間2時間以内結果(csv)csv出力結果です。東京都新宿区の一般社団法人を抽出しました。取得先は内緒で、収集件数も具体的には言いません。新宿だけでも数千は存在していました。所感・まとめ昨今の住民訴訟案件や医療事故の増えてきた一般社団法人。監督官庁がなく各都道府県の届出で設立できてしまう、謎で怪しい組織。監督官庁がないため収集は厄介でしたが、今プログラムでは全国の一般社団法人を取得できるようになりました。必要な方いますかね?っていう、すごく数があるんだけど、必要なのかなぁ・・・このようなデータ収集や加工にご興味あればご相談をしてくださればと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

Amazonセラーアカウントから詳細情報をプログラムで取得 - 業務効率化の記録 #4

前回のASIN取得からの続きデータ取得先Amazon US(米国🇺🇸)のセラーアカウント個別ページ1. こちらはレビューや出品国などの詳細情報を取得2. こちらは出品数を取得取得データの詳細セラーアカウントに紐づく取得時点のレビュー状態、評価%、30日間のレビュー数、90日間のレビュー数、1年間のレビュー数、全期間のレビュー数、出品国、出品数取得方法秘密完了までに要した時間2時間以内結果(csv)csv出力結果です。約300のセラーアカウントが対象となっています。出品国に関してはJPが多いのはセラーアカウントを取得するする際に、japanで検索したASINから、セラーアカウントを収集したため。大体20分くらいで処理完了しました!今回はcsvだと見づらくなるため、Googleスプレッドシートで表示させています所感・まとめAmazon販売やECサイト販売をされている方にはお馴染みのレビューや出品数を取得してみました。基本表示されているものは取得できるので、セラーリサーチが捗るかと思われます。個人的には出品国の判断がつけられるのがいいかと思っています。データをデータベース管理するとなるとさらに爆速化できそうですが。このようなデータ収集や加工にご興味あればご相談をしてくださればと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

Amazonセラーアカウントをプログラムで取得 - 業務効率化の記録 #3

前回のASIN取得からの続きデータ取得先Amazon US(米国🇺🇸)の個別商品ページ個べう商品ページに飛ぶと複数セラーが競い合って出て狂うかと思います。カートとなっているセラーさんだけはなく、出品している競合セラーさんも全て引っこ抜きます。※以下はページ例です取得データの詳細Amazon USに個別商品に出品しているセラーアカウントID取得方法秘密完了までに要した時間1時間以内結果(csv)csv出力結果です。取得項目は、セラーアカウントのIDのみとなります。300個のASINを調べて、2時間くらいの処理で大体300個のセラーアカウントIDを取得できました!当然重複削除はしています所感・まとめ Amazon販売やECサイト販売をされている方にはお馴染みのセラーアカウントのIDを根こそぎ取得してみました。前回ブログで得た300のASINから取得しており、このIDから出品数や出品国、レビュー状態などもとれる準備ができました!それらに関しては随時アップしたいと思います。このようなデータ収集や加工にご興味あればご相談をしてくださればと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

気象庁から気象データをプログラムで取得 - 業務効率化の記録 #1

データ取得先国土交通省 気象庁Japan Meteorological Agency取得データの詳細日本 🇯🇵 北海道 / 十勝地方 ぬかびら源泉郷日本 🇯🇵 東京都 / 練馬地点日本 🇯🇵 沖縄県 / 那覇地点それぞれ1978年〜2024年6月(約46年間分)の平均気温(℃)を取得。データ出力はCSVで、本ブログではグラフを表示させてみることにする取得方法Pythonによるスクレイピング完了までに要した時間計2〜3時間結果(csv)csv出力結果です。取得項目は、取得日、都道府県コード(全国共通かどうかは調べてない)、エリアコード、年、月、平均気温となります。表示されているの44の1002は、東京都 / 練馬地点を意味している結果(グラフ)Googleスプレッドシートで実装してます。表示されましたが、まぁ気温のデータなので大したグラフにはならないですね。所感・まとめ時間別、日別データによって取得できるものが違ったので、取得データは、約46年の日別の平均気温データで統一してみた。収集自体は問題なくできて、かつ、グラフ化もスムーズに行えた。厄介な部分としては、エリアによって地味に表示されている内容が異なっている場合があった。今回はそこは統一したため楽をして終わらせたこのようなデータ収集や加工にご興味あればご相談をしてくださればと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

AI画像認識比較ツール、1件納品完了

今回は、UIを先に決めて作りました。なかなか斬新なUIです。3枚の画像を一気にAIのVISION認識に入れて、質問し、AIから回答を得ます。画像アップロード機能プロンプト保存・編集機能AI問い合わせ回答表示そしてログ表示(プロンプトとAIからのresponseの全文)と削除機能などを盛り込みました。ログをすぐにWEBページから見れるようにしたのは、プロンプトによって回答精度が変わるので、よいプロンプトを後から確認できるようにしてほしいと思いましたので、つけました。非常にユニークで面白い仕事でした。画像のキャッシュがしつこくて、なかなか振り切れませんでした。最終的には画像のURLにパラメーターを生成して、振り切りました。以前有効だったヘッダーにキャッシュ振り切る設定では、振り切れませんでした。ページと画像は違うのかな。delayしてもいないですが。同時並行して、phpフレームワークのCodeIgniterのシステム修正案件。Laravelよりもフォルダがシンプルなので、見やすい。でも、間違えやすいかも。どこにいるのかpathを、いつも確認しています。この仕事はとてもややこしく、25-30個のテーブルが関連しててむちゃくちゃ長いsql文が出てきます。修正するよりも、読むのが10倍くらいの時間がかかります。Laravelわかると、でもこっちもわかります。あんまり、ネットで調べることもないです。来週は以下の仕事予定です。・WordPressのマルチサイト開発(クライアントのサーバー情報待ち)・スクレイピングの見積もり(けっこう深い)・ECサイト関係(朝少し提案した)あとは、AI関係の最
0
カバー画像

netkeibaからレース日程とレース一覧を取得する方法【第1回】pythonスクレイピングの基本編

私はフリーランスでメインはデータを扱う仕事をしています。 その他ですとjavascript/react/typescriptを使用したフロントエンドの作成・バックエンドAPIの作成やAWSを使用したインフラの整備や動画編集・ウェブサイトの運用をしています。 一番長くやっているのがpythonとデータベースを連携したデータ取得・加工・集計・分析・運用といったデータのライフサイクルを扱う仕事で 趣味で競馬分析を行っていることから、特に、このココナラやその他クラウドソーシングでは競馬のデータ取得や分析などのツール作成を請け負うことが多いです。 そこで今回は競馬データを扱うことをテーマにブログを書いていこうと思います。第一弾はnetkeibaからレースデータを取得する方法をして紹介します。ややプログラムを書く技術者よりになると思いますが、手っ取り早くデータ取得ツールが必要な方はツールを作成して出品しておきますので、ご購入のご検討をお願いします。またpythonを扱う方はコピペでデータ取得できるように書いていきます。 ※また自分が超めんどくさがりなので詳細な説明は省き、結論のコードだけのせることも多いと思います。第1回はnetkeibaからレース日程とレース一覧を取得する方法 第2回はnetkeibaから出走表とレース結果とその他結果データ(払い戻し等)を取得する方法 第3回はnetkeibaから競走馬のプロフィール・過去レース結果を取得する方法 を予定しています。 第4回以降は未定で、その他のデータ取得方法/データベース格納/統計学と集計方法/競馬×機械学習入門、このあたりを書こうかと
0
カバー画像

スクレイピングはお任せください

Ruby・Pythonどっちの言語でもスクレイピングできます。WEBサイト形式でのスクレイピングツール、実行ファイルでのスクレイピングツール作成やCSVファイルやエクセルファイルでの納品も可能です。お気軽にご連絡ください。
0
カバー画像

スクレイピング オクトパースを使って楽々データ収集

Octoparse(オクトパース)は、自動データ抽出(Web scraping)を行うための強力なデータ抽出ツールです。非プログラマーでも直感的に使用できるビジュアルなインターフェースを提供し、ウェブサイトからデータを抽出して収集することができます。 Octoparseの主な特徴と機能: ビジュアルタスクエディター:ウェブサイトの構造を視覚的に分析し、データ抽出のためのタスクを作成するためのビジュアルエディターがあります。HTMLタグの選択、テキストの抽出、リンクの取得などが直感的に行えます。 豊富なデータ抽出:テキスト、画像、リンク、テーブル、商品情報、価格など、さまざまなデータをウェブページから抽出できます。 データの変換と整形:抽出したデータをCSV、Excel、JSON、HTMLなどの形式に変換し、必要に応じて整形できます。 スケジュールと自動実行:定期的にタスクを実行してデータを自動的に更新・抽出することができます。 プロキシのサポート:プロキシを使用してIPブロックを回避し、スクレイピングの安定性を向上させることができます。 クラウドサービス:Octoparseはクラウド上で実行されるため、高速で大量のデータを処理することが可能です。 Octoparseは、競合情報の収集、価格比較、マーケットリサーチ、商品情報の収集など、多くの用途で利用されています。また、初心者から上級者まで広範なユーザーレベルに対応しており、簡単なスクレイピングから高度なデータ収集まで幅広く対応しています。 なお、ウェブスクレイピングはウェブサイトの利用規約や法律に違反しないように行うことが重要
0
カバー画像

Google Mapsのデータ公開

先日お客様より、Google Mapsを元に評価やコメント数の条件を付けてデータ収集をできないかとの問い合わせがあり、その件は立ち消えになりましたが、面白そうなので少し研究してみました。そして、せっかくなので収集したデータを公開してみました。「python演習問題ドリル」で検索すると「pythonお勉強サイト」というページが出てきますので、ここに今後もアップしていきます。サイト名は最近変更したので「Green Storage」と言います。手始めに「新宿区 カラオケ店」のキーワードでコメントが4件以上のものだけ表示しています。随時、業種やエリアを変更して掲載予定です。ぜひブックマークしてください。営業リスト代わりにご利用ください。スクレイピングのお仕事、ココナラを通じてお待ちしてます。
0
カバー画像

python初学者がボートレースの結果とレーサー情報を取得して連結する

前回、やっとの思いで一年分のボートレースの結果を取得した中川です。閲覧してくれた方、いいねを押してくれた方本当にありがとうございました。今回は、まず前回取得したボートレースの結果(2232レース分)がpandasのデータフレームのdfという名前で格納されているので結果を可視化したいと思います。前回のブログはこちらです!そして、作業に取り掛かる前に前回取得したデータをcsvファイルに出力しておきます。df.to_csv("任意のファイル名.csv",encoding='utf_8_sig')encoding は文字化けを防ぐために指定しています。そして、前回取得したデータを棒グラフで表示していきたいと思います。matplotlib と、リストのデータを要素ごとにまとめてくれるモジュール collections をインポートしておきます。import numpy as np import pandas as pd import requests import reimport collectionsimport matplotlib.pyplot as pltfrom bs4 import BeautifulSoup次にcollection メソッドをつかって同じ要素(ここでは順位の1~6位を)の出現回数を数え、それを変数に代入します。first = collections.Counter(df['一着'])そして、まとめられた要素の中の個別の要素を取ってきてくれるくれるメソッド keys() と各要素が何個ずつ存在しているか教えてくれるメソッド values()を使います。試しに
0
カバー画像

python初学者がスクレイピングでボートレースの結果1年分を取得してみた。

こんばんはブログって楽しいですね!中川です。帰って見てみると4つもいいねを頂いていたのでめちゃくちゃテンションあがっちゃいました。今日は昨日作ったボートレースの順位取得するアプリを強化し、自動的に多くの情報を取得できるようにしていきたいと思います。ちなみに前回完成したコードはこちらです。import numpy as np import pandas as pd import requests import re from bs4 import BeautifulSoupurl="ボートレースのサイト名/owpc/pc/race/resultlist?jcd=12&hd=20220417"res = requests.get(url) soup = BeautifulSoup(res.text, "html.parser") counter = 0 i=0 ranking_1 = [] ranking_2 = [] ranking_3 = [] for content in soup.find_all("span", class_='numberSet1_number'):     i+=1     if i%5==0 or i%5==4:         continue     number = re.sub(r"\D", "", content.text)     counter += 1     if counter%3 ==1:         ranking_1.append(int(number))     if counter%3 ==2:      
0
カバー画像

勤怠登録をVBAで自動化してみた

初めてブログ投稿いたします。派遣先からの依頼でOAツール開発を依頼され、VBAでエクセル操作を自動化することから始まり、気づけばOutlook受信トレイからメールを取り出したりすることまでいろんなことをVBAでやってました。同じくいろんなオブジェクトが扱えるWSH(主にVBScript)も使っていろんなものを自動化していましたその中である目標ができました。それが・・・”WEB勤怠登録の自動化”経緯として、派遣会社から派遣されている自分は派遣先と派遣元の2重で勤怠管理となる。これが煩わしくて仕方がないのですが、派遣されてる以上仕方ない・・・。前提1: 派遣先勤怠はカードスキャンで完結派遣先勤怠はカードスキャンだけで出退勤登録でき、派遣先ポータルサイトでWEB勤怠テーブルを確認できる※メンテナンスなどの依頼は別で必要です前提2: 派遣元勤怠はWEBアプリで登録派遣元勤怠は手作業で登録が必要です。出勤および退勤の”時””分”はそれぞれプルダウンです。WEB上なのでTABキーなどで選択してテンキーで入力もできるのですが、それを知らないとひたすらマウスをカチカチカチカチそれをひと月(約20日)分・・・もう気が狂う!きっかけ: WEBスクレイピングがVBAからできるらしい?とある書籍を見てIEオブジェクトというものがあり、アクセス処理をVBAから操作できるらしいことを知る。大変さ: ★★★★☆手順として、・ページにアクセス・ログインパスワードを入力してログインボタンを押下、・リンクをクリック・読み込みが終わるまで待機・どこのプルダウンにどんなIDが割り当てられてるか確認と、いろんな関数を作
0
カバー画像

Python スクレイピング(requests, BeautifulSoup) メモ 01

import requests from bs4 import BeautifulSoup import tkinter url = 'ターゲットURLをにゅうりょく [夏目 智徹]' site = requests.get(url) site.encoding = site.apparent_encoding # 文字化け対策 data = BeautifulSoup(site.text, 'html.parser') data_02 = BeautifulSoup(site.text, 'html.parser') data_03 = BeautifulSoup(site.text, 'html.parser') print(data.title) # printf(data.title.text) print(data.title.text) # テキストだけ取得 # print(data.find('a').text) # print(data.find('p').text) # print(data.find('a').text) print(data.find_all('img')) #すべての「a」タグを出力する print(data.find_all('p')) #すべての「a」タグを出力する print(data.find_all(id='sysDescription')) #id属性「id_name」に一致するタグを出力する # arr_item = data.find(id='sysDescription') # print(data.find(c
0
カバー画像

【Python】業務自動化・システム開発における品質と開発環境へのこだわり

はじめまして、ふぁとらです。数あるサービスの中から本記事を目に留めていただき、ありがとうございます。私は現在、Pythonを中心とした業務自動化ツールの開発や、高度なアルゴリズムの構築を専門としています。本記事では、私がどのような環境で、どのような思考プロセスを持って開発に取り組んでいるのか、その舞台裏を詳しくご紹介します。1. 「ハードウェアは思考の拡張」:Core i9 × 64GB RAMの真意プログラミングにおいて、開発環境は単なる道具ではなく「思考の速さ」に直結します。私は以下のハイエンド構成をメイン機として運用しています。CPU: Core i9GPU: GeForce RTX 4070 SuperRAM: 64GB DDR5Storage: NVMe Gen4 SSDなぜ自動化ツール開発にこれほどのスペックが必要なのか。それは、「検証の網羅性とスピード」を両立するためです。例えば、数万行に及ぶスクレイピングデータの処理や、並列処理を多用する大規模なシミュレーション。一般的なPCでは数分かかるテストコードの実行も、この環境なら数秒で完了します。この「試行錯誤の回転数」の速さが、最終的なコードの品質に直結すると確信しています。2. 実戦で磨いた「GENESIS」のロジック構築力私の開発スキルの原点は、自作のFX自動売買システムにあります。金融市場という「1ミリのバグが実害を生む」過酷な環境下で、以下の技術を磨いてきました。堅牢な例外処理: ネットワーク断絶、急激な価格変動、APIの仕様変更。あらゆる「不測の事態」を想定したコード設計。計算の最適化: 大量のヒストリカル
0
カバー画像

【ご報告】AI自動化で副業開始2ヶ月!売上5万円&ココナラ「ゴールド」到達…!までの泥臭すぎる道のり

こんにちは、ミミスケです!🦉✨ いつも私の記事を読んでいただき、またココナラ等でご依頼いただき、本当にありがとうございます。 この度、ありがたいことにココナラでの活動開始から約2ヶ月で**「ゴールドランク」**に昇格し、一つの目標だった**「累計売上5万円(手取り約4万円)」**を達成することができました!🎉 さらに、このnoteでも初めて「400円」の有料記事をご購入いただくなど、少しずつですが自分のスキルが「価値」に変わっていく手応えを感じています。関わってくださった皆様、本当にありがとうございます! …と、ここまではよくある「成功報告」なのですが。 実は、この「開始2ヶ月・売上5万」という数字の裏側は、私の想定をはるかに超える**「超・泥臭くて割に合わない労働」**の連続でした(笑)。 今日は、少しでも副業や自動化ビジネスに興味がある方の参考になればと、私の「失敗と苦労の赤裸々エピソード」を書いてみようと思います。結論から言うと、最初は全くスマートじゃありませんでした! --- ### 💦 第1の絶望:「3,000円で実働15時間」の洗礼 「これからはAIと自動化の時代だ!」と意気込んでココナラに登録した私。 しかし、現実は残酷です。実績も評価もないアカウントには、当然誰も見向きもしてくれません。 まずはどうしても「実績(評価)」ゼロの状態から抜け出したくて、ある案件を**3,000円という破格**でお受けしました。 簡単なシステム相談でサクッと終わる…はずでした。 しかし、いざお客様とメッセージやビデオ通話で要件のすり合わせを始めると、「この機能も」「やはりこっちの仕様
0
カバー画像

毎日の手作業、AIで自動化できるって知ってましたか?

毎日の手作業、AIで自動化できるって知ってましたか?「SNSの投稿ネタを考えるのに毎日30分」「営業先を探すのに毎日1〜2時間」「同じデータを毎回手でコピペ」こういった作業に心当たりはありませんか?実はこれらの業務、AIとPythonを組み合わせればほぼ自動化できます。この記事では、私が実際に自動化した3つの業務とその仕組みを紹介します。━━━━━━━━━━━━━━━━━━━━■ 1. SNS投稿の完全自動化━━━━━━━━━━━━━━━━━━━━X(旧Twitter)の投稿って、毎日コツコツ続けるのが一番大変ですよね。私は自分のXアカウントで、AIが毎日の投稿を自動生成する仕組みを構築しました。【仕組みの流れ】① 業界ニュースやRSSフィードを自動収集② AIが内容を要約し、投稿文を自動生成③ Discord上で内容を確認(ワンクリックで承認)④ 承認後、自動で投稿結果:・投稿にかける時間: 毎日30分 → ほぼ0分・月額コスト: API代のみ(500〜1,000円)・投稿の継続率: 仕組みなので100%運用代行だと月3.5万円以上かかりますが、この仕組みなら初期構築費のみ。しかもソースコードをそのままお渡しするので自分で管理・カスタマイズもできます。※ご購入前にサンプル投稿を3本無料でお作りします。━━━━━━━━━━━━━━━━━━━━■ 2. 営業リサーチの自動化━━━━━━━━━━━━━━━━━━━━フリーランスや中小企業の方にとって、営業先のリサーチは地味に時間がかかる作業です。「求人サイトを毎日チェックして、条件に合う案件をピックアップして…」これ、全部自動化でき
0
カバー画像

Webスクレイピング対応ポリシー

本記事では、私が提供する Webスクレイピング業務について、対応方針をまとめています。背景スクレイピングはビジネス上とても需要のある領域ですが、  倫理面・法律面を十分に考慮しないと、トラブルにつながりやすい分野でもあります。私は日頃、システムの開発・運用・セキュリティ保証まで含めてサービス提供を行っており、  スクレイピングの実施側とは逆の「守る側」の立場で関わることも多くあります。そのため、技術的な可否だけでなく、  どのような観点で注意すべきかを適切に評価することができます。ベースとなる評価基準対応可否は、基本的に 倫理 と 法律 の観点から判断することが重要です。法律の遵守は当然必須ですが、IT技術の領域では、  法律上の定義が曖昧であったり、解釈が分かれるケースもあります。そのため、最終的には 専門的な判断 を含めて慎重に検討します。対応可否を判断する3つの観点具体的には、以下の3つを最も重要な評価基準としています。  今後の記事では、この3点について順番に詳しく説明していきます。1. 著作権・データの扱い2. システム・運営への影響(負荷・妨害)3. 利用規約・サービス提供者の意図1. 著作権・データの扱い著作権については、単に「法律上どうか」という点だけで判断するのではなく、  そのデータを取得・保存したときに、相手に不利益を与えないか という観点を重視しています。たとえ法律上グレー、あるいは明確に違法と断定できない場合であっても、  取得したデータが第三者のビジネスや権利を侵害する可能性がある場合には、  慎重な判断が必要だと考えています。そのため私は、  「そ
0
カバー画像

【ブラウザ拡張】OAuthスクレイピングとPDF出力の検証

結論:ブラウザ拡張機能で、OAuthサイトにログイン・データをPDF保存は実現可能。スクレイピングの技術といえば、Selenium・Puppeteerが定番ですが、ブラウザ拡張機能による可能性をご紹介します。Outh認証が必要なサイトにGoogleアカウントでログインブラウザ拡張機能によるスクレイピングは直接DOMを操作することができ、原始的で強力な手法です。各ブラウザの拡張機能です。今回、OAuth認証の突破とPDF出力の検証をする機会およびその成功により、ビジネス用途において最も強力な選択肢の1つであると主張します。具体的には以下のようなことが可能です:- サイト内のテキストの読み込み・保存- 画像や音楽、ファイルなどの保存- 認証必要サイトへのログイン- APIを通じた機能実行・データベース使用などです。スクレイピングに必要なほとんどの要件を十分に実現可能です。従来手法との比較Selenium・Puppeteerはスクレイピングのプロジェクトではよく選ばれる技術です。これらはかなり強力技術で、スクレイピング需要を確実に満たすといえます。バックグラウンドや並行実行なども可能で、他システムとの連携も得意です。一方で常駐するサーバが必要となり維持運用の複雑さ・維持コストがかかることが大変になってきます。一方で、ウェブブラウザ拡張機能での実現は、ブラウザの内部に内包されるため維持は不要。当然維持コストもかかりません。加えて、スクレイピング対象のサービスそのものに追加される拡張機能ですので、サービスの延長ですぐに覚えることができます。ビジネス用途においては、保守運用の要員がデータを
0
カバー画像

派遣サイトの情報をPythonで自動取得!給与・交通費をExcelで一覧化してみた

こんにちは、MEEです。今回は、実際に私が業務の中で取り組んだ「派遣サイトからの情報自動取得」についてご紹介します。医師派遣の管理業務をしていると、勤務日・診療科・氏名・給与・交通費など、定期的に確認・整理が必要な情報がたくさんありますよね。これらを毎回Webサイトにログインして、1件ずつ目視して記録するのは…正直めちゃくちゃ大変です。そこで私は、Pythonを使ってスクレイピング→Excel出力までを自動化しました!📌やりたかったこと複数の医師の勤務情報を一括取得勤務一覧ページ → 詳細ページ → 勤務記録ページを経由して、給与・交通費も抜き出すExcelに見やすく一覧化(そのまま報告書にも使えるように)🔧使ったものPython(Selenium):ブラウザ操作の自動化pandas:データの整形とExcel出力tkinter:GUIで日付や保存先を選べるように🧠工夫したポイントログイン処理の安定化一部サイトは動的なJavaScriptで構成されているため、待機処理や例外処理を細かく調整しました。また、ログイン後にリダイレクトされる仕様のため、セッションを維持する工夫も必要でした。複数ページをまたぐ構成勤務一覧ページから「詳細ページ」「勤務記録ページ」と深掘りしていく構造なので、Seleniumでの要素探索を丁寧に組みました。ページ遷移をミスると途中でエラーになりやすいんですよね…。Excelテンプレートへの対応最終的に出力するExcelは、ひな型を使って「日付」「金額」「名前」が自動で入るように設計。業務報告書にそのまま印刷して使えるようにしました。✅自動化してよかったこと月
0
カバー画像

PythonとOctoparseを徹底対決!どちらがあなたのデータ収集に最適?

1. はじめに1.1. データ収集の重要性 最近のデジタル化が進む中、私たちの生活はデータに根ざしたものになっています。ビジネス界では、データ駆動型社会の重要性が増し、決定の根拠をデータに依存する企業が多くなっています。マーケットコンディションを把握し、顧客のニーズを理解するためには、効果的なデータ収集の手法が必要不可欠です。 データ収集は、ビジネスの意思決定、製品の改善、競争優位の確立など、多くの面で役立ちます。データを活用することで、企業はリソースを効率的に配分し、ROIを最大化することが可能です。研究分野においても、データは新しい発見を支える基盤となります。 1.2. この記事の目的 この記事の目的は、PythonとOctoparseという二つの異なるデータ収集ツールを比較することです。それぞれの特性を理解することで、読者が自身のニーズに適したツールを選択する助けとなるように解説いたします。 2. スクレイピングとは? 2.1. スクレイピングの基本概念 スクレイピングとは、特定のウェブサイトから情報を自動的に収集する手法を指します。これにより、手作業では不可能な量のデータを効率的に収集することができます。スクレイピングは、自動的にページを巡回し、指定したデータを抽出することが一般的です。 2.2. スクレイピングの一般的な用途 スクレイピングは様々な分野で利用されています。例えば、Eコマースの分野では、価格や商品情報を収集することで競合分析が可能になります。また、市場調査では、消費者のフィードバックやトレンドを確認するためにスクレイピング技術が使われます。その他にも、学
0
カバー画像

ホットペッパービューティーのサロンデータをプログラムで自動取得 - 業務効率化の記録 #18

データ取得先ホットペッパービューティー取得データの詳細・ショップID・店舗名・詳細店舗名・カテゴリー・電話番号・住所・営業時間・定休日・支払方法・設備・スタッフ人数・こだわり条件・備考・その他・口コミ数・星評価・取得日・更新日取得方法スクレイピング結果取得したデータです。所感・まとめホットペッパービューティーのデータは元々取得はしておりましたが、今回項目を増やすためにプログラム修正をしました。定休日やこだわり条件なども取得したので、より精度高く抽出も可能になるかと思います。販売促進用のサイトも作成検討中なので進めていきたいと思います。ホットペッパービューティーのデータは一部販売中ですが、これらのデータはまだ取得中なので販売はしておりません。必要な方はお問い合わせください。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

総務省のPDFを読み取って固定電話の簡易ツール作成 - 業務効率化の記録 #10

データ取得先総務省 電気通信番号指定状況取得データの詳細・番号区画コード・番号・市外局番・市内局番・事業者・使用状況・備考取得方法プログラムでPDF読み込み完了までに要した時間1時間以内結果(csv)結果(スプレッドシート)上記のcsvを活用して固定電話番号情報を取得したのと同時に電話番号を入力するとキャリア事業者が出てくるツールを作りました(めちゃ簡易的ですね)所感・まとめデータ自体は総務省なので活用しがいのあるツールかなと思います。実際に固定電話からキャリアを取得するWebサイトもあるようで、それを元に簡易的にスプレッドシートで作れました。携帯電話番号はどうキャリア判定してるんですかね。手が空くかご要望あれば調べたいと思いました。このようなデータ収集や加工にご興味あればご相談をしてくださればと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

iOSアプリの一覧をプログラムで取得 - 業務効率化の記録 #9

データ取得先App Store - Apple(日本)取得データの詳細・対象年齢・アプリ名・サブタイトル・開発者・ストア内順位・ストア内星評価・有料か無料かなど取得方法秘密完了までに要した時間3時間以内結果(スプレッドシート)csv出力したものを見やすくしています所感・まとめアプリ一覧がないので全て網羅して取得することは不可能である。ただし、サイト全体をクロールすることでできる限りアプリ一覧を取得することを目指した。今回ブログのために100アプリ程度の取得であるが、随時クロールし続ければ立派なアプリ一覧が完成できる見込みであるこれ、、、広告代理店さんとか営業リストで活用できませんか?このようなデータ収集や加工にご興味あればご相談をしてくださればと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

内閣府登録のNPO法人をプログラムで取得して地図にピン! - 業務効率化の記録 #8

データ取得先内閣府NPOホームページ取得データの詳細全国や各都道府県ごとにCSVが用意されていたのでそちらをダウンロード。ただしデータが大量だったので、大阪府限定・現在稼働中のNPOを取り出しました・取得日・郵便番号・都道府県・主住所・NPO名称・責任者・設立日・目的(定款)取得方法データ加工・地図にピンできるサイト完了までに要した時間2時間以内結果(csv)csv出力結果です。結果(地図ピン)利用サイト:Leafletで地図に複数の住所を一括表示所感・まとめ全国に約10,000のNPOがあるようでした(清算も含む)そもそもNPOが何をしているのかも、必要なのかわかりません。節税のためなのでしょうか。こんな増殖状況のNPO団体の増加を見ていただきたく今回まとめました。地図は191ピンあります。これは、大阪府のみ、かつ、令和(2019年5月1日)以降に設立した団体です。めっちゃ多い(気がする?)このようなデータ収集や加工にご興味あればご相談をしてくださればと思います。データを収集する際に違法となる場合は、お断りさせていただきますのでご了承ください。最後まで見ていただき、ありがとうございました!
0
カバー画像

Excel VBAのスクレイピングでデータ抽出を簡単に!【イメージ動画あり】

こんにちは、あやせです!私はココナラでExcelやVBAを活用した効率化サービスを提供しています。今回は、Excel VBAのスクレイピングを使用して、データ抽出する事例について紹介します。この方法で、どれだけ簡単にデータ抽出できるかをお伝えします。 スクレイピングでできることExcel VBAを使ったスクレイピングは、情報収集を簡単かつ迅速に行うための素晴らしい手段です。以下は、スクレイピングでできることの一部です。 データの収集: Excel VBAを活用することで、様々なサイトから必要な情報を自動的に収集できます。 定期的な更新: 定期的に情報を更新することで、最新の情報を常に手に入れることができます。 カスタマイズ可能なレポート: 抽出した情報をカスタマイズ可能なレポートにまとめ、分析しやすくします。 デモ動画: 不動産情報のスクレイピング動画では、実際にExcel VBAを使用して不動産情報をスクレイピングするプロセスを紹介しています。ぜひご覧ください! スクレイピングのメリット主に以下2つのメリットがあります。時間の節約: 手作業で情報を収集する手間を省き、時間を有効活用できます。 人的ミスの削減: 人為的なミスがなく、抽出されるデータは高い正確性を保ちます。 私の提供するサービス 私もExcel VBAを駆使したスクレイピングサービスを提供しています。あなたのやりたいことが整理できていなくても、私からご提案させて頂きます!情報抽出をお考えの方は、ぜひ一度ご相談ください。https://coconala.com/services/3078591まとめ Excel V
0
カバー画像

netkeibaからデータを取得する【第4回】pythonスクレイピング

netkeibaからデータを取得するの第四弾です。 といっても 一回目でレース日程とレース一覧 二回目で出走表と結果 三回目で競走馬情報 を取得してきましたので、基本的な分析データは集まったと言えるので正直あまりやることはなく 今までのデータを一活取得するツールを作成したので、よろしくといった記事です。 フローを書くと 1.指定した開始日と終了日からレースが行われている日程リストを取得 2.1から開催日のレース一覧を取得 3.2から特定のレースの出走表または結果を取得 4.3から出走している競走馬のプロフィールや過去成績のデータを取得する といった流れです。詳しくは前回の記事を参照ください。注意点などは前回の記事に記載しています。 またサンプルのexeファイルを配布しています。商品ページに載せておきます。(※もしサイズや拡張子的に載せられない場合は配布するのでお声掛けください) サンプルでは、実際取得可能な日程とレースは固定しておりますので、操作感を確認していただければと思いますので、よろしくお願いします。 次回は取得したデータを実際に分析する記事を作成しようと思います。 未定ですが、統計学の観点や機械学習を取り入れた分析入門的な記事が書ければと思っています。 以上
0
カバー画像

netkeibaから出走表と結果を取得する方法【第2回】pythonスクレイピング

netkeibaからデータを取得するの第二弾です。前回は指定の日付範囲から日程とレース一覧を取得しましたが、 今回は具体的な出走表と結果と払い戻しを取得します。 netkeibaには通常の結果とデータベースの結果ページが存在しますが、今回は前者をターゲットとします。対象ページの確認まずは出走表のページを見ると、レースIDが書いてます。そして結果ページも同様です。 レースIDは前回のレース一覧で取得済みです。(RIDという列名で保存してます) 出走表ページに戻って、欲しい出走表がどのように配置されているか開発者ツールで確認します。 するとテーブルになっているので、こういう時は便利なpandasを使いましょう。取得テスト前回同様にget_driver関数でドライバを取得し、出走表のURLを入力してdriver.get(url)します。 そして以下のようにpandasのテーブルタグを読みこんでデータフレームリストで返す関数を使用しますdata = pd.read_html(driver.page_source) len(data) # テーブルが何個読み取られたか # 5お目当てのデータは最初のリストに格納されていました。pandasを使用すると簡単に取得できますが、馬名に貼られているリンクは別途取得する必要があります。 今回は省略しますが、作成したツールの方では取得しています。出走表取得コードdef get_race_table(driver, race_id):     url = f"race/shutuba.html?race_id={race_id}" # 禁止文字列のた
0
113 件中 1 - 60