絞り込み条件を変更する
検索条件を絞り込む
有料ブログの投稿方法はこちら

すべてのカテゴリ

2 件中 1 - 2 件表示
カバー画像

【selenium】robots.txtってなんやねん。

みなさんこんにちは。イプシロンです。スクレイピングを実施する前に注意しなくてはならないのが、webサイトの利用規約や注意事項です。なぜなら、目的次第では利用規約に反して相手先に迷惑をかけてしまう可能性があるからです。その中で、「robots.txt」の存在は必ず出てきます。今日はその、「robots.txt」について書きます。では、いってみましょう!!!robots.txtとはロボッツテキストと呼びます。クローラーに対するWebページへのアクセス制限(ルール)を記載したファイルのことです。 Webサイトのルート配下に配置されていて、以下のように対象サイトのURLに直打ちすると、閲覧することも可能です。(例)ココナラのサイトに対して、robots.txtを確認したい場合https://coconala.com/robots.txtするとこのようになります。robots.txtのフォーマットについて基本的には以下のことが記載されています。【User-agent】  →意味:クローラーの名前を指定 【Crawl-delay】  →意味:巡回頻度(秒数) 【Allow】  →意味:指定されたパス配下はアクセス可能 【Disallow】  →意味:指定されたパス配下はアクセス不可【Sitemap】  →意味:sitemap.xmlの場所を明示となります。ここで、先ほどのココナラのrobots.txtを読んでみましょう。User-agent: *Disallow: /tags/ Disallow: /register Disallow: /login Disallow: /smartpho
0
カバー画像

Excel VBA+seleniumでサイトをキャプチャした画像を取得するツールを作ったお話

こんにちは、さべろくと申しますm(_ _)m普段ココナラでExcel VBAのお仕事をやらせて貰っています。今回ちょっと技術的に面白い挑戦をしたのでそのご報告をしたいと思います。Excelでスクレイピングツール(Web上のデータを取得するツール)を作る方法はいくつかありますが、Chromeブラウザを使って簡単に作成する方法としてseleniumというものがあります。seleniumの機能を使うとWeb上のデータが簡単に取得できるようになるので、Excel VBAでスクレイピングツールを作りたい人にはお勧めです。さて、そんなselenium(Excel VBAで使うseleniumは厳密にはselenium basic)私が個人的にお気に入りの機能があります。それはjavascriptを実行する機能です!!立ち上げたChromeブラウザで表示したWebサイトに対して好きなjavascriptのコードを実行できるというものです。excel vba seleniumで検索するとまだまだ少ないですが色んなサイトがヒットがします。けれどもこの機能を紹介しているサイトは少ないです。恐らくexcel vbaで書きたいのにjavascriptで書けるよと言われても嬉しくないからなのかな?とか思っています。けれど、seleniumとExcel VBAでスクレイピングツールを作ろうすると限界があり、私は仕事でスクレイピングツールを作るときはよくjavascriptも使用します。因みに下記のように書きます。-----------------------------------------------
0
2 件中 1 - 2
有料ブログの投稿方法はこちら