絞り込み条件を変更する
検索条件を絞り込む

すべてのカテゴリ

6 件中 1 - 6 件表示
カバー画像

【selenium】xPathってどうやって取るねん。

みなさんこんにちは。イプシロンです。今回はスクレイピングで必須となるサイト内のxPathの取得方法について書きます。ではいってみましょう。準備ブラウザはChromeを使用し、ココナラのサイトを例にとってご説明します。https://coconala.com/手順1.ココナラのサイトを表示する2.今回は、「ビジネス購入の方はこちら」の文字をスクレイピングします。3.「Shift」+「Ctrl」+「C」を押します。右側にソースコードが表示されます。4.マウスを対象の箇所(ビジネス購入の方はこちら)まで移動します。右側のソースコード上にブルーでハイライトされます。5.ハイライトされた箇所を右クリックします。6.「Copy」→「Copy xPath」を選択します。クリップボードにxPathがコピーされました。7.貼り付けると以下のようになります//*[@id="__layout"]/div/div[1]/div[2]/header/div[1]/div[3]/nav/ul/li[2]/aこれが、対象箇所のxPathになります。8.ソースコードに貼り付けるVBAのソースコードにxPathを以下のように貼り付けます。(今回はメッセージボックスに表示するようにしてみました。)MsgBox Driver.FindElementByXPath("//*[@id=""__layout""]/div/div[1]/div[2]/header/div[1]/div[3]/nav/ul/li[2]/a").Attribute("innerText")9.こんな感じになりました。う~ん。。。。かんたん!!
0
カバー画像

ワイルドカード

すべて* タグ//* 属性//タグ[@*="値"]
0
カバー画像

タグ

全体のどこでも//タグルート直下/タグ子孫.//タグ 子 ./タグ  ルート直下 /タグ 親 ./..先祖 ./ancestor::タグ 兄弟 ./following-sibling::タグ インデックス タグ[i]  先頭 タグ[1]  末尾 タグ[last()]
0
カバー画像

属性

属性+値//タグ[@属性="値"] 含む[contains(concat(" ", normalize-space(@属性), " "), " 値 ")]属性をもつ//@属性//タグ[@属性]
0
カバー画像

スクレイピングで一番役立つXPATH

Pythonで自作プログラムを書いてる人も多いかと思いますが、データ件数を考慮してOctoparseを利用する人も多いですね。テーブル形式のデータ取得の例を見ると、大抵以下のようになってます。これだと、取得先ページで表の行が挿入されただけで、目的とするデータが取得できなくなります。列見出しに着目して、「〇〇という見出しの隣のデータ」という具合に取得すると一番確実かと思います。必要な方はご相談ください。
0
カバー画像

テキスト

キーワード 含む//タグ[contains(text(), 'キーワード')] 完全一致//タグ[text()='キーワード']  空白除去//タグ[normalize-space(text()) = 'キーワード']タグ内のテキスト//タグ//text() 空白除去normalize-space(text())
0
6 件中 1 - 6