ブログ
サポート
ログイン
会員登録
ログイン
会員登録
カテゴリから探す
目的から探す
出品者を探す
ブログを探す
仕事・求人を投稿して募集
仕事を探す
単発の仕事
継続(業務委託)の仕事
NEW
仕事を探す
単発の仕事
継続(業務委託)の仕事
NEW
サービス出品
ブログを投稿
サービス出品
仕事・求人を投稿して募集
ココナラブログ
PlayWright Browser Toolkit で Webスクレイピングを試してみた
記事
IT・テクノロジー
HasegawaTech
2024/01/25 10:21
PlayWrightとは
PlayWrightは、Microsoft社が開発している、Webテストと自動化のためのフレームワークです。このフレームワークを使用することで、Chromeなどのブラウザをプログラム上で操作することが可能になります。これにより、Webアプリケーションのテストやスクレイピングなどを効率的に行うことができます。
PlayWright Browser Toolkitとは
PlayWright Browser Toolkitは、LangChainのAgent toolkitsの一部として実装されています。LangChainのAgentは、静的なサイトだけではなく、動的にレンダリングされるサイトも操作することができるようになるツールです。PlayWright Browser Toolkitを使用することで、AgentはWeb上から情報を取得し、スクレイピングすることができます。
試してみた
PlayWright Browser Toolkitを使ってWebスクレイピングを試してみました。モデルはgpt-3.5-turboでも処理できるケースもありましたが、gpt-4の方がやはり精度が高い印象でした。
今回は、Agentに対して企業の住所を聞いてみました。
Agentが次の通り、インターネットで調べるアクションから始まり、ステップバイステップでWeb上から情報を取得してスクレイピングして、最終的な回答を取得するまでの様子を見ることができました。
どうしても、LLMでは実行毎で同じ結果にはならないという反面はありますが、動的なコンテンツなどの制御には今回のような機能が効果を発揮すると思います。
#ウェブスクレイピング
#playwright
#自動化
#LLM
HasegawaTech
フリーランスITエンジニア / 40代前半 / 男性
一覧に戻る