PlayWright Browser Toolkit で Webスクレイピングを試してみた

記事
IT・テクノロジー

PlayWrightとは

PlayWrightは、Microsoft社が開発している、Webテストと自動化のためのフレームワークです。このフレームワークを使用することで、Chromeなどのブラウザをプログラム上で操作することが可能になります。これにより、Webアプリケーションのテストやスクレイピングなどを効率的に行うことができます。

PlayWright Browser Toolkitとは

PlayWright Browser Toolkitは、LangChainのAgent toolkitsの一部として実装されています。LangChainのAgentは、静的なサイトだけではなく、動的にレンダリングされるサイトも操作することができるようになるツールです。PlayWright Browser Toolkitを使用することで、AgentはWeb上から情報を取得し、スクレイピングすることができます。

試してみた

PlayWright Browser Toolkitを使ってWebスクレイピングを試してみました。モデルはgpt-3.5-turboでも処理できるケースもありましたが、gpt-4の方がやはり精度が高い印象でした。

今回は、Agentに対して企業の住所を聞いてみました。
スクリーンショット 2024-01-22 183129.png

Agentが次の通り、インターネットで調べるアクションから始まり、ステップバイステップでWeb上から情報を取得してスクレイピングして、最終的な回答を取得するまでの様子を見ることができました。

スクリーンショット 2024-01-22 183139.png

スクリーンショット 2024-01-22 183206.png


スクリーンショット 2024-01-22 183220.png

どうしても、LLMでは実行毎で同じ結果にはならないという反面はありますが、動的なコンテンツなどの制御には今回のような機能が効果を発揮すると思います。
サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す