本記事では、私が提供する Webスクレイピング業務について、対応方針をまとめています。
背景
スクレイピングはビジネス上とても需要のある領域ですが、
倫理面・法律面を十分に考慮しないと、トラブルにつながりやすい分野でもあります。
私は日頃、システムの開発・運用・セキュリティ保証まで含めてサービス提供を行っており、
スクレイピングの実施側とは逆の「守る側」の立場で関わることも多くあります。
そのため、技術的な可否だけでなく、
どのような観点で注意すべきかを適切に評価することができます。
ベースとなる評価基準
対応可否は、基本的に 倫理 と 法律 の観点から判断することが重要です。
法律の遵守は当然必須ですが、IT技術の領域では、
法律上の定義が曖昧であったり、解釈が分かれるケースもあります。
そのため、最終的には 専門的な判断 を含めて慎重に検討します。
対応可否を判断する3つの観点
具体的には、以下の3つを最も重要な評価基準としています。
今後の記事では、この3点について順番に詳しく説明していきます。
1. 著作権・データの扱い
2. システム・運営への影響(負荷・妨害)
3. 利用規約・サービス提供者の意図
1. 著作権・データの扱い
著作権については、単に「法律上どうか」という点だけで判断するのではなく、 そのデータを取得・保存したときに、相手に不利益を与えないか という観点を重視しています。
たとえ法律上グレー、あるいは明確に違法と断定できない場合であっても、
取得したデータが第三者のビジネスや権利を侵害する可能性がある場合には、 慎重な判断が必要だと考えています。
そのため私は、 「その情報を保存・再利用することが提供元にとって不利益にならないか」という より一般的・実務的な評価を行ったうえで対応可否を判断します。
2. システム・運営への影響(負荷・妨害)
スクレイピングにおいては、
データを取得するだけでも、対象サーバに一定の負荷がかかる
という事実を前提として考える必要があります。
この負荷を定量的な数値で一律に定めることは難しいものの、
以下のような手法は、手段として不適切であり、対応不可としています。
- 数秒〜数分おきに大規模なデータ取得を行うアクセス
- 大量のワーカーを用意した同時アクセス
- 結果として、対象システムの正常な運営を妨げる可能性がある手法
これらは、セキュリティの観点では
DoS(サービス妨害)行為と同等に評価されうる と考えています。
また、負荷の性質についても以下のように区別して評価します。
- DOM解析のみを行うケース
- ファイルダウンロードを伴うケース
後者の場合は、
通信量・サーバリソースへの影響が大きくなるため、
より慎重な検討が必要になります。
さらに、対象となるサーバやサービスの構成も重要な判断材料です。
例えば、CDN やエッジ配信が適切に導入されている場合と、
WordPress などの旧来型サーバサイドレンダリングを前提とした構成、
あるいは運営規模が小さく脆弱性が懸念されるサービスとでは、
許容できるアクセスの考え方が大きく異なります。
このように、
対象システムの構成や運営状況を考慮したうえで、
過度な負荷や妨害につながらないか を重要な判断基準としています。
3. 利用規約・サービス提供者の意図
利用規約で明示的に禁止されている行為、およびその周辺領域については、解釈基準をサービス運用側に寄せます。
対象となるサービスやサイトにおいて、
利用規約やルール設定によって「スクレイピング」という抽象的な表現ではなく、
より個別具体的なレベルで禁止行為が明示されている場合があります。
こうした場合、その行為そのものだけでなく、
「都合の良い解釈を前提とした周辺的な行為」についても、
倫理的にも運用的にも対応すべきではないと考えています。
なぜなら、この種の明示的な禁止には、
サービス提供者側が徹底した運用上の背景や意図を持っているケースが多く、
規約を“解釈で回避”するような対応は、実運用レベルでは成立しない場合が少なくないためです。
加えて、これらを無視すると、
結果として法律的な問題に発展するリスクも高まることがあります。
以上を踏まえ、明示的に禁止されている行為については対応いたしません。
ケーススタディ:何がOKで、何がNGになるのか?
判断基準が難しい領域ですが、これまでの実例を用いて、どのように評価しているのかを共有します。
ケース1:NG|YouTubeの動画を定期的に保存したい
YouTuberが公開している動画は、彼らの収益基盤であり職業上の資産にあたります。
これを第三者がシステム的に大量保存・定期保存する行為は、
クリエイターにとって不利益につながる可能性が非常に高いため、対応しません。
ケース2:NG|YouTubeにある音楽コンテンツを保存したい
音楽データは、アーティストや権利団体が管理する著作物です。
YouTube上のコンテンツは、あくまで公開方法のひとつであり、ダウンロード・保存は明確に禁止もされています。
そのため、
・音楽動画
・ライブ映像
・ミュージックビデオ
などの保存依頼については、すべて非対応としています。
法律の観点でも、この領域は最も線引きが強い部分です。
ケース3:OK|Wikipediaや行政データなど“一般公開が前提”の情報
Wikipedia、行政のオープンデータ、自治体が公開している統計情報など、
そもそも一般公開を前提として提供されている情報源 については、
スクレイピングして整理・加工すること自体に問題はありません。
これらのデータは多くの場合、
・公開が前提
・二次利用を許容
・APIを備えている場合もある
といった特徴があり、安心して扱える領域です。
ただし、サービス側の規約変更や仕様変更 の可能性について、運用上の考慮が必要となります。
ケース4:OK|EC管理システムの売上CSVを自動保存・業務効率化
EC運用や会計管理では、現在ほとんどの作業がオンラインの管理画面で行われています。
その中で「既存機能はあるものの、微妙に手間が大きい」という相談を受けることがあります。
実際にあったケースがこちらです。
● 「EC運用ページで、明細が“100件ずつ”しか保存できず、一括保存できるようにしたい」
その業務システム画面UIを見せてもらったところ、たしかに100件単位のCSVファイルずつの保存となっており、
大量の明細がある場合には、
ページ移動 → 保存ボタン → 最後に複数CSVをExcelでまとめる、
という非常に手間のかかる作業になっていました。
客観的にみても『一括保存ボタン』が欲しいUIです。
● 評価
結論として、以下の理由で「対応OK」と判断しました。
・保存行為そのものは、利用者が正当に行える操作である
・月に1度の実行で、サーバ負荷も極めて小さい
・自動化しても運営側に不利益がなく、むしろUX向上に寄与する
・一括保存機能が有料オプションとして提供されているわけではない
・“不正”に該当する要件は「ログイン突破」の部分だけである
ここで重要なポイントがあります。
通常、この手のSaaS自動化は「認証突破」が最大の壁になるのですが、
ブラウザアドオンを使用し、“ログイン後の画面範囲のみ” をシステム化対象とする
という方法により、この問題をクリアできます。
(技術的な根拠については、別記事『【ブラウザ拡張】OAuthスクレイピングとPDF出力の検証』をご参照ください。 )
以上のように、スクレイピングや業務自動化の可否は
「技術的にできるか」ではなく、
利用者として正当な行為の延長かどうか、サービス側の運用意図を損なわないか といった多面的な観点で判断しています。
ケースによって判断ポイントが変わるため、
ここで紹介したものはあくまで一例です。
実際のご相談内容に応じて、個別に最適な線引きを行っていきます。
なお、今回掲載したケーススタディは、
今後も実例を踏まえて随時追加・更新していく予定です。
安全で、関係者全員にとって健全な形でスクレイピングや自動化を活用できるよう、
今後も丁寧に運用方針を整理していきます。