普段はエンジニアとしてアプリやシステム、AIの開発を行っております、kwdと申します。
【事前に準備していただきたいもの】
・収集したいデータ内容
(収集先のサイトが決まっている場合は事前に教えていただけると幸いです)
・データの保管先
(クラウドの場合、必要な情報がありますので別途お聞きさせていただきます)
流れとして、まず指定量のデータ収集(スクレイピング)をPythonやJSを使って行います。
ライブラリは主に以下を使用予定です。
・BeautifulSoup (Python)
・Scrapy (Python)
・Puppeteer (Node.js)
...etc
シートの他にMySQL、PostgreSQL、MongoDBなど保存先DBの指定も可(クラウドも◎)
同内容を自動化したスクリプトの提供も可能です(別途料金)
※PCを複数台使う為、1週間ほどかかるデータ量も大体が最大2日ほどで終わります。
データを取得後は、Pandasを使い以下の流れでクリーニングを行います。
データの読み込み
↓
データの確認
↓
欠損値の処理
↓
重複の削除
↓
データ型の変換
↓
不正な値の修正
↓
フィルタリングと条件によるデータの修正
↓
データの標準化
このようにデータクリーニングを行うことにより、
データ分析や機械学習の前処理に必要な「データの一貫性」と「信頼性」を確保し、
分析結果の精度を向上させることができます。
データ量の見積もりなど、まずはお気軽にメッセージ頂けると幸いです。
よろしくお願いいたします。
【事前に準備していただきたいもの】
・収集したいデータ内容
(収集先のサイトが決まっている場合は事前に教えていただけると幸いです)
・データの保管先
(クラウドの場合、必要な情報がありますので別途お聞きさせていただきます)