絞り込み条件を変更する
検索条件を絞り込む
有料ブログの投稿方法はこちら

すべてのカテゴリ

2 件中 1 - 2 件表示
カバー画像

Pythonを使ったデータ分析の基礎:機械学習を活用

Pythonはその使いやすさと、豊富なデータ分析関連のライブラリが存在するため、データ分析において広く使用されています。本記事ではPythonを使ったデータ分析の基本的な手順を、scikit-learnライブラリのデータセットを利用して解説します。0.必要なライブラリのインストール本記事では、ライブラリとしてpandas、numpy、matplotlib、seaborn、sklearnを使用します。インストールがまだお済でない場合、以下をコマンドプロンプトで実行してください。pip install pandas pip install numpy pip install matplotlibpip install seaborn pip install sklearn 1.必要なライブラリのインポートデータ分析には様々なライブラリが使われますが、ここでは主にpandasとnumpy、そして可視化にはmatplotlibとseabornを使います。また、データセットを読み込むためのsklearn.datasetsもインポートします。import pandas as pd import numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn import datasets2.データの読み込みscikit-learnには、分析の練習用としていくつかのデータセットが提供されています。ここでは、ワインの品質を示す「wine」データセットを利用します。wine = datasets.load_w
0
カバー画像

エクセルからの方針転換

事務仕事において、エクセル上に展開されている35000件程度の顧客データからいくつかの条件を適用した結果の名簿を数種類作る必要がありました。 エクセル上に展開されている情報ですので、フィルター機能を使えば出来そうなものですが、別で除外リスト一覧なるエクセルをぶつけてそのなかから間引くようなことも必要でした。 そのために、エクセル標準機能のフィルターだけを用いるのではなく、最初からプログラミングを組み合わせて取り組めばさほど難しい問題ではないと認識していました。 ところが、その認識は極めて甘かったことがわかりました。 35000件程度ですので、大した数ではなさそうに思えたのですが、標準のフィルター機能を用いると極めてエクセルが重くなり、それだけではなく、繰り返しPCが落ちる事態を招いてしまいました。※メインメモリは16GB、Office2019という環境です。 そこで、python × openpyxlで取り組むも、同様に極めて動きが鈍く、80分以上時間をかけてもまだ処理が終わらないような状況に陥りました。 もしかすると、xmlをxmlのまま何とかしようと思ったのが間違っていたのかもしれません。 そこで代案としてpandasを用いたところ、結果的にpandasでなんとかなったと言いますか、余裕で期待の結果が得られたわけなのですが、いやはや、とても良い経験をさせてもらったと感じています。 前任者に話を聞くと、そのような状況に陥ることを織り込み済みで小分けにしながらコツコツと必要な名簿を作っていったそうで、この作業には多くの時間を要したそうです。 最終的に私はpandasを使い、ダブ
0
2 件中 1 - 2
有料ブログの投稿方法はこちら