旅行好きなソフトエンジニアの備忘録

プログラミングや技術関連のメモを始めました

データ分析・AIのビジネス導入を読んでのメモ

書籍「データ分析・AIのビジネス導入」を読んだので、気をつけたいことを自分用にメモします。

失敗しない データ分析・AIのビジネス導入: プロジェクト進行から組織づくりまで

失敗しない データ分析・AIのビジネス導入: プロジェクト進行から組織づくりまで

  • 作者: 株式会社ブレインパッド,太田満久,井上佳,今津義充,中山英樹,上総虎智,山?裕市,薗頭隆太,草野隆史
  • 出版社/メーカー: 森北出版
  • 発売日: 2018/07/13
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る

データ分析プロジェクトの7つのリスク

  1. 時間と成果が比例しない
  2. データの量や質が不十分
  3. データのフォーマット、入手元へ依存する
  4. データのトレンドが変化してしまう
  5. 分析結果が当たり前の内容、もしくは悪い意味で想定外になる
  6. 分析結果の解釈が難しく現場で使われない
  7. PoCが終わりシステム化で失敗する

機械学習システムの短所を補う工夫

  1. 分析遂行前に業務ユースケースや必要な入出力情報、必要精度や評価指標を明確にする
  2. PoCを実施し、ビジネス適用可能性、性能にまつわる潜在リスク、ビジネスインパクトを把握する
  3. 結果に対して人手による調整を加える余地を残す
  4. 必要なデータを収集、分析する環境を確保する

よくある問題点と対応

課題 問題点 必要な対応
ビジネスの理解 分析官と現場担当者のコミュニケーション不足により分析のゴールがビジネスの目的と乖離する ビジネス上の課題を理解した上で、その課題達成に向けた適切な分析設計を行う
データの理解・準備 データを整理・集計した結果、分析に使用できるデータが少ない/存在しないことに気づく データの質と量を把握して、ビジネス課題の達成に向けて必要なデータを収集・加工して準備する
評価指標の選択 分析官と現場の合意がないままビジネス現場の目的と乖離した評価指標が選択されてしまう ビジネス課題の達成度を測る評価指標と、分析精度を測る指標が一致するよう、適切な評価指標を選択する


データ分析の仕事の流れ

  1. プロジェクト立ち上げ
    |
    |---ゴール設定
    |---アセスメント
    |
  2. PoC
    |
    |---分析設計(分析に求められる要件の確認、分析アプローチの考案)
    |---実施・評価
    |
  3. ビジネス適用
    |
    |---実地試験
    |---開発
    |---運用・保守


プロジェクト立ち上げ詳細

ゴール設定
|
|---プロジェクト目的の設定
    |---ビジネスの理解
    |---分析結果の活用方法検討
|---データ利活用で解決可能な目標の設定
|
アセスメント
|
|---活用されるデータの収集と概要把握
|---スコープの設定
|---プロジェクトメンバーの選定と役割の設定

ビジネスの理解は「何が解決すべき課題か」だけでなく、「なぜそうなっているか」「どのようにすれば改善できるか」といった仮説の検討が重要。さらにかけれるコスト、課題が解決された後のあるべき姿を考えることでプロジェクトの意義が明確になる。


良い目標設定と悪い目標設定の例

良い例 ビジネス目的、具体的な目標、手元にあるデータ、分析アプローチに妥当性がある

目的 目標 良いポイント
ECサイト内での売上向上 データから顧客の理解を深め、レコメンドアルゴリズムを洗練させることでCTRを1%向上させる ビジネス上の目的と目標が明確であり、かつ関係が明らか
製造コスト削減 製造物の需要を予測し、必要な資材の量を計算、さらに最適化を実施することで無駄な資材購入を削減する ビジネス目的を需要予測と資材計画の最適化という2つの目標を組み合わせて達成しようとしている

悪い例 ビジネス目的、具体的な目標、手元にあるデータ、手法のどれかに乖離がある

目的 目標 悪いポイント
データから設計図を書き起こす人件費の削減 深層学習を活用した図面設計AIをつくり出す ①目標に具体性が欠ける。②何かを作り出すタイプの課題は、記録されているデータ以外の、その業務における常識や暗黙的な知識をもった人間がこなしている業務が対象とされており、データ上の内容をいくら機械学習モデルに読み込ませても目的を達成できない場合がある
良品・不良品を見分ける業務を自動化・効率化する 機械学習による異常検知を精度99%で実現する アルゴリズムの精度そのものが目標になっており、ビジネス目的と直接的な整合性が取れていない。②どのような種類の精度かが不明瞭


データ収集で気にする必要がある点 ~ 既存データを活用する場合

データ管理者の特定(プロジェクトメンバー?他部署?社外?)
収集されているデータの粒度(日毎の予測を行いたいのに週毎のデータしかない等)


データ取得で気にする必要がある点 ~ これからデータを取得する場合

データ取得の難易度(データ取得者とデータ分析者が異なることにより、解析に使えないデータが集まる)
著作権等法律面の検討


データ取得で気にする必要がある点 ~ 既存データ/新規データ両方

  • データ取得のコスト
  • データの量や取得期間
  • 取得期間内でデータ取得の方法やフォーマットが変更されていないか
  • データの変遷
  • 取得時のエラーの可能性
  • 取得時点から活用可能になるまでのタイムラグ


PoCフェーズ詳細

  1. 分析要件の確認
  2. アプローチ概要の決定
  3. データ理解
  4. 分析設計
  5. 分析実施
  6. 結果考察・改善方針検討


分析要件の確認詳細

  1. 分析結果はどのようにビジネスに活用されるのか
    1.1. 結果を人が見て意思決定の参考とする
    1.2. 意思決定は人が行うが、意思決定者に具体的行動を提案する
    1.3. 意思決定を含めた自動化を行う
  2. 何が対象か(全ての商品?主力商品のみ?)
  3. どんな出力値が必要化(分類?予測?可視化?)
  4. モデルにはどの程度解釈性が必要か
  5. 分析結果をどのように評価するか
  6. 利用するデータに制約はあるか
  7. 処理時間に制約はあるか(学習時間・予測時間)
  8. 環境面の制約はあるか(オンプレミス/クラウド、PCやプログラミング言語等)


アプローチ概要の決定詳細

  1. 教師あり問題として扱うのか、教師なし問題としてあつかうのか
    ⇒ 教師なしを選択するなら、何故教師ありでないのかを説明できること
  2. どんなデータを用いるか
  3. どんな手法を用いるか
  4. 分析結果をどのように評価するか
  5. どんな環境を用いるか
  6. データ分析特有のリスクについての対応方針