データエンジニア日記

データエンジニアの雑記

data tech 2017雑感

event.shoeisha.jp 2017年11月2日 御茶ノ水ソラシティカンファレンスセンターにて

基調講演

次を見据え企業が備えておくべきデータ活用基盤とは? ~RDBMSHadoopの活用からディープラーニング・AI技術の今後まで~

enterprisezine.jp

次を見据えて企業が備えておくデータ活用基盤とは?

おかあさんといっしょの新譜のダイレクトメールを間違えて おじいさんおばあさんに送ってしまった→結果大ヒット

・リスクをとって真逆のことをやらなきゃいけないこともある。 出たアウトプットをどうする? アクションは、、、やれる人がいないからノー、、、が多い

・ようはデータ基盤を作って結果を出しても活用できる人がいないので、 アクションまで自動で出きるようにしてよ、、、とか言われてしまう。(神林さん) 出た結果に対してアクションできる人がないデータ解析基盤なんて要らない。

・データ利活用の基盤は(普通のシステム基盤より)難しい。。。企業としてその風土が無いと無理。 データが見得るようになって気づくようにはなったが。。。

RDB VS Hadoopについて 10ペタバイトのデータが無ければHadoop導入の意味はない。 1Tを超えるとRDBのパフォーマンスは落ちる。

・テラバイト以下はRDBでいい。

・その間(1テラから10ペタの間)にマッチするアーキテクチャが今は無い。。。。 書き出しが特に地獄、、新しいタイプのDB HTAPがある。ただまだ出来てない。 SAP HANAとかが候補

AIへの取組はどうすればいいか?

・AI系は苦戦している。 形が変わらないもの(文字とか)の認識にはDeepLearningは優秀。人間より優秀。

・しかし例えば、人間の認識が難しい。 人間を人間として分析する、、、のは難しい。 そういうわけでシンギュラリティはまだまだ。。

・ガンの手術の時にガンの細胞のテスト、、、 既存の枠組みを変えずに入れれるところからピンポイントで絞って導入するのがよい。 枠組み自体を変えるのは時間がかかる。。。ので止めといたほうがいい。

・用途を絞ること。

特性検知(異常検知)は非常に有効

・IOTは通信コストなどの社会インフラがまにあっていない。 全部のデータを送ると当初予算の20倍、、、 データを保存するとすぐにテラバイトの処理が、、、処理をどうする?

データ分析系の人材の育て方

・自由にやらせるのが、、、データ活用できる人材が育つ一番の手 教育方法(これこれこういうトレーニングをやれば良い)というのはない。 好奇心がある人がそのまま動ける環境を作る。環境を作ればほっといても人は伸びる。 環境をどう作るかのほうががよっぽど大事。

・締め付け「これやるな?これをやっても無駄だ」みたいなことを上が言うのが一番ダメ。 成功したやり方のクローンを作るのはだめ。

・使えるデータと好奇心があれば人は伸びる 定型的な教育だと伸びない。

分析基盤の導入に不可欠なデータ統合の進め方

こちらで記事になっています。 enterprisezine.jp

業務データと分析データの違いとは? → 有限な状態へ分類できるものか数値の大小

・なか★の会社 マスタ整備してみたら思わぬ副産物が 営業の担当店舗を効率化して 40人を15人の営業に減らせた。

・白★屋 営業の人数を最適化

・小売り会社 撤退予定だったのがシェアが増えた。

・よく「マスタデータを整備しても売り上げは一円もあがらない」とかいう人がいるが、 マスタデータを整備しただけで効果はある。

・事例:マスタから無効な顧客データを消したら、無駄なDMの料金が減った。 2億→1億に(2000万円で受注)

・営業側が大切だと思っているデータとデリバリ側が大切だと思っているデータが違う 営業側は契約まで、デリバリ側は契約後のデータが大切に思っている、、 ので顧客マスタが分断されがち。

・データ整備にプロパー社員を充てると社員が辞めてしまう。(本来自分がやりたかったことと違うため)

データを活かせる組織の作り方

統計学は最強の学問である」で有名な西内さんの講演

enterprisezine.jp

なぜこのテーマを選んだか?

体制・組織でみんな困っている 導入する目的の明確化 費用対効果も説明できない 人材の育成 分析する対象の選定

ようるにみんな何をしていいのかわからない。

まず正しいデータ 良い分析?

数学的に高度なレポートだけど誰も喜びませんよ、、、とかいうのがありがち 分析結果をどう生かしてアクションをとるのか?

「こうすればいいよ」といっても現場の業務を変えることがなかなか出来ない(忙しいとかで)

データ分析プロジェクトを成功させるには

利用困難なデータ 現場に無知な分析者 数字嫌いな意思決定者 混乱している現場

↑どれかひとつでもあればデータ活用プロジェクトは成功しない。 データ分析プロジェクトは掛け算である。 うまくいけば、単なる足し算よりも大きな効果がある。 が、プロジェクト内に 能力が1未満の人が一人いれば、全体の効果が落ちる。 能力が0の人が一人いれば、効果は0になる。 能力がマイナスの人がいたら・・・・完全逆効果。

アマゾンのアプローチ

分析結果を意思決定を挟まず、直接実装 リコメンドの自動化

リコメントエンジンを作った人は実は最初上司に提案したら、ダメだといわれた。

そこでこのエンジニアは全顧客をランダムに分けてABテスト でレコメンドエンジンを導入した。 さっさと試して効果があれば、導入(意思決定を挟まない!)

一番のボトルは意思決定 課題設定 そもそも何についてものどの指標を最大最小にするか? ビジネスがわかっている人がやるべきこと

データがいっぱい集まったけどどうしたらいいか? 何がどう変わるとうれしいか?をアウトカム(KPI・成果)と解析単位を考えましょう。

無駄な分析のイメージ 関係ない要因から関係ない要因へ。 ・午前中の来店者は滞在時間が長くなりがち、、、だから何? 滞在時間が長い客が良い客とは言えない。 あとは当たり前のKPI

ファミレスでデータ分析した結果「来客が一人増えると1000円売り上げが上がります」 という1億円かけた分析プロジェクトがあった。

価値を上げるために

では?価値がる分析イメージは? 利益がでるためのアウトカム例 * 客単価 * 営業成功率 * 在庫破棄

↑どれをあげたいのかをはっきりさせる。 アウトカムを整理して、どのアウトカムはどの要因が関係するのか?を 整理してそこを分析する。

  • アウトカム→望ましさ を具体的に定義
  • 解析単位→望ましさの単位

比較軸を設定 来店頻度が多い顧客 少ない顧客 販売金額が高い営業 少ない営業 望ましい状態 望ましくない状態

まず望ましい状態を定義してください。

AIビジネスでも同じ どのような値が「高い」ことが良いことなのか? 最適化の選択肢 もっとも良い何を選ぶのか?

AIビジネスで差がつく部分

「何を予測させるか?」 と 「出力結果の活用」 はまだまだ人間がやったほうがいい

特徴量をとらえてデータを前処理、アルゴリズムの適用、細かい設定のチューニング は楽になってきた。 特にチューニングしかできない人は仕事が奪われた。

AIプロダクトの適性を判断する基準

総負荷量:世の中でどれだけの人を煩わせてるのか? 同質性:ケースバイケースなことの小ささ 制御性:取り得る選択肢の組み合わせの有効性(1億通りから選ぶのは難しい) 責任制:選択を誤った場合のリスクと責任の所在 感情性:人間が行うことの嬉しさ

囲碁AIは 総負荷量が× ビジネス的な価値は無い。

ダメな取り組みの例 【寿命予測】:電子カルテのデータから貴方が20年後に死ぬ確率は? 同質性がバラバラ 制御性:「どう対策するか」が無限に 責任性:外れた場合大きな悪影響 感情性:機械に言われても生活を改めにくい

医学世界では「こういうのは知識だけではうまくいかないね」と出ている。

「洞察」と「予測」

「どうしたらこの製品の売り上げがあがるのか?」が洞察 「今年この製品がいくつ売れるのか?教えてください」が予測

人間のデータ分析は「洞察」向き AI機械楽手は「予測」向き

洞察向きの仕事 まだそれほど世の中を煩わせていない ケースバイケースの部分が多い ほぼ無限に打ち手が考えられる場合 リスクが大きく誰かが責任を負うべき 人間が行うことに価値がある

わかった分析結果からどのようにアクションをとるか?

施策は早く試す。

理想的な組織構造

ボス:数字と理屈で意思決定のリスクが取れる人 エキスパート:現場の事情とオペレーションの肌感覚がある人 データマネージャー:社内のデータとITシステムの土地勘がある人 分析担当者:ITとハードワークが苦にならない人

この4人の掛け算がデータ組織となる。(掛け算なので、0の人や0.9の人やマイナスの人が入らないように)

まとめ

良いアウトカムと解析単位を考えよう データとサイエンスが当たり前のチームを アウトカムにアクションを