Contenu connexe
Similaire à テキストマイニングのイメージと実際
Similaire à テキストマイニングのイメージと実際 (20)
テキストマイニングのイメージと実際
- 2. 自己紹介
● ID:AntiBayes
● あんちべ
● さくテキ運営
● つい2週間前転職しました
● テキストマイニング、自然言語処理楽しい
● 現在はソーシャルゲームなベンチャーでデータマイ
ニングをすることに
● 発表枠に穴開いたので急遽LTします!!
- 3. 今何してるの?
● (話題の)Hadoopを利用して、
● (ビッグデータ)毎日数百GB〜数TB入ってくるデー
タを用いて、
● (かっこいい!)データマイニングしてる!
- 5. Hadoop
イメージ
● 「利用するのめちゃくちゃ難しいのでは?」
実際
● Hive/HiveQLを利用すると、MySQLやOracleと何ら変
わらない
● HiveQL例 :: select count(*) from table limit 10
● SQL使えるなら何ら問題なく使える
● チューニングや負荷分散は勿論難しいが、それは
RDBMSも同じ
- 6. ビッグデータ(BD)
イメージ
● BDがあれば新たな知見が得られるのでは?
実際
● BDを用いようが、どのような指標を作ったり解析し
たりするかを誤れば何も得ることは出来ない
● 結局統計的素養が無いと、BDがあっても有効活用
は出来ない
- 7. BDのクレンジング
● アンケート調査やマーケティング調査で、データにゴ
ミや欠損が生じるのは日常茶飯事
● 「BDのクレンジングするか!」→出来ない
● 数百GBのデータ、一括置換や検索するだけで時間
がかかりすぎる
● クレンジングしたいなら、生のデータをExcelやスク
リプトで加工するのではなく、根底のログ出力部分
から設計修正する必要がある
- 8. 統計解析の基礎の基礎
● 操作変数、説明変数、統制変数
● 「給料の増加がパフォーマンスの向上に繋がるか」
を知りたければ、給料増加以外の変数を出来る限
り固定しなければ、それ以外の効果がパフォーマン
スに影響与えるため、正確に計測することは出来な
い
- 9. データマイニングの現場
● ゲーム制作側:新規要素入れるのが仕事
● データマイニング側:要素を統制するのが仕事
● 本質的に対立してる
● データマイニングは業務改善のためにやる
→「データマイニングし辛いからもっと綺麗なデータ
吐くように事前に十分なリソース割いてゲーム設計
しろ!でもゲーム開発はスピード勝負だからさっさと
作れ」
→開発者負担増大→ゲームの質が低下→あわわ
- 10. データ構造の変化(1)
● ゲーム内のテキストからトレンドを知りたい!
● ワードカウントしよう!
● ある時から「釣り」関連のワードが頻出→釣りブー
ム来てる!?
● 実際の理由:釣りゲームリリースしたから
● 他にも「ログ収集こけました」「1時間単位でログ
取ってたのを15分単位に変更しました」等々…
● 外的要因が多すぎて、データだけ眺めても何もわか
らない
- 11. データ構造の変化(2)
● アクセス端末を調べよう
● 昔:={PC, 携帯電話}
● 最近:={PC, 携帯電話, スマートフォン}
● 現在:={PC, ガラケー, iPhone, Android}
● 今後:=タブレットも入れるべきでは?
● →いつのまにかパターンが増えている
- 12. データ構造の変化(3)
● 「課金アイテムα、βの効果測定をしてくれ」
● 「あれ、3月前はαのデータがないよ?」
● 「そういやαは途中から追加したアイテムだった」
● 「βは2ヶ月前に売れ行き跳ね上がってるね!」
● 「そういや効果被ってたγを無くしてβに統一した、
そのとき単位もついでに変えた」
● →もうどうしていいかわからない
- 13. 現時点での感想
● やっぱり銀の弾丸/魔法の帽子なんて無かった
● 基礎的な統計学の重要性を痛感
● 目的に適したデータを取る
● 目的に適した指標を作る
● BDだろうがHadoopだろうがそこは関係ない、無視できな
い
● 統計学をきっちり勉強しよう!!