SlideShare une entreprise Scribd logo
1  sur  13
Télécharger pour lire hors ligne
テキストマイニングの
 イメージと実際
自己紹介
●   ID:AntiBayes
●   あんちべ
●   さくテキ運営
●   つい2週間前転職しました
●   テキストマイニング、自然言語処理楽しい
●   現在はソーシャルゲームなベンチャーでデータマイ
    ニングをすることに
●   発表枠に穴開いたので急遽LTします!!
今何してるの?
●   (話題の)Hadoopを利用して、
●   (ビッグデータ)毎日数百GB〜数TB入ってくるデー
    タを用いて、
●   (かっこいい!)データマイニングしてる!
かっこいい!!時代の最先端!!
●   っていうイメージと実態とのギャップについて
●   ここ2週間の感想
●   Hadoop
●   ビッグデータ
●   データマイニング
Hadoop

    イメージ
●   「利用するのめちゃくちゃ難しいのでは?」
    実際
●   Hive/HiveQLを利用すると、MySQLやOracleと何ら変
    わらない
●   HiveQL例 :: select count(*) from table limit 10
●   SQL使えるなら何ら問題なく使える
●   チューニングや負荷分散は勿論難しいが、それは
    RDBMSも同じ
ビッグデータ(BD)

    イメージ
●   BDがあれば新たな知見が得られるのでは?
    実際
●   BDを用いようが、どのような指標を作ったり解析し
    たりするかを誤れば何も得ることは出来ない
●   結局統計的素養が無いと、BDがあっても有効活用
    は出来ない
BDのクレンジング
●   アンケート調査やマーケティング調査で、データにゴ
    ミや欠損が生じるのは日常茶飯事
●   「BDのクレンジングするか!」→出来ない
●   数百GBのデータ、一括置換や検索するだけで時間
    がかかりすぎる
●   クレンジングしたいなら、生のデータをExcelやスク
    リプトで加工するのではなく、根底のログ出力部分
    から設計修正する必要がある
統計解析の基礎の基礎
●   操作変数、説明変数、統制変数
●   「給料の増加がパフォーマンスの向上に繋がるか」
    を知りたければ、給料増加以外の変数を出来る限
    り固定しなければ、それ以外の効果がパフォーマン
    スに影響与えるため、正確に計測することは出来な
    い
データマイニングの現場
●   ゲーム制作側:新規要素入れるのが仕事
●   データマイニング側:要素を統制するのが仕事
●   本質的に対立してる
●   データマイニングは業務改善のためにやる
    →「データマイニングし辛いからもっと綺麗なデータ
    吐くように事前に十分なリソース割いてゲーム設計
    しろ!でもゲーム開発はスピード勝負だからさっさと
    作れ」
    →開発者負担増大→ゲームの質が低下→あわわ
データ構造の変化(1)
●   ゲーム内のテキストからトレンドを知りたい!
●   ワードカウントしよう!
●   ある時から「釣り」関連のワードが頻出→釣りブー
    ム来てる!?
●   実際の理由:釣りゲームリリースしたから
●   他にも「ログ収集こけました」「1時間単位でログ
    取ってたのを15分単位に変更しました」等々…
●   外的要因が多すぎて、データだけ眺めても何もわか
    らない
データ構造の変化(2)
●   アクセス端末を調べよう
●   昔:={PC, 携帯電話}
●   最近:={PC, 携帯電話, スマートフォン}
●   現在:={PC, ガラケー, iPhone, Android}
●   今後:=タブレットも入れるべきでは?
●   →いつのまにかパターンが増えている
データ構造の変化(3)
●   「課金アイテムα、βの効果測定をしてくれ」
●   「あれ、3月前はαのデータがないよ?」
●   「そういやαは途中から追加したアイテムだった」
●   「βは2ヶ月前に売れ行き跳ね上がってるね!」
●   「そういや効果被ってたγを無くしてβに統一した、
    そのとき単位もついでに変えた」
●   →もうどうしていいかわからない
現時点での感想
●   やっぱり銀の弾丸/魔法の帽子なんて無かった
●   基礎的な統計学の重要性を痛感
●   目的に適したデータを取る
●   目的に適した指標を作る
●   BDだろうがHadoopだろうがそこは関係ない、無視できな
    い
●   統計学をきっちり勉強しよう!!

Contenu connexe

En vedette

第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」kakusan40
 
Credential social media_live_v1_3
Credential social media_live_v1_3Credential social media_live_v1_3
Credential social media_live_v1_3Social Media Live!
 
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようHiroshi Funai
 

En vedette (8)

第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
第1回茶ッカソン in Tokyo プレゼンシート「FULLER」
 
SPSSで簡単テキストマイニング
SPSSで簡単テキストマイニングSPSSで簡単テキストマイニング
SPSSで簡単テキストマイニング
 
Credential social media_live_v1_3
Credential social media_live_v1_3Credential social media_live_v1_3
Credential social media_live_v1_3
 
ガチャとは心の所作
ガチャとは心の所作ガチャとは心の所作
ガチャとは心の所作
 
Sakusaku svm
Sakusaku svmSakusaku svm
Sakusaku svm
 
企業における統計学入門
企業における統計学入門企業における統計学入門
企業における統計学入門
 
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
 
Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析
 

Similaire à テキストマイニングのイメージと実際

レガシープロダクトを改善していくための戦い方
レガシープロダクトを改善していくための戦い方レガシープロダクトを改善していくための戦い方
レガシープロダクトを改善していくための戦い方Takuya Sato
 
非エンジニアのSQL活用が加速させる事業成長
非エンジニアのSQL活用が加速させる事業成長非エンジニアのSQL活用が加速させる事業成長
非エンジニアのSQL活用が加速させる事業成長Keiko Inagaki
 
ITでみんなを幸せに、ITで自分も幸せに
ITでみんなを幸せに、ITで自分も幸せにITでみんなを幸せに、ITで自分も幸せに
ITでみんなを幸せに、ITで自分も幸せにsuno88
 
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」Shota Kubo
 
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~ケンタ タナカ
 
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)DeNA Games Tokyo
 
Google Analytics のデータ分析ハンズオン
Google Analytics のデータ分析ハンズオンGoogle Analytics のデータ分析ハンズオン
Google Analytics のデータ分析ハンズオン健一 辰濱
 
HTML5+wordpressで電子書籍
HTML5+wordpressで電子書籍HTML5+wordpressで電子書籍
HTML5+wordpressで電子書籍Wataru Asai
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事Shunsuke Nakamura
 
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06俊仁 小林
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録syou6162
 
DMTC 最終プレゼン
DMTC 最終プレゼンDMTC 最終プレゼン
DMTC 最終プレゼン真悟 平山
 
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)YujiKobayashi7
 
実演・開発の進め方
実演・開発の進め方実演・開発の進め方
実演・開発の進め方TechGardenSchool
 
データ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdfデータ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdfH. K
 
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)Tokoroten Nakayama
 
タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!E2D3.org
 
LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 GIG inc.
 
DMTC 2nd プレゼンテーション
DMTC 2nd プレゼンテーションDMTC 2nd プレゼンテーション
DMTC 2nd プレゼンテーション真悟 平山
 
20121019-jenkins-akiko_pusu.pdf
20121019-jenkins-akiko_pusu.pdf20121019-jenkins-akiko_pusu.pdf
20121019-jenkins-akiko_pusu.pdfakiko_pusu
 

Similaire à テキストマイニングのイメージと実際 (20)

レガシープロダクトを改善していくための戦い方
レガシープロダクトを改善していくための戦い方レガシープロダクトを改善していくための戦い方
レガシープロダクトを改善していくための戦い方
 
非エンジニアのSQL活用が加速させる事業成長
非エンジニアのSQL活用が加速させる事業成長非エンジニアのSQL活用が加速させる事業成長
非エンジニアのSQL活用が加速させる事業成長
 
ITでみんなを幸せに、ITで自分も幸せに
ITでみんなを幸せに、ITで自分も幸せにITでみんなを幸せに、ITで自分も幸せに
ITでみんなを幸せに、ITで自分も幸せに
 
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
Zansa第12回資料 「ソーシャルゲームでは、データがユーザーを理解する!」
 
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
【アイディア止まり】Ozobotでデータサイエンス~天気予報ロボットを作ろう~
 
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
なぜ私たちは「効率化」を目指すのか(DeNA Games Tokyo)
 
Google Analytics のデータ分析ハンズオン
Google Analytics のデータ分析ハンズオンGoogle Analytics のデータ分析ハンズオン
Google Analytics のデータ分析ハンズオン
 
HTML5+wordpressで電子書籍
HTML5+wordpressで電子書籍HTML5+wordpressで電子書籍
HTML5+wordpressで電子書籍
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
 
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
大規模JSプロジェクト ロードオブナイツの管理手法紹介 2012-11-06
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
DMTC 最終プレゼン
DMTC 最終プレゼンDMTC 最終プレゼン
DMTC 最終プレゼン
 
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)
ほぼノン・プログラミングでAI × G空間分析(FOSS4G 2019 KOBE.KANSAI ハンズオン)
 
実演・開発の進め方
実演・開発の進め方実演・開発の進め方
実演・開発の進め方
 
データ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdfデータ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdf
 
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
 
タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!タイトルが決まるまで担当編集者とどう戦ったのか!
タイトルが決まるまで担当編集者とどう戦ったのか!
 
LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話
 
DMTC 2nd プレゼンテーション
DMTC 2nd プレゼンテーションDMTC 2nd プレゼンテーション
DMTC 2nd プレゼンテーション
 
20121019-jenkins-akiko_pusu.pdf
20121019-jenkins-akiko_pusu.pdf20121019-jenkins-akiko_pusu.pdf
20121019-jenkins-akiko_pusu.pdf
 

テキストマイニングのイメージと実際

  • 2. 自己紹介 ● ID:AntiBayes ● あんちべ ● さくテキ運営 ● つい2週間前転職しました ● テキストマイニング、自然言語処理楽しい ● 現在はソーシャルゲームなベンチャーでデータマイ ニングをすることに ● 発表枠に穴開いたので急遽LTします!!
  • 3. 今何してるの? ● (話題の)Hadoopを利用して、 ● (ビッグデータ)毎日数百GB〜数TB入ってくるデー タを用いて、 ● (かっこいい!)データマイニングしてる!
  • 4. かっこいい!!時代の最先端!! ● っていうイメージと実態とのギャップについて ● ここ2週間の感想 ● Hadoop ● ビッグデータ ● データマイニング
  • 5. Hadoop イメージ ● 「利用するのめちゃくちゃ難しいのでは?」 実際 ● Hive/HiveQLを利用すると、MySQLやOracleと何ら変 わらない ● HiveQL例 :: select count(*) from table limit 10 ● SQL使えるなら何ら問題なく使える ● チューニングや負荷分散は勿論難しいが、それは RDBMSも同じ
  • 6. ビッグデータ(BD) イメージ ● BDがあれば新たな知見が得られるのでは? 実際 ● BDを用いようが、どのような指標を作ったり解析し たりするかを誤れば何も得ることは出来ない ● 結局統計的素養が無いと、BDがあっても有効活用 は出来ない
  • 7. BDのクレンジング ● アンケート調査やマーケティング調査で、データにゴ ミや欠損が生じるのは日常茶飯事 ● 「BDのクレンジングするか!」→出来ない ● 数百GBのデータ、一括置換や検索するだけで時間 がかかりすぎる ● クレンジングしたいなら、生のデータをExcelやスク リプトで加工するのではなく、根底のログ出力部分 から設計修正する必要がある
  • 8. 統計解析の基礎の基礎 ● 操作変数、説明変数、統制変数 ● 「給料の増加がパフォーマンスの向上に繋がるか」 を知りたければ、給料増加以外の変数を出来る限 り固定しなければ、それ以外の効果がパフォーマン スに影響与えるため、正確に計測することは出来な い
  • 9. データマイニングの現場 ● ゲーム制作側:新規要素入れるのが仕事 ● データマイニング側:要素を統制するのが仕事 ● 本質的に対立してる ● データマイニングは業務改善のためにやる →「データマイニングし辛いからもっと綺麗なデータ 吐くように事前に十分なリソース割いてゲーム設計 しろ!でもゲーム開発はスピード勝負だからさっさと 作れ」 →開発者負担増大→ゲームの質が低下→あわわ
  • 10. データ構造の変化(1) ● ゲーム内のテキストからトレンドを知りたい! ● ワードカウントしよう! ● ある時から「釣り」関連のワードが頻出→釣りブー ム来てる!? ● 実際の理由:釣りゲームリリースしたから ● 他にも「ログ収集こけました」「1時間単位でログ 取ってたのを15分単位に変更しました」等々… ● 外的要因が多すぎて、データだけ眺めても何もわか らない
  • 11. データ構造の変化(2) ● アクセス端末を調べよう ● 昔:={PC, 携帯電話} ● 最近:={PC, 携帯電話, スマートフォン} ● 現在:={PC, ガラケー, iPhone, Android} ● 今後:=タブレットも入れるべきでは? ● →いつのまにかパターンが増えている
  • 12. データ構造の変化(3) ● 「課金アイテムα、βの効果測定をしてくれ」 ● 「あれ、3月前はαのデータがないよ?」 ● 「そういやαは途中から追加したアイテムだった」 ● 「βは2ヶ月前に売れ行き跳ね上がってるね!」 ● 「そういや効果被ってたγを無くしてβに統一した、 そのとき単位もついでに変えた」 ● →もうどうしていいかわからない
  • 13. 現時点での感想 ● やっぱり銀の弾丸/魔法の帽子なんて無かった ● 基礎的な統計学の重要性を痛感 ● 目的に適したデータを取る ● 目的に適した指標を作る ● BDだろうがHadoopだろうがそこは関係ない、無視できな い ● 統計学をきっちり勉強しよう!!