SlideShare une entreprise Scribd logo
1  sur  20
Télécharger pour lire hors ligne
機械学習で名古屋っぽいを判定する
@masayuki5160
14年12月31日水曜日
はじめに
機械学習の勉強がてらベイジアンフィルターを使って”名
古屋っぽい”ことを分類してみました。うまくいった、と
いうわけではないですがやってみてはじめてわかったこ
とや課題等みえてきましたのでそのあたりのお話をして
みます。
なお”名古屋っぽい”を判定するためにTwitterよりテキス
トを収集しています。規約上は問題ないようですが、念
のため詳細の掲載はさけます。
14年12月31日水曜日
環境について
• EC2(AWS)
• PHP
• MySQL
• Mecab(インストールについてはこちらを参考に. )
プログラムについては詳細を記載していませんが,“PHPに
よる機械学習入門”が参考になります.
14年12月31日水曜日
アジェンダ
1. 名古屋っぽいフィルターの概要
2. 判定してみる
3. 今後の課題
14年12月31日水曜日
1. 名古屋っぽいフィルターの概要
分類辞書
判定したい文言 スコア計算
スコア計算時に参照 名古屋っぽい!
名古屋っぽくない
判定
14年12月31日水曜日
1. 名古屋っぽいフィルターの概要
分類辞書
判定したい文言 スコア計算
スコア計算時に参照 名古屋っぽい!
名古屋っぽくない
判定
分類辞書をしっかりつくれればあとはそんなに難しくはない
14年12月31日水曜日
1. 名古屋っぽいフィルターの概要
分類辞書
分類辞書の作成概要
“名古屋”と記載のある
ツイート
それ以外の
ツイート
解析
※形態素解析を実施
14年12月31日水曜日
実際に分類辞書はどんな感じ?
14年12月31日水曜日
トークン
カテゴリの分類
出現回数
たとえばこんなかんじ
14年12月31日水曜日
2. 判定してみる
• スコアの計算は下記
スコア = T / (T + E)
T = 名古屋カテゴリでの単語出現回数/名古屋カテゴリのコーパス数
E = 名古屋以外のカテゴリでの単語出現回数/名古屋以外のカテゴリのコ
ーパス数
14年12月31日水曜日
分類辞書
判定したい文言 スコア計算
スコア計算時に参照 名古屋っぽい!
名古屋っぽくない
判定
次はここを考えます.
2. 判定してみる
14年12月31日水曜日
0"
10"
20"
30"
40"
50"
60"
70"
0.0~0.1" 0.1~0.2" 0.2~0.3" 0.3~0.4" 0.4~0.5" 0.5~0.6" 0.6~0.7" 0.7~0.8" 0.8~0.9" 0.9~1.0"
(%)
2. 判定してみる
各カテゴリのコーパス(分類辞書作成時に使用したツイート)
のスコア計算をし階層ごとに分類
x軸: 階級別スコア
y軸: 階級に属するコ
ーパスの割合
14年12月31日水曜日
名古屋以外のカテゴリ
は0.4~0.5の結果になり,
名古屋カテゴリは0.5以
上になる傾向. 0.5を閾値
として設定するのがよ
さそう.
※このあたりは調整もっ
といりますがとりあえ
ず.
2. 判定してみる
0"
10"
20"
30"
40"
50"
60"
70"
0.0~0.1" 0.1~0.2" 0.2~0.3" 0.3~0.4" 0.4~0.5" 0.5~0.6" 0.6~0.7" 0.7~0.8" 0.8~0.9" 0.9~1.0"
(%)
14年12月31日水曜日
ためしにスコアだししてみます
14年12月31日水曜日
2. 判定してみる
• 味仙で台湾ラーメンたべて、コメダでシロノワールをた
べる
• 小倉トーストをディズニーランドで売ると かるはずだ
• ディズニーランド行ってくるわ∼おみやげ何がいい?
• コメダがついにアメリカ進出!!!
サンプルテキストとして上記を使用します.
14年12月31日水曜日
2. 判定してみる
• 味仙で台湾ラーメンたべて、コメダでシロノワールをた
べる => 0.74
• 小倉トーストをディズニーランドで売ると かるはずだ
=> 0.37
• ディズニーランド行ってくるわ∼おみやげ何がいい? =>
0.32
• コメダがついにアメリカ進出!!! => 0.66
赤字が計算したスコア.“コメダ”,“ディズニーランド”は強
く計算に影響している様子.
14年12月31日水曜日
2. 判定してみる
• 年末年始はとくに予定ないけど、とりあえず初詣にはい
っとくかー混んでそうでいやだけど
• 年末年始はとくに予定ないけど、とりあえず熱田神宮に
初詣にはいっとくかー混んでそうでいやだけど
名古屋っぽいキーワードとして”熱田神宮”をいれたもの
といれてないものを比較してみます
14年12月31日水曜日
2. 判定してみる
• 年末年始はとくに予定ないけど、とりあえず初詣にはい
っとくかー混んでそうでいやだけど => 0.59
• 年末年始はとくに予定ないけど、とりあえず熱田神宮に
初詣にはいっとくかー混んでそうでいやだけど => 0.63
“熱田神宮”をいれることでスコアはあがっているが,“熱田
神宮”がない場合もスコアが高い. 閾値として0.5を設定す
るのに問題ありそう(いまの分類辞書だと)。
14年12月31日水曜日
3. 今後の課題
• 分類辞書の精度UP(データの蓄積あるのみ?)
• 分類辞書の更新に伴う判定用しきい値の調整
やはり分類辞書の精度UP、データの蓄積が一番かと思い
ます。閾値の調整もそれに伴って実施することになりそ
う。
とはいえこのあたりは集まるしかない、という感じでし
ょうか。
14年12月31日水曜日
おわりに
機械学習はとっつきにくい印象がありましたが、実際に
自分で実装をしてみることでその印象がうすれました。
しっかりアルゴリズムを把握すれば実装はそこまで難し
くはないな、と感じています。ただ、そのアルゴリズム
を理解するのに多少苦労する、というのは確かです。。
とはいえほんとにおもしろい分野なのでこれからもいろ
いろ試していこうと思います。
14年12月31日水曜日

Contenu connexe

Plus de 優之 田中

CloudFormationを活用したリソース管理と環境構築の自動化
CloudFormationを活用したリソース管理と環境構築の自動化CloudFormationを活用したリソース管理と環境構築の自動化
CloudFormationを活用したリソース管理と環境構築の自動化優之 田中
 
Unity2Dを使ったミニゲーム開発のすすめ
Unity2Dを使ったミニゲーム開発のすすめUnity2Dを使ったミニゲーム開発のすすめ
Unity2Dを使ったミニゲーム開発のすすめ優之 田中
 
【名古屋】2014/2/8 Unity勉強会2
【名古屋】2014/2/8 Unity勉強会2【名古屋】2014/2/8 Unity勉強会2
【名古屋】2014/2/8 Unity勉強会2優之 田中
 
【名古屋】2014/2/8 Unity勉強会1
【名古屋】2014/2/8 Unity勉強会1【名古屋】2014/2/8 Unity勉強会1
【名古屋】2014/2/8 Unity勉強会1優之 田中
 
NGUIとUnity2Dをつかってみた
NGUIとUnity2DをつかってみたNGUIとUnity2Dをつかってみた
NGUIとUnity2Dをつかってみた優之 田中
 
サーバ構築実践入門
サーバ構築実践入門サーバ構築実践入門
サーバ構築実践入門優之 田中
 
Linuxの基礎勉強会
Linuxの基礎勉強会Linuxの基礎勉強会
Linuxの基礎勉強会優之 田中
 
ネットワーク基礎勉強会2回目
ネットワーク基礎勉強会2回目ネットワーク基礎勉強会2回目
ネットワーク基礎勉強会2回目優之 田中
 
【読書会】ネットワークのきそ
【読書会】ネットワークのきそ【読書会】ネットワークのきそ
【読書会】ネットワークのきそ優之 田中
 

Plus de 優之 田中 (12)

CloudFormationを活用したリソース管理と環境構築の自動化
CloudFormationを活用したリソース管理と環境構築の自動化CloudFormationを活用したリソース管理と環境構築の自動化
CloudFormationを活用したリソース管理と環境構築の自動化
 
NGUI基礎
NGUI基礎NGUI基礎
NGUI基礎
 
Unity2Dを使ったミニゲーム開発のすすめ
Unity2Dを使ったミニゲーム開発のすすめUnity2Dを使ったミニゲーム開発のすすめ
Unity2Dを使ったミニゲーム開発のすすめ
 
【名古屋】2014/2/8 Unity勉強会2
【名古屋】2014/2/8 Unity勉強会2【名古屋】2014/2/8 Unity勉強会2
【名古屋】2014/2/8 Unity勉強会2
 
【名古屋】2014/2/8 Unity勉強会1
【名古屋】2014/2/8 Unity勉強会1【名古屋】2014/2/8 Unity勉強会1
【名古屋】2014/2/8 Unity勉強会1
 
NGUIでimage button
NGUIでimage buttonNGUIでimage button
NGUIでimage button
 
NGUIとUnity2Dをつかってみた
NGUIとUnity2DをつかってみたNGUIとUnity2Dをつかってみた
NGUIとUnity2Dをつかってみた
 
サーバ構築実践入門
サーバ構築実践入門サーバ構築実践入門
サーバ構築実践入門
 
Linux基礎2回目
Linux基礎2回目Linux基礎2回目
Linux基礎2回目
 
Linuxの基礎勉強会
Linuxの基礎勉強会Linuxの基礎勉強会
Linuxの基礎勉強会
 
ネットワーク基礎勉強会2回目
ネットワーク基礎勉強会2回目ネットワーク基礎勉強会2回目
ネットワーク基礎勉強会2回目
 
【読書会】ネットワークのきそ
【読書会】ネットワークのきそ【読書会】ネットワークのきそ
【読書会】ネットワークのきそ
 

Dernier

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Dernier (10)

論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

機械学習で名古屋っぽいを判定する