SlideShare une entreprise Scribd logo
1  sur  50
Télécharger pour lire hors ligne
3/29/15
線型モデルによる
文京区の賃貸物件価格の解釈
̶「最高の借家」は統計解析で見つかるか?̶
先行研究としてTokyo.R#37の安井さんの『Rでお部屋探し』と、
@berobero11さんの『データ解析で割安賃貸物件を探せ!(山手線沿線編)』を
参考にさせて頂きました。
1
@windfall_j
2015/03/28(Sat.) Tokyo.R
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
自己紹介
@windfall_j

某大学の学部4年生
みどりぼん読み中 統計見習い
 今回Tokyo.R初参加です
 発表内容に誤解などあれば指摘お願いします
上京 ➜ 東京の地理知識ゼロ
3月まで文京区に4年ほど住んでいた
2
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
賃貸物件サイトには
「バストイレ別」や
「室内に洗濯機置場有」
といった条件が記載されている
3
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
それぞれの条件は
月額の家賃に
何円ほど影響していると
考えられるだろうか?
4
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
それぞれの条件は
月額の家賃に
何円ほど影響していると
考えられるだろうか?
5
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
それぞれの条件は
月額の家賃に
何円ほど影響していると
考えられるだろうか?
5
➜ 説明変数x
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
それぞれの条件は
月額の家賃に
何円ほど影響していると
考えられるだろうか?
5
➜ 説明変数x
➜ 目的変数y
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
それぞれの条件は
月額の家賃に
何円ほど影響していると
考えられるだろうか?
5
➜ 説明変数x
➜ 目的変数y
➜ 偏回帰係数β
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
それぞれの条件は
月額の家賃に
何円ほど影響していると
考えられるだろうか?
5
➜ 説明変数x
➜ 目的変数y
➜ 偏回帰係数β
として形式化してみる
今回利用するモデル
線型重回帰モデル(Multiple  Linear  Regression  Model)  
• 偏回帰係数ベクトルβと説明変数ベクトルxの線型結合



で⽬目的変数yの期待値を表現するモデル

(yは                                                                                                        で  
• 何が嬉しいの:偏微分すると定数値  (          )なので、

βを「xの増分に対するyの増分」の要約とみなして推論論を進められる  
‣平たく⾔言えば「オートロックの物件はxxx円⾼高いけどさ〜~」

    などの⼤大雑把な議論論ができる  
‣僕のような素⼈人がザッと理理解するのには良良いかも、と採⽤用
63/29/15
データと重回帰に用いた変数
データは賃貸情報サイトSUUMOからクローラーで取得。

2014年年11⽉月下旬での⽂文京区内の⼀一意な2032件を対象とした。

・誤差構造は正規分布とし、整合性のため価格≦15万で打切切り

・⼀一般的な学⽣生が住む物件として間取りは1Room/1K/1DK/1LDKに限定
73/26/15
価格
広さ

(専有面積)
築年
最寄駅

までの分数
バス・

トイレ別
自動

ロック
エアコン
室内洗

濯機場
駐車場
追焚
温水

トイレ
郵便

BOX
独立

洗面所
木造
乾燥機
0か1を取る
ダミー変数
一般的に主な価格決定要
因と見されている3変数
多重共線性の診断

➜◎目立った相関(絶対値>0.6以上)なし。どれを入れてもOK
83/26/15
最終的なモデルで使った説明変数
価格
広さ
築年
最寄
バス・

トイレ別
自動

ロック
エアコン
室内洗

濯機場
駐車場
追焚
温水

トイレ
郵便

BOX
独立

洗面所
木造
乾燥機
赤字は縦横2変数の相関係数Rの絶対値(フォントの大きさ Rの絶対値)
※ は比例記号。「正比例する」ことを表す
最終的に得たモデル。エアコンのみ有意差なしで除外
偏回帰係数を⽤用いた解釈例例  
• ⾯面積が10平⽶米(≒6畳)増えると1999  ×  10  ≒  2万円  家賃が⾼高くなる  
• オートロックがない物件は、ある物件と⽐比べて4,156円安い  
• 単に⽊木造住宅宅だと分かっただけでは、1,910円しか安く⾒見見積もれない  
• バストイレ別、⾵風呂呂の追い焚き機能などは2千円程度度の変動か
93/29/15
(※管理費・共益費含む)
最終的に得たモデル。エアコンのみ有意差なしで除外
偏回帰係数を⽤用いた解釈例例  
• ⾯面積が10平⽶米(≒6畳)増えると1999  ×  10  ≒  2万円  家賃が⾼高くなる  
• オートロックがない物件は、ある物件と⽐比べて4,156円安い  
• 単に⽊木造住宅宅だと分かっただけでは、1,910円しか安く⾒見見積もれない  
• バストイレ別、⾵風呂呂の追い焚き機能などは2千円程度度の変動か
93/29/15
(※管理費・共益費含む)
僕みたいな不動産初心者にも、これだけ単純化すれば分かりやすい > (・ω・*)
※これだけ単純化…線形予測子=物件条件(not主成分)、リンク関数=恒等関数(単位が[円])、誤差構造=正規分布(他の条件を無視)
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
うーん
10
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
これだけ単純なモデルでも
11
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
調整済み決定係数(R^2)の値からは
案外うまく
表現できているみたいだけどさ
12
74.5%の物件が
予測誤差1万円以内です
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
私たちが本当に知りたいのは
自分が住む候補になる
「格安なのにいい物件」なんだよね
13
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
そういう物件を
一覧できたりしないの?
14
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15 15
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
計算機によるデータ解析という
現代の利器によって
16
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
大量のデータに埋もれた
自分にとって最高の家が見つかる
17
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15 18
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
残念ながらこの解析法は
一覧はできますが
19
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
少なくとも
一般所得家庭の学生が
いい物件を探す方法としては
不適当です
20
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
その理由は…
21
理由1:住みたい物件の条件が決まっていれば、全探索可能なぐらい
に数が絞れてしまう。解析の所要時間を見学に割当てたほうがベター
たとえば⽂文京区/家賃(管理理費・共益費込)5-‐‑‒7万円/マンション/駅徒歩7分
以内/バストイレ別/フローリングを条件として検索索すると、重複ありで81
件しか該当しない  
• 中には9回重複して掲載されている物件も(仲介業者だけが違う)  
実際に訪れてみると「ないわ…」となる物件は結構ある  
• 住んでから半年年間は近くで⼯工事が⾏行行われることが発覚したり  
• 勤務先まで乗換1回だがホームが遠い上に混雑駅だったり  
• 部屋の中の⾳音が変な感じに反響して居⼼心地が悪いなど  
仮にこの解析法で賃料料相場より遥かに安い物件が2〜~3件⾒見見つかっても、
それらが上記の条件を満たしている可能性は⾮非常に低いだろう
223/29/15
理由2:「誤差が正規分布」の仮定を置くために、自分が考慮す
る家賃価格帯の5倍近くの価格幅を考慮する必要がある。
仮に5万〜~7万の物件(531件、下図)だけモデリングを考えると…  
• 違う分布を⽤用いる必要が出てくる  
‣リンク関数が複雑になるため解釈しにくいかも  
‣今回は(学習⽬目的なので)偏回帰係数の解釈性を再優先した
233/29/15
家賃y
yも(解析の目的にかなう程度には)
正規分布する。やったね!
でもこんな高い物件住めなくね?
=
+
(E(y)で説明されなかった)誤差ε
誤差が正規分布するので
=
今回想定したモデル
ここらへん理解が怪しいので突っ込み大歓迎です…
「安い!」と思っても狙ってた価格帯と違ったときの悲しみ
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15 24
まとめ
線形モデルによって賃貸家賃と物件条件の関係を要約した  
• 6畳  ≒  2万円だった。やはり⽂文京区の地価は⾼高い  
• 宅宅配ボックスとオートロックは約5000円と⾼高付加価値    
• 室内洗濯機置場、バストイレ別などは価格的には約2000円程度度の

⼩小さな違いでしかないのではないか  
•   ただし実際に探すときは物件数に⼤大きく影響する実感あり  
この解析法は⾃自分の理理想の住まいを探す上では不不適だと結論論付けられる  
•こんな解析するより⼤大数の⾒見見学に時間を割こう  
• データの取得をしたのが11⽉月なのにこの発表が3⽉月だということの
含意を読み解こう(2⽉月に家探しをするのは本当に⼤大変でした)  
• ⾃自分の検討価格帯のみを解析したいのなら線形モデルでは不不⼗十分  
•   みどりぼん読んで別のモデリングにチャレンジするかもしれません
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15 25
まとめ
線形モデルによって賃貸家賃と物件条件の関係を要約した  
• 6畳  ≒  2万円だった。やはり⽂文京区の地価は⾼高い  
• 宅宅配ボックスとオートロックは約5000円と⾼高付加価値    
• 室内洗濯機置場、バストイレ別などは価格的には約2000円程度度の

⼩小さな違いでしかないのではないか  
•   ただし実際に探すときは物件数に⼤大きく影響する実感あり  
この解析法は⾃自分の理理想の住まいを探す上では不不適だと結論論付けられる  
•こんな解析するより⼤大数の⾒見見学に時間を割こう  
• データの取得をしたのが11⽉月なのにこの発表が3⽉月だということの
含意を読み解こう(2⽉月に家探しをするのは本当に⼤大変でした)  
• ⾃自分の検討価格帯のみを解析したいのなら線形モデルでは不不⼗十分  
•   みどりぼん読んで別のモデリングにチャレンジするかもしれません
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15 26
Enjoy!
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
おまけ
27
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
文京区後楽2丁目には
ラトゥール飯田橋という
超高級マンション(※)があるのですが
28
(※調べた限りでは家賃が24万7千円からスタートします)
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
このマンションの家賃設定は、
広さで家賃を単回帰したときに
驚くほど目立ちます
29
ラトゥール飯田橋の価格設定は全体の傾向に沿わない
303/26/15
↑     .   
最高値をつけている

ラトゥール飯田橋(8階)  
ラトゥール飯田橋の価格設定は全体の傾向に沿わない
303/26/15
この物件も

ラトゥール飯田橋
(2階)     ↓
↑     .   
最高値をつけている

ラトゥール飯田橋(8階)  
313/26/15
ラトゥール飯田橋の価格設定は全体の傾向に沿わない
323/26/15
ラトゥール飯田橋の価格設定は全体の傾向に沿わない
333/26/15
ラトゥール飯田橋の価格設定は全体の傾向に沿わない
ラトゥール専用の回帰直線を用意したほうが良い
343/26/15
赤い点がラトゥールの物件
ラトゥール専用の回帰直線を用意したほうが良い
353/26/15
赤い点がラトゥールの物件
ラトゥール専用の回帰直線を用意したほうが良い
363/26/15
赤い点がラトゥールの物件
ラトゥール専用の回帰直線を用意したほうが良い
373/26/15
赤い点がラトゥールの物件
傾き0.2547
切片1.8636
傾き0.4336
切片4.8847
ラトゥール専用の回帰直線を用意したほうが良い
373/26/15
赤い点がラトゥールの物件
⾼高級賃貸マンションは独⾃自の価格モデルを持つ
傾き0.2547
切片1.8636
傾き0.4336
切片4.8847
おまけのおまけ:ラトゥールって誰が住んでるの?
あまりに気になったので

(ラトゥールを⼿手がける)住友不不動産の

窓⼝口に⾏行行って聞いてきました  
• 「ターゲットとしては外国⼈人」  
• 「地⽅方の医者の息⼦子なども」在住とのこと  
• ふーん?なんだか気になるなあ  
‣私はその後の追加調査で真に驚くべき仮説を

    得るに⾄至ったがこの余⽩白はそれを書くには狭すぎる
383/26/15
ちなみにSUUMOもユーザーにやさしい
393/26/15
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
おしまい
40
Copyright (C) Takimoto Seminar. All Rights Reserved.3/29/15
追加資料
(閲覧者から出た疑問を受けて

2015/3/30以降に追加した)
41
問1:打切家賃15万は妥当?恣意的な上限は危険では?

答1:旧式/新式設備の分布を無視した危険性はあるが調査困難。
423/29/15
利用煩雑なバランス (低価格帯に多い旧式設備)の負債評価
と、高価格帯での新式追焚設備の高価値の混合を表す?
木造住宅のバリュエーションが変化。「ボロい木造」
ではなく、最近流行りの「新築木造デザイナーズマ
ンション」によるものと推定される。
暗証番号式(私物化などトラブルが多
い)の旧式宅配ボックスと、利用者追
跡され問題解決した新式のそれとで
はバリュエーションが大きく違う?
一件一件の設備を
調べるのは非現実的

(なお、賃貸情報サイトの
一つのフラグに対して
複数世代の技術設備が
含まれている、という
事自体もある程度珍しい
知見であるように思う。
すなわち、閲覧者が
探す価格帯によって、
そのフラグの意味は違う)
問2:木造とオートロックって負の相関じゃないの?
答2:負相関する。前掲の数字は相関係数の「絶対値」
だが、実はこの負相関は今後ますます

弱まっていくと予想される  
• 右図は⽂文京区の⽊木造物件のヒストグラム  
‣横軸は建造年年、縦軸は物件数  
‣緑⾊色がオートロックありを表す  
‣  図からは、2000年年以降降のオートロック

      ⽊木造物件割合の上昇が読み取れる
433/29/15

Contenu connexe

En vedette

python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集Hikaru Takemura
 
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようHiroshi Funai
 
RとPythonによるデータ解析入門
RとPythonによるデータ解析入門RとPythonによるデータ解析入門
RとPythonによるデータ解析入門Atsushi Hayakawa
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識Katsuhiro Morishita
 
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjpShinichi Nakagawa
 
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of PythonTakanori Suzuki
 
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門Hironori Sekine
 
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアルscikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル敦志 金谷
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Etsuji Nakai
 
Python入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニングPython入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニングYuichi Ito
 
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境10分でわかるPythonの開発環境
10分でわかるPythonの開発環境Hisao Soyama
 
Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門Takami Sato
 

En vedette (16)

python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集
 
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
 
Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析
 
Gensim
GensimGensim
Gensim
 
RとPythonによるデータ解析入門
RとPythonによるデータ解析入門RとPythonによるデータ解析入門
RとPythonによるデータ解析入門
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
 
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
 
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
 
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門
 
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアルscikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
 
Python入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニングPython入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニング
 
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
 
Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門
 
unidades de corel
unidades de corelunidades de corel
unidades de corel
 
Professional
Professional Professional
Professional
 

線形モデルによる文京区の賃貸物件価格の解釈(「最高の借家」は統計解析で見つかるか?)