Soumettre la recherche
Mettre en ligne
線形モデルによる文京区の賃貸物件価格の解釈(「最高の借家」は統計解析で見つかるか?)
•
52 j'aime
•
19,383 vues
windfall_j
Suivre
賃貸情報サイトSUUMOに記載された物件情報を解析してみました。
Lire moins
Lire la suite
Immobilier
Signaler
Partager
Signaler
Partager
1 sur 50
Télécharger maintenant
Télécharger pour lire hors ligne
Recommandé
統計非専門家の認知を促進するための情報の可視化
統計非専門家の認知を促進するための情報の可視化
Yoshihide Nishio
#詐欺グラフ
#詐欺グラフ
Akihiko Iyoda
絶対に描いてはいけないグラフ入りスライド24枚
絶対に描いてはいけないグラフ入りスライド24枚
itoyan110
Webライティング11のルール
Webライティング11のルール
Tsutomu Sogitani
見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版
MOCKS | Yuta Morishige
企業における統計学入門
企業における統計学入門
antibayesian 俺がS式だ
Zero to One 読書会資料
Zero to One 読書会資料
windfall_j
Python for R Users
Python for R Users
Ajay Ohri
Recommandé
統計非専門家の認知を促進するための情報の可視化
統計非専門家の認知を促進するための情報の可視化
Yoshihide Nishio
#詐欺グラフ
#詐欺グラフ
Akihiko Iyoda
絶対に描いてはいけないグラフ入りスライド24枚
絶対に描いてはいけないグラフ入りスライド24枚
itoyan110
Webライティング11のルール
Webライティング11のルール
Tsutomu Sogitani
見やすいプレゼン資料の作り方 - リニューアル増量版
見やすいプレゼン資料の作り方 - リニューアル増量版
MOCKS | Yuta Morishige
企業における統計学入門
企業における統計学入門
antibayesian 俺がS式だ
Zero to One 読書会資料
Zero to One 読書会資料
windfall_j
Python for R Users
Python for R Users
Ajay Ohri
python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集
Hikaru Takemura
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
Hiroshi Funai
Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析
antibayesian 俺がS式だ
Gensim
Gensim
saireya _
RとPythonによるデータ解析入門
RとPythonによるデータ解析入門
Atsushi Hayakawa
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
Katsuhiro Morishita
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
Takanori Suzuki
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門
Hironori Sekine
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
敦志 金谷
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
Etsuji Nakai
Python入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニング
Yuichi Ito
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
Hisao Soyama
Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門
Takami Sato
unidades de corel
unidades de corel
martinezcobosm
Professional
Professional
Out of Hour Cleaning Services
Contenu connexe
En vedette
python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集
Hikaru Takemura
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
Hiroshi Funai
Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析
antibayesian 俺がS式だ
Gensim
Gensim
saireya _
RとPythonによるデータ解析入門
RとPythonによるデータ解析入門
Atsushi Hayakawa
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
Katsuhiro Morishita
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
Shinichi Nakagawa
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
Takanori Suzuki
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門
Hironori Sekine
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
敦志 金谷
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
Etsuji Nakai
Python入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニング
Yuichi Ito
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
Hisao Soyama
Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門
Takami Sato
unidades de corel
unidades de corel
martinezcobosm
Professional
Professional
Out of Hour Cleaning Services
En vedette
(16)
python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析
Gensim
Gensim
RとPythonによるデータ解析入門
RとPythonによるデータ解析入門
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
Python入門 : 4日間コース社内トレーニング
Python入門 : 4日間コース社内トレーニング
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門
unidades de corel
unidades de corel
Professional
Professional
線形モデルによる文京区の賃貸物件価格の解釈(「最高の借家」は統計解析で見つかるか?)
1.
3/29/15 線型モデルによる 文京区の賃貸物件価格の解釈 ̶「最高の借家」は統計解析で見つかるか?̶ 先行研究としてTokyo.R#37の安井さんの『Rでお部屋探し』と、 @berobero11さんの『データ解析で割安賃貸物件を探せ!(山手線沿線編)』を 参考にさせて頂きました。 1 @windfall_j 2015/03/28(Sat.) Tokyo.R
2.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 自己紹介 @windfall_j 某大学の学部4年生 みどりぼん読み中 統計見習い 今回Tokyo.R初参加です 発表内容に誤解などあれば指摘お願いします 上京 ➜ 東京の地理知識ゼロ 3月まで文京区に4年ほど住んでいた 2
3.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 賃貸物件サイトには 「バストイレ別」や 「室内に洗濯機置場有」 といった条件が記載されている 3
4.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 それぞれの条件は 月額の家賃に 何円ほど影響していると 考えられるだろうか? 4
5.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 それぞれの条件は 月額の家賃に 何円ほど影響していると 考えられるだろうか? 5
6.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 それぞれの条件は 月額の家賃に 何円ほど影響していると 考えられるだろうか? 5 ➜ 説明変数x
7.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 それぞれの条件は 月額の家賃に 何円ほど影響していると 考えられるだろうか? 5 ➜ 説明変数x ➜ 目的変数y
8.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 それぞれの条件は 月額の家賃に 何円ほど影響していると 考えられるだろうか? 5 ➜ 説明変数x ➜ 目的変数y ➜ 偏回帰係数β
9.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 それぞれの条件は 月額の家賃に 何円ほど影響していると 考えられるだろうか? 5 ➜ 説明変数x ➜ 目的変数y ➜ 偏回帰係数β として形式化してみる
10.
今回利用するモデル 線型重回帰モデル(Multiple Linear Regression
Model) • 偏回帰係数ベクトルβと説明変数ベクトルxの線型結合 で⽬目的変数yの期待値を表現するモデル (yは で • 何が嬉しいの:偏微分すると定数値 ( )なので、 βを「xの増分に対するyの増分」の要約とみなして推論論を進められる ‣平たく⾔言えば「オートロックの物件はxxx円⾼高いけどさ〜~」 などの⼤大雑把な議論論ができる ‣僕のような素⼈人がザッと理理解するのには良良いかも、と採⽤用 63/29/15
11.
データと重回帰に用いた変数 データは賃貸情報サイトSUUMOからクローラーで取得。 2014年年11⽉月下旬での⽂文京区内の⼀一意な2032件を対象とした。 ・誤差構造は正規分布とし、整合性のため価格≦15万で打切切り ・⼀一般的な学⽣生が住む物件として間取りは1Room/1K/1DK/1LDKに限定 73/26/15 価格 広さ (専有面積) 築年 最寄駅 までの分数 バス・ トイレ別 自動 ロック エアコン 室内洗 濯機場 駐車場 追焚 温水 トイレ 郵便 BOX 独立 洗面所 木造 乾燥機 0か1を取る ダミー変数 一般的に主な価格決定要 因と見されている3変数
12.
多重共線性の診断 ➜◎目立った相関(絶対値>0.6以上)なし。どれを入れてもOK 83/26/15 最終的なモデルで使った説明変数 価格 広さ 築年 最寄 バス・ トイレ別 自動 ロック エアコン 室内洗 濯機場 駐車場 追焚 温水 トイレ 郵便 BOX 独立 洗面所 木造 乾燥機 赤字は縦横2変数の相関係数Rの絶対値(フォントの大きさ Rの絶対値) ※ は比例記号。「正比例する」ことを表す
13.
最終的に得たモデル。エアコンのみ有意差なしで除外 偏回帰係数を⽤用いた解釈例例 • ⾯面積が10平⽶米(≒6畳)増えると1999
× 10 ≒ 2万円 家賃が⾼高くなる • オートロックがない物件は、ある物件と⽐比べて4,156円安い • 単に⽊木造住宅宅だと分かっただけでは、1,910円しか安く⾒見見積もれない • バストイレ別、⾵風呂呂の追い焚き機能などは2千円程度度の変動か 93/29/15 (※管理費・共益費含む)
14.
最終的に得たモデル。エアコンのみ有意差なしで除外 偏回帰係数を⽤用いた解釈例例 • ⾯面積が10平⽶米(≒6畳)増えると1999
× 10 ≒ 2万円 家賃が⾼高くなる • オートロックがない物件は、ある物件と⽐比べて4,156円安い • 単に⽊木造住宅宅だと分かっただけでは、1,910円しか安く⾒見見積もれない • バストイレ別、⾵風呂呂の追い焚き機能などは2千円程度度の変動か 93/29/15 (※管理費・共益費含む) 僕みたいな不動産初心者にも、これだけ単純化すれば分かりやすい > (・ω・*) ※これだけ単純化…線形予測子=物件条件(not主成分)、リンク関数=恒等関数(単位が[円])、誤差構造=正規分布(他の条件を無視)
15.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 うーん 10
16.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 これだけ単純なモデルでも 11
17.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 調整済み決定係数(R^2)の値からは 案外うまく 表現できているみたいだけどさ 12 74.5%の物件が 予測誤差1万円以内です
18.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 私たちが本当に知りたいのは 自分が住む候補になる 「格安なのにいい物件」なんだよね 13
19.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 そういう物件を 一覧できたりしないの? 14
20.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 15
21.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 計算機によるデータ解析という 現代の利器によって 16
22.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 大量のデータに埋もれた 自分にとって最高の家が見つかる 17
23.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 18
24.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 残念ながらこの解析法は 一覧はできますが 19
25.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 少なくとも 一般所得家庭の学生が いい物件を探す方法としては 不適当です 20
26.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 その理由は… 21
27.
理由1:住みたい物件の条件が決まっていれば、全探索可能なぐらい に数が絞れてしまう。解析の所要時間を見学に割当てたほうがベター たとえば⽂文京区/家賃(管理理費・共益費込)5-‐‑‒7万円/マンション/駅徒歩7分 以内/バストイレ別/フローリングを条件として検索索すると、重複ありで81 件しか該当しない • 中には9回重複して掲載されている物件も(仲介業者だけが違う)
実際に訪れてみると「ないわ…」となる物件は結構ある • 住んでから半年年間は近くで⼯工事が⾏行行われることが発覚したり • 勤務先まで乗換1回だがホームが遠い上に混雑駅だったり • 部屋の中の⾳音が変な感じに反響して居⼼心地が悪いなど 仮にこの解析法で賃料料相場より遥かに安い物件が2〜~3件⾒見見つかっても、 それらが上記の条件を満たしている可能性は⾮非常に低いだろう 223/29/15
28.
理由2:「誤差が正規分布」の仮定を置くために、自分が考慮す る家賃価格帯の5倍近くの価格幅を考慮する必要がある。 仮に5万〜~7万の物件(531件、下図)だけモデリングを考えると… • 違う分布を⽤用いる必要が出てくる
‣リンク関数が複雑になるため解釈しにくいかも ‣今回は(学習⽬目的なので)偏回帰係数の解釈性を再優先した 233/29/15 家賃y yも(解析の目的にかなう程度には) 正規分布する。やったね! でもこんな高い物件住めなくね? = + (E(y)で説明されなかった)誤差ε 誤差が正規分布するので = 今回想定したモデル ここらへん理解が怪しいので突っ込み大歓迎です… 「安い!」と思っても狙ってた価格帯と違ったときの悲しみ
29.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 24 まとめ 線形モデルによって賃貸家賃と物件条件の関係を要約した • 6畳 ≒ 2万円だった。やはり⽂文京区の地価は⾼高い • 宅宅配ボックスとオートロックは約5000円と⾼高付加価値 • 室内洗濯機置場、バストイレ別などは価格的には約2000円程度度の ⼩小さな違いでしかないのではないか • ただし実際に探すときは物件数に⼤大きく影響する実感あり この解析法は⾃自分の理理想の住まいを探す上では不不適だと結論論付けられる •こんな解析するより⼤大数の⾒見見学に時間を割こう • データの取得をしたのが11⽉月なのにこの発表が3⽉月だということの 含意を読み解こう(2⽉月に家探しをするのは本当に⼤大変でした) • ⾃自分の検討価格帯のみを解析したいのなら線形モデルでは不不⼗十分 • みどりぼん読んで別のモデリングにチャレンジするかもしれません
30.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 25 まとめ 線形モデルによって賃貸家賃と物件条件の関係を要約した • 6畳 ≒ 2万円だった。やはり⽂文京区の地価は⾼高い • 宅宅配ボックスとオートロックは約5000円と⾼高付加価値 • 室内洗濯機置場、バストイレ別などは価格的には約2000円程度度の ⼩小さな違いでしかないのではないか • ただし実際に探すときは物件数に⼤大きく影響する実感あり この解析法は⾃自分の理理想の住まいを探す上では不不適だと結論論付けられる •こんな解析するより⼤大数の⾒見見学に時間を割こう • データの取得をしたのが11⽉月なのにこの発表が3⽉月だということの 含意を読み解こう(2⽉月に家探しをするのは本当に⼤大変でした) • ⾃自分の検討価格帯のみを解析したいのなら線形モデルでは不不⼗十分 • みどりぼん読んで別のモデリングにチャレンジするかもしれません
31.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 26 Enjoy!
32.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 おまけ 27
33.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 文京区後楽2丁目には ラトゥール飯田橋という 超高級マンション(※)があるのですが 28 (※調べた限りでは家賃が24万7千円からスタートします)
34.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 このマンションの家賃設定は、 広さで家賃を単回帰したときに 驚くほど目立ちます 29
35.
ラトゥール飯田橋の価格設定は全体の傾向に沿わない 303/26/15 ↑ . 最高値をつけている ラトゥール飯田橋(8階)
36.
ラトゥール飯田橋の価格設定は全体の傾向に沿わない 303/26/15 この物件も ラトゥール飯田橋 (2階) ↓ ↑ . 最高値をつけている ラトゥール飯田橋(8階)
37.
313/26/15 ラトゥール飯田橋の価格設定は全体の傾向に沿わない
38.
323/26/15 ラトゥール飯田橋の価格設定は全体の傾向に沿わない
39.
333/26/15 ラトゥール飯田橋の価格設定は全体の傾向に沿わない
40.
ラトゥール専用の回帰直線を用意したほうが良い 343/26/15 赤い点がラトゥールの物件
41.
ラトゥール専用の回帰直線を用意したほうが良い 353/26/15 赤い点がラトゥールの物件
42.
ラトゥール専用の回帰直線を用意したほうが良い 363/26/15 赤い点がラトゥールの物件
43.
ラトゥール専用の回帰直線を用意したほうが良い 373/26/15 赤い点がラトゥールの物件 傾き0.2547 切片1.8636 傾き0.4336 切片4.8847
44.
ラトゥール専用の回帰直線を用意したほうが良い 373/26/15 赤い点がラトゥールの物件 ⾼高級賃貸マンションは独⾃自の価格モデルを持つ 傾き0.2547 切片1.8636 傾き0.4336 切片4.8847
45.
おまけのおまけ:ラトゥールって誰が住んでるの? あまりに気になったので (ラトゥールを⼿手がける)住友不不動産の 窓⼝口に⾏行行って聞いてきました • 「ターゲットとしては外国⼈人」
• 「地⽅方の医者の息⼦子なども」在住とのこと • ふーん?なんだか気になるなあ ‣私はその後の追加調査で真に驚くべき仮説を 得るに⾄至ったがこの余⽩白はそれを書くには狭すぎる 383/26/15
46.
ちなみにSUUMOもユーザーにやさしい 393/26/15
47.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 おしまい 40
48.
Copyright (C) Takimoto
Seminar. All Rights Reserved.3/29/15 追加資料 (閲覧者から出た疑問を受けて 2015/3/30以降に追加した) 41
49.
問1:打切家賃15万は妥当?恣意的な上限は危険では? 答1:旧式/新式設備の分布を無視した危険性はあるが調査困難。 423/29/15 利用煩雑なバランス (低価格帯に多い旧式設備)の負債評価 と、高価格帯での新式追焚設備の高価値の混合を表す? 木造住宅のバリュエーションが変化。「ボロい木造」 ではなく、最近流行りの「新築木造デザイナーズマ ンション」によるものと推定される。 暗証番号式(私物化などトラブルが多 い)の旧式宅配ボックスと、利用者追 跡され問題解決した新式のそれとで はバリュエーションが大きく違う? 一件一件の設備を 調べるのは非現実的 (なお、賃貸情報サイトの 一つのフラグに対して 複数世代の技術設備が 含まれている、という 事自体もある程度珍しい 知見であるように思う。 すなわち、閲覧者が 探す価格帯によって、 そのフラグの意味は違う)
50.
問2:木造とオートロックって負の相関じゃないの? 答2:負相関する。前掲の数字は相関係数の「絶対値」 だが、実はこの負相関は今後ますます 弱まっていくと予想される • 右図は⽂文京区の⽊木造物件のヒストグラム
‣横軸は建造年年、縦軸は物件数 ‣緑⾊色がオートロックありを表す ‣ 図からは、2000年年以降降のオートロック ⽊木造物件割合の上昇が読み取れる 433/29/15
Télécharger maintenant