SlideShare une entreprise Scribd logo
1  sur  25
Télécharger pour lire hors ligne
Copyright©2018 NTT corp. All Rights Reserved. 1
Container Networking Deep Dive
日本電信電話株式会社
ソフトウェアイノベーションセンタ
市原 裕史
2Copyright©2018 NTT corp. All Rights Reserved.
自己紹介
市原 裕史
• 所属
• NTT SIC 分散処理基盤技術プロジェクト
• OpenStack Developer
• Neutron Core Reviewer、その他プロジェクトへの貢献
• 技術: SDN/NFV中心
• パブリッククラウドの開発
• LinuxconでDPDKの性能の発表
• Neutronへの機能提案
• Docker Network Plugin開発
3Copyright©2018 NTT corp. All Rights Reserved.
Container Orchestration Tools
4Copyright©2018 NTT corp. All Rights Reserved.
CNI vs CNM
• Container Network Model (CNM)
• Container Network Interface (CNI)
CNM IPAM プラグイン
CNM Network プラグイン
Get/Release Pool
Create/Delete Network
Create/Delete Endpoint
Join/Leave Endpoint
CNI プラグイン
Add/Remove interface
Get/Release IP Address
5Copyright©2018 NTT corp. All Rights Reserved.
ベアメタルから仮想ネットワーク
ファイアウォール
ロードバランサ
L2スイッチ
サーバ
ルータ
VM
Compute node
vSwitch
VM
vRouter
vFW
Network node
vLB
vSwitch
VMVM
6Copyright©2018 NTT corp. All Rights Reserved.
コンテナネットワーク
Worker
Container Container Container
Container Container Container
Router + FW + LB + Switch
7Copyright©2018 NTT corp. All Rights Reserved.
コンテナネットワーク技術
Router + FW + LB + Switch
• Linux bridge, veth, routing
• iptables
• OpenVSwitch, VPP
8Copyright©2018 NTT corp. All Rights Reserved.
検証環境
version 1.10.0
by kubeadm
version 18.03.0-ce
version 0.9.1
calico version 3.0.4
cni version 2.0.3
9Copyright©2018 NTT corp. All Rights Reserved.
flannel
• シンプルで簡単な設定でL3ネットワークを利用可能
• k8s APIを使用することで外部DB不要
• Network Policyには未対応
10Copyright©2018 NTT corp. All Rights Reserved.
ホストインターフェース構成
ens7: 192.168.33.11/24
flannel.1: 10.244.3.0/32
cni0: 10.244.3.1/24
Pod A
eth0: 10.244.3.x/24
eth0: 192.168.33.12/24
flannel.1: 10.244.2.0/32
cni0: 10.244.2.1/24
Pod B
eth0: 10.244.2.y/24
$ ip a
3: ens7: <BROADCAST,MULTICAST,UP,LOWER_UP>
inet 192.168.33.11/24 brd 192.168.33.255 scope global ens7
6: flannel.1: <BROADCAST,MULTICAST,UP,LOWER_UP>
inet 10.244.3.0/32 scope global flannel.1
7: cni0: <BROADCAST,MULTICAST,UP,LOWER_UP>
inet 10.244.3.1/24 scope global cni0
11Copyright©2018 NTT corp. All Rights Reserved.
vxlan インターフェース
$ ip -d link show flannel.1
6: flannel.1: <BROADCAST,MULTICAST,UP,LOWER_UP
vxlan id 1 local 192.168.33.11 dev ens7 srcport 0 0 dstport 8472
ens7: 192.168.33.11/24
flannel.1: 10.244.3.0/32
vxlan id 1 dev ens7
cni0: 10.244.3.1/24
Pod A
eth0: 10.244.3.x/24
eth0: 192.168.33.12/24
flannel.1: 10.244.2.0/32
vxlan id 1 dev ens7
cni0: 10.244.2.1/24
Pod B
eth0: 10.244.2.y/24
12Copyright©2018 NTT corp. All Rights Reserved.
ルーティング構成 (1 route)
$ ip r
10.244.2.0/24 via 10.244.2.0 dev flannel.1 onlink
ens7: 192.168.33.11/24
flannel.1: 10.244.3.0/32
cni0: 10.244.3.1/24
Pod A
eth0: 10.244.3.x/24
eth0: 192.168.33.12/24
flannel.1: 10.244.2.0/32
cni0: 10.244.2.1/24
Pod B
eth0: 10.244.2.y/24
to: Pod B
to: Pod A
13Copyright©2018 NTT corp. All Rights Reserved.
パケット処理 (1arp, 1FDB entry)
ens7: 192.168.33.11/24
flannel.1: 10.244.3.0/32
vxlan id 1 dev ens7
cni0: 10.244.3.1/24
Pod A
eth0: 10.244.3.x/24
eth0: 192.168.33.12/24
flannel.1: 10.244.2.0/32
vxlan id 1 dev ens7
mac: 22:f7:97:a0:9c:55
cni0: 10.244.2.1/24
Pod B
eth0: 10.244.2.y/24
$ ip n
10.244.2.0 dev flannel.1 lladdr 22:f7:97:a0:9c:55 PERMANENT
$ bridge fdb show dev flannel.1
22:f7:97:a0:9c:55 dst 192.168.33.12 self permanent
to: Pod B (to: 22:f7:97:a0:9c:55 )
to: Pod B (to: 22:f7:97:a0:9c:55 )
14Copyright©2018 NTT corp. All Rights Reserved.
vxlan 情報反映契機
// How it works:
// Create the vxlan device but don't register for any L2MISS or L3MISS messages
// Then, as each remote host is discovered (either on startup or when they are
added), do the following
// 1) create routing table entry for the remote subnet. It goes via the vxlan device but
also specifies a next hop (of the remote flannel host).
// 2) Create a static ARP entry for the remote flannel host IP address (and the VTEP
MAC)
// 3) Create an FDB entry with the VTEP MAC and the public IP of the remote flannel
daemon.
//
// In this scheme the scaling of table entries is linear to the number of remote hosts -
1 route, 1 arp entry and 1 FDB entry per host
https://github.com/coreos/flannel/blob/master/backend/vxlan/vxlan.go#L43-L50
• 10.244.2.0/24 via 10.244.2.0 dev flannel.1 onlink
• 10.244.2.0 dev flannel.1 lladdr 22:f7:97:a0:9c:55 PERMANENT
• 22:f7:97:a0:9c:55 dst 192.168.33.12 self permanent
15Copyright©2018 NTT corp. All Rights Reserved.
flannel CNI 適用後の iptables filter 差分
-A FORWARD -s 10.244.0.0/16 -j ACCEPT
-A FORWARD -d 10.244.0.0/16 -j ACCEPT
ens7: 192.168.33.11/24
flannel.1: 10.244.3.0/32
cni0: 10.244.3.1/24
Pod A
eth0: 10.244.3.x/24
eth0: 192.168.33.12/24
flannel.1: 10.244.2.0/32
cni0: 10.244.2.1/24
Pod B
eth0: 10.244.2.y/24
to: Pod B
to: Pod A
16Copyright©2018 NTT corp. All Rights Reserved.
Calico
• シンプルなL3ルーティングを利用
• BGPを用いてルーティング情報を伝搬可能
• IPIPによるトンネリングにも対応
• Network Policyに対応
17Copyright©2018 NTT corp. All Rights Reserved.
ホストインタフェース
ens7: 192.168.33.11/24
tunl0: 192.168.79.192/32
Pod A
eth0: 192.168.79.x/32
eth0: 192.168.33.12/24
tunl0
Pod B
$ ip a
5: tunl0@NONE: <NOARP,UP,LOWER_UP>
link/ipip 0.0.0.0 brd 0.0.0.0
inet 192.168.79.192/32 brd 192.168.79.192 scope global tunl0
9: calic4324f5b021@if4: <BROADCAST,MULTICAST,UP,LOWER_UP>
link/ether ee:ee:ee:ee:ee:ee brd ff:ff:ff:ff:ff:ff link-netnsid 0
calic4324f5b021
eth0: 192.168.179.y/32
caliYYYY
18Copyright©2018 NTT corp. All Rights Reserved.
ルーティング構成
$ ip r
192.168.179.0/26 via 192.168.33.12 dev tunl0 proto bird onlink
192.168.79.194 dev calic4324f5b021 scope link
ens7: 192.168.33.11/24
tunl0: 192.168.79.192/32
Pod A
eth0: 192.168.79.194/32
eth0: 192.168.33.12/24
tunl0
Pod B
calic4324f5b021
eth0: 192.168.179.y/32
caliYYYY
to: Pod B
to: Pod A
19Copyright©2018 NTT corp. All Rights Reserved.
PodA から PodB への iptables filter
-A FORWARD -m comment --comment "cali:wUHhoiAYhphO9Mso" -j cali-FORWARD
-A cali-FORWARD -m comment --comment "cali:JV9-BRWxjz8He5Ib" -j MARK --set-xmark
0x0/0xe000000
-A cali-FORWARD -o cali+ -m comment --comment "cali:B81FOaQNZymbX9H8" -j cali-to-wl-
dispatch
-A cali-to-wl-dispatch -o calic4324f5b021 -m comment --comment "cali:VlIiuQZf0oRkWoyL" -
g cali-tw-calic4324f5b021
-A cali-tw-calic4324f5b021 -m comment --comment "cali:zjyrnaWCVNz-MaWt" -j MARK --set-
xmark 0x0/0x1000000
-A cali-tw-calic4324f5b021 -m comment --comment "cali:uTf5kcRs6DeXSj7Z" -j cali-pri-
kns.default
-A cali-pri-kns.default -m comment --comment "cali:5yVkkQ7pBcxxkSaE" -j MARK --set-
xmark 0x1000000/0x1000000
-A cali-pri-kns.default -m comment --comment "cali:pZi5w5MrTl3DghSD" -m mark --mark
0x1000000/0x1000000 -j RETURN
-A cali-tw-calic4324f5b021 -m comment --comment "cali:Z5z02E5-p7S1WwQF" -m comment -
-comment "Return if profile accepted" -m mark --mark 0x1000000/0x1000000 -j RETURN
-A cali-FORWARD -m comment --comment "cali:I1Ki7aNgQsJFzEpG" -m comment --comment
"Policy explicitly accepted packet." -m mark --mark 0x1000000/0x1000000 -j ACCEPT
20Copyright©2018 NTT corp. All Rights Reserved.
膨大な iptables ルール
$ sudo iptables-save | wc -l
235
PodA起動後のルール数 calico の場合
$ sudo iptables-save | wc -l
85
PodA起動後のルール数 flannel の場合
calico の場合 1 Pod 起動毎16ルール増加する
21Copyright©2018 NTT corp. All Rights Reserved.
IPIP パケット
ens7: 192.168.33.11/24
tunl0: 192.168.79.192/32
Pod A
eth0: 192.168.79.194/32
eth0: 192.168.33.12/24
tunl0
Pod B
calic4324f5b021
eth0: 192.168.179.y/32
caliYYYY
to: Pod B
to: Pod A
IP 192.168.33.11 > 192.168.33.12: IP 192.168.79.194 > 192.168.179.2:
ICMP echo request, id 53, seq 1, length 64 (ipip-proto-4)
IP 192.168.33.12 > 192.168.33.11: IP 192.168.179.2 > 192.168.79.194:
ICMP echo reply, id 53, seq 1, length 64 (ipip-proto-4)
22Copyright©2018 NTT corp. All Rights Reserved.
トンネリングプロトコル
Pod A
eth0: 192.168.1.10
Pod B
eth0: 192.168.2.10
eth0: 10.0.1.100 eth0: 10.0.2.200
192.168.1.10
192.168.2.20
知らない
to: 10.0.2.200 to: 192.168.2.10
to: 192.168.2.10 to: 192.168.2.10
パフォーマンスボトルネック
23Copyright©2018 NTT corp. All Rights Reserved.
パフォーマンス改善
• オフロード機能を適切に設定する
• VXLANハードウェアオフロード
• トンネリングプロトコルを用いない
• Flannel: host-gw モード
• Calico: ルータへのBGP伝搬
• DPDKやXDPなどのパケット処理高速化技術を用いる
24Copyright©2018 NTT corp. All Rights Reserved.
Network Policy
all deny ポリシー設定後に特定のラベルを持つ Pod のア
クセス許可ポリシー作成し Pod(192.168.79.203) 起動
-A cali-pi-_PfqSzIS1AirpjL0oXbg -m comment --comment
"cali:8wIHtkclEDHwaHZ2" -m set --match-set cali4-
s:AMAB7BNa5u3MmIiwZrblkWt src -j MARK --set-xmark 0x1000000/0x1000000
$ sudo ipset list cali4-s:AMAB7BNa5u3MmIiwZrblkWt
Name: cali4-s:AMAB7BNa5u3MmIiwZrblkWt
Type: hash:ip
Revision: 4
Header: family inet hashsize 1024 maxelem 1048576
Size in memory: 176
References: 3
Members:
192.168.79.203
25Copyright©2018 NTT corp. All Rights Reserved.
ネットワークと向き合う
• tcpdumpしながら膨大なiptablesルールとlinux
network設定を読み解く
• 実際にハマった問題→
https://github.com/coreos/flannel/commit/5df82dcbcb102
05c419f2a9829c9a50e1e566352
• 実環境、サービス要件から適切なプラグイン、ネットワー
ク構成を選択する

Contenu connexe

Tendances

ML2/OVN アーキテクチャ概観
ML2/OVN アーキテクチャ概観ML2/OVN アーキテクチャ概観
ML2/OVN アーキテクチャ概観Yamato Tanaka
 
L3HA-VRRP-20141201
L3HA-VRRP-20141201L3HA-VRRP-20141201
L3HA-VRRP-20141201Manabu Ori
 
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)NTT DATA Technology & Innovation
 
PG-REXで学ぶPacemaker運用の実例
PG-REXで学ぶPacemaker運用の実例PG-REXで学ぶPacemaker運用の実例
PG-REXで学ぶPacemaker運用の実例kazuhcurry
 
BGP Unnumbered で遊んでみた
BGP Unnumbered で遊んでみたBGP Unnumbered で遊んでみた
BGP Unnumbered で遊んでみたakira6592
 
FD.io VPP事始め
FD.io VPP事始めFD.io VPP事始め
FD.io VPP事始めtetsusat
 
10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化Takuya ASADA
 
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Akihiro Suda
 
大規模DCのネットワークデザイン
大規模DCのネットワークデザイン大規模DCのネットワークデザイン
大規模DCのネットワークデザインMasayuki Kobayashi
 
DPDKによる高速コンテナネットワーキング
DPDKによる高速コンテナネットワーキングDPDKによる高速コンテナネットワーキング
DPDKによる高速コンテナネットワーキングTomoya Hibi
 
3GPP TS 38.300-100まとめ
3GPP TS 38.300-100まとめ3GPP TS 38.300-100まとめ
3GPP TS 38.300-100まとめTetsuya Hasegawa
 
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Kohei Tokunaga
 
"SRv6の現状と展望" ENOG53@上越
"SRv6の現状と展望" ENOG53@上越"SRv6の現状と展望" ENOG53@上越
"SRv6の現状と展望" ENOG53@上越Kentaro Ebisawa
 
3GPP F1インターフェース(TS38.470-f50)の概要
3GPP F1インターフェース(TS38.470-f50)の概要3GPP F1インターフェース(TS38.470-f50)の概要
3GPP F1インターフェース(TS38.470-f50)の概要Tetsuya Hasegawa
 
ロードバランスへの長い道
ロードバランスへの長い道ロードバランスへの長い道
ロードバランスへの長い道Jun Kato
 
Linux packet-forwarding
Linux packet-forwardingLinux packet-forwarding
Linux packet-forwardingMasakazu Asama
 
Service Function Chaining with SRv6
Service Function Chaining with SRv6Service Function Chaining with SRv6
Service Function Chaining with SRv6Ahmed AbdelSalam
 
プログラマ目線から見たRDMAのメリットと その応用例について
プログラマ目線から見たRDMAのメリットとその応用例についてプログラマ目線から見たRDMAのメリットとその応用例について
プログラマ目線から見たRDMAのメリットと その応用例についてMasanori Itoh
 

Tendances (20)

ML2/OVN アーキテクチャ概観
ML2/OVN アーキテクチャ概観ML2/OVN アーキテクチャ概観
ML2/OVN アーキテクチャ概観
 
L3HA-VRRP-20141201
L3HA-VRRP-20141201L3HA-VRRP-20141201
L3HA-VRRP-20141201
 
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
 
PG-REXで学ぶPacemaker運用の実例
PG-REXで学ぶPacemaker運用の実例PG-REXで学ぶPacemaker運用の実例
PG-REXで学ぶPacemaker運用の実例
 
BGP Unnumbered で遊んでみた
BGP Unnumbered で遊んでみたBGP Unnumbered で遊んでみた
BGP Unnumbered で遊んでみた
 
FD.io VPP事始め
FD.io VPP事始めFD.io VPP事始め
FD.io VPP事始め
 
10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化
 
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行
 
「ネットワーク超入門 IPsec VPN編」
「ネットワーク超入門 IPsec VPN編」「ネットワーク超入門 IPsec VPN編」
「ネットワーク超入門 IPsec VPN編」
 
大規模DCのネットワークデザイン
大規模DCのネットワークデザイン大規模DCのネットワークデザイン
大規模DCのネットワークデザイン
 
DPDKによる高速コンテナネットワーキング
DPDKによる高速コンテナネットワーキングDPDKによる高速コンテナネットワーキング
DPDKによる高速コンテナネットワーキング
 
3GPP TS 38.300-100まとめ
3GPP TS 38.300-100まとめ3GPP TS 38.300-100まとめ
3GPP TS 38.300-100まとめ
 
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行
 
"SRv6の現状と展望" ENOG53@上越
"SRv6の現状と展望" ENOG53@上越"SRv6の現状と展望" ENOG53@上越
"SRv6の現状と展望" ENOG53@上越
 
3GPP F1インターフェース(TS38.470-f50)の概要
3GPP F1インターフェース(TS38.470-f50)の概要3GPP F1インターフェース(TS38.470-f50)の概要
3GPP F1インターフェース(TS38.470-f50)の概要
 
ロードバランスへの長い道
ロードバランスへの長い道ロードバランスへの長い道
ロードバランスへの長い道
 
Linux packet-forwarding
Linux packet-forwardingLinux packet-forwarding
Linux packet-forwarding
 
Multi Chassis LAG for Cloud builders
Multi Chassis LAG for Cloud buildersMulti Chassis LAG for Cloud builders
Multi Chassis LAG for Cloud builders
 
Service Function Chaining with SRv6
Service Function Chaining with SRv6Service Function Chaining with SRv6
Service Function Chaining with SRv6
 
プログラマ目線から見たRDMAのメリットと その応用例について
プログラマ目線から見たRDMAのメリットとその応用例についてプログラマ目線から見たRDMAのメリットとその応用例について
プログラマ目線から見たRDMAのメリットと その応用例について
 

Similaire à Container Networking Deep Dive

Lagopusで試すL3ルーティング + α (Lagopusの設定方法いろいろ)
Lagopusで試すL3ルーティング + α (Lagopusの設定方法いろいろ)Lagopusで試すL3ルーティング + α (Lagopusの設定方法いろいろ)
Lagopusで試すL3ルーティング + α (Lagopusの設定方法いろいろ)Tomoya Hibi
 
20150715 xflow kikuta_final
20150715 xflow kikuta_final20150715 xflow kikuta_final
20150715 xflow kikuta_finalKazumasa Ikuta
 
Lagopus workshop@Internet weekのそば
Lagopus workshop@Internet weekのそばLagopus workshop@Internet weekのそば
Lagopus workshop@Internet weekのそばYoshihiro Nakajima
 
Lagopus + DockerのDPDK接続
Lagopus + DockerのDPDK接続Lagopus + DockerのDPDK接続
Lagopus + DockerのDPDK接続Tomoya Hibi
 
Lagopus Router v19.07.1
Lagopus Router v19.07.1Lagopus Router v19.07.1
Lagopus Router v19.07.1Tomoya Hibi
 
Trema day 1
Trema day 1Trema day 1
Trema day 1ykuga
 
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成Takashi Kanai
 
KubeCon EU報告(ランタイム関連,イメージ関連)
KubeCon EU報告(ランタイム関連,イメージ関連)KubeCon EU報告(ランタイム関連,イメージ関連)
KubeCon EU報告(ランタイム関連,イメージ関連)Akihiro Suda
 
Lagopusで試すFW
Lagopusで試すFWLagopusで試すFW
Lagopusで試すFWTomoya Hibi
 
ネットワークプログラマビリティ勉強会
ネットワークプログラマビリティ勉強会ネットワークプログラマビリティ勉強会
ネットワークプログラマビリティ勉強会Tomoya Hibi
 
[D20] 高速Software Switch/Router 開発から得られた高性能ソフトウェアルータ・スイッチ活用の知見 (July Tech Fest...
[D20] 高速Software Switch/Router 開発から得られた高性能ソフトウェアルータ・スイッチ活用の知見 (July Tech Fest...[D20] 高速Software Switch/Router 開発から得られた高性能ソフトウェアルータ・スイッチ活用の知見 (July Tech Fest...
[D20] 高速Software Switch/Router 開発から得られた高性能ソフトウェアルータ・スイッチ活用の知見 (July Tech Fest...Tomoya Hibi
 
loggregator update
loggregator updateloggregator update
loggregator updateKen Ojiri
 
Interrupt Affinityについて
Interrupt AffinityについてInterrupt Affinityについて
Interrupt AffinityについてTakuya ASADA
 
openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713Takehiro Kudou
 
Osc2012 tokyo fall_home_san_nayamaguti
Osc2012 tokyo fall_home_san_nayamagutiOsc2012 tokyo fall_home_san_nayamaguti
Osc2012 tokyo fall_home_san_nayamagutiNoriyuki Yamaguchi
 
Getting Started with Jetson Nano
Getting Started with Jetson NanoGetting Started with Jetson Nano
Getting Started with Jetson NanoNVIDIA Japan
 
実践 WebRTC 〜最新事例と開発ノウハウの紹介〜
実践 WebRTC 〜最新事例と開発ノウハウの紹介〜実践 WebRTC 〜最新事例と開発ノウハウの紹介〜
実践 WebRTC 〜最新事例と開発ノウハウの紹介〜Yusuke Naka
 

Similaire à Container Networking Deep Dive (20)

Lagopusで試すL3ルーティング + α (Lagopusの設定方法いろいろ)
Lagopusで試すL3ルーティング + α (Lagopusの設定方法いろいろ)Lagopusで試すL3ルーティング + α (Lagopusの設定方法いろいろ)
Lagopusで試すL3ルーティング + α (Lagopusの設定方法いろいろ)
 
20150715 xflow kikuta_final
20150715 xflow kikuta_final20150715 xflow kikuta_final
20150715 xflow kikuta_final
 
Lagopus workshop@Internet weekのそば
Lagopus workshop@Internet weekのそばLagopus workshop@Internet weekのそば
Lagopus workshop@Internet weekのそば
 
Lagopus + DockerのDPDK接続
Lagopus + DockerのDPDK接続Lagopus + DockerのDPDK接続
Lagopus + DockerのDPDK接続
 
Lagopus Router v19.07.1
Lagopus Router v19.07.1Lagopus Router v19.07.1
Lagopus Router v19.07.1
 
Trema day 1
Trema day 1Trema day 1
Trema day 1
 
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成
KubernetesとFlannelでWindows上にPod間VXLAN Overlayネットワークを構成
 
製品コンフィグレーションガイド
製品コンフィグレーションガイド製品コンフィグレーションガイド
製品コンフィグレーションガイド
 
KubeCon EU報告(ランタイム関連,イメージ関連)
KubeCon EU報告(ランタイム関連,イメージ関連)KubeCon EU報告(ランタイム関連,イメージ関連)
KubeCon EU報告(ランタイム関連,イメージ関連)
 
Lagopusで試すFW
Lagopusで試すFWLagopusで試すFW
Lagopusで試すFW
 
ネットワークプログラマビリティ勉強会
ネットワークプログラマビリティ勉強会ネットワークプログラマビリティ勉強会
ネットワークプログラマビリティ勉強会
 
osoljp 2011.08
osoljp 2011.08osoljp 2011.08
osoljp 2011.08
 
[D20] 高速Software Switch/Router 開発から得られた高性能ソフトウェアルータ・スイッチ活用の知見 (July Tech Fest...
[D20] 高速Software Switch/Router 開発から得られた高性能ソフトウェアルータ・スイッチ活用の知見 (July Tech Fest...[D20] 高速Software Switch/Router 開発から得られた高性能ソフトウェアルータ・スイッチ活用の知見 (July Tech Fest...
[D20] 高速Software Switch/Router 開発から得られた高性能ソフトウェアルータ・スイッチ活用の知見 (July Tech Fest...
 
loggregator update
loggregator updateloggregator update
loggregator update
 
Interrupt Affinityについて
Interrupt AffinityについてInterrupt Affinityについて
Interrupt Affinityについて
 
openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713openstack_neutron-dvr_os5thaniv_20150713
openstack_neutron-dvr_os5thaniv_20150713
 
Osc2012 tokyo fall_home_san_nayamaguti
Osc2012 tokyo fall_home_san_nayamagutiOsc2012 tokyo fall_home_san_nayamaguti
Osc2012 tokyo fall_home_san_nayamaguti
 
Getting Started with Jetson Nano
Getting Started with Jetson NanoGetting Started with Jetson Nano
Getting Started with Jetson Nano
 
実践 WebRTC 〜最新事例と開発ノウハウの紹介〜
実践 WebRTC 〜最新事例と開発ノウハウの紹介〜実践 WebRTC 〜最新事例と開発ノウハウの紹介〜
実践 WebRTC 〜最新事例と開発ノウハウの紹介〜
 
Lagopus Router
Lagopus RouterLagopus Router
Lagopus Router
 

Plus de Hirofumi Ichihara

[RECAP] Blackholes and Wormholes: Understand and Troubleshoot the “Magic” of ...
[RECAP] Blackholes and Wormholes: Understand and Troubleshoot the “Magic” of ...[RECAP] Blackholes and Wormholes: Understand and Troubleshoot the “Magic” of ...
[RECAP] Blackholes and Wormholes: Understand and Troubleshoot the “Magic” of ...Hirofumi Ichihara
 
Openconfigを用いたネットワーク機器操作
Openconfigを用いたネットワーク機器操作Openconfigを用いたネットワーク機器操作
Openconfigを用いたネットワーク機器操作Hirofumi Ichihara
 
OSSコミッタの生活とその必要性
OSSコミッタの生活とその必要性OSSコミッタの生活とその必要性
OSSコミッタの生活とその必要性Hirofumi Ichihara
 
OpenStack Neutron プロジェクトから見たソフトウェアスイッチ動向
OpenStack Neutron プロジェクトから見たソフトウェアスイッチ動向OpenStack Neutron プロジェクトから見たソフトウェアスイッチ動向
OpenStack Neutron プロジェクトから見たソフトウェアスイッチ動向Hirofumi Ichihara
 
OpenStack Project Update Neutron Update
OpenStack Project Update Neutron UpdateOpenStack Project Update Neutron Update
OpenStack Project Update Neutron UpdateHirofumi Ichihara
 
Summit前にやることTODO
Summit前にやることTODOSummit前にやることTODO
Summit前にやることTODOHirofumi Ichihara
 
NFV Infrastructure Manager with High Performance Software Switch Lagopus
NFV Infrastructure Manager with High Performance Software Switch Lagopus NFV Infrastructure Manager with High Performance Software Switch Lagopus
NFV Infrastructure Manager with High Performance Software Switch Lagopus Hirofumi Ichihara
 
Report of OpenStack Ops Meetup Palo Alto (in Japanese)
Report of OpenStack Ops Meetup Palo Alto (in Japanese)Report of OpenStack Ops Meetup Palo Alto (in Japanese)
Report of OpenStack Ops Meetup Palo Alto (in Japanese)Hirofumi Ichihara
 

Plus de Hirofumi Ichihara (10)

OSS光と闇
OSS光と闇OSS光と闇
OSS光と闇
 
[RECAP] Blackholes and Wormholes: Understand and Troubleshoot the “Magic” of ...
[RECAP] Blackholes and Wormholes: Understand and Troubleshoot the “Magic” of ...[RECAP] Blackholes and Wormholes: Understand and Troubleshoot the “Magic” of ...
[RECAP] Blackholes and Wormholes: Understand and Troubleshoot the “Magic” of ...
 
Openconfigを用いたネットワーク機器操作
Openconfigを用いたネットワーク機器操作Openconfigを用いたネットワーク機器操作
Openconfigを用いたネットワーク機器操作
 
OSSコミッタの生活とその必要性
OSSコミッタの生活とその必要性OSSコミッタの生活とその必要性
OSSコミッタの生活とその必要性
 
OpenStack Neutron プロジェクトから見たソフトウェアスイッチ動向
OpenStack Neutron プロジェクトから見たソフトウェアスイッチ動向OpenStack Neutron プロジェクトから見たソフトウェアスイッチ動向
OpenStack Neutron プロジェクトから見たソフトウェアスイッチ動向
 
OpenStack Project Update Neutron Update
OpenStack Project Update Neutron UpdateOpenStack Project Update Neutron Update
OpenStack Project Update Neutron Update
 
Summit前にやることTODO
Summit前にやることTODOSummit前にやることTODO
Summit前にやることTODO
 
NFV Infrastructure Manager with High Performance Software Switch Lagopus
NFV Infrastructure Manager with High Performance Software Switch Lagopus NFV Infrastructure Manager with High Performance Software Switch Lagopus
NFV Infrastructure Manager with High Performance Software Switch Lagopus
 
Neutron CI Run on Docker
Neutron CI Run on DockerNeutron CI Run on Docker
Neutron CI Run on Docker
 
Report of OpenStack Ops Meetup Palo Alto (in Japanese)
Report of OpenStack Ops Meetup Palo Alto (in Japanese)Report of OpenStack Ops Meetup Palo Alto (in Japanese)
Report of OpenStack Ops Meetup Palo Alto (in Japanese)
 

Container Networking Deep Dive

  • 1. Copyright©2018 NTT corp. All Rights Reserved. 1 Container Networking Deep Dive 日本電信電話株式会社 ソフトウェアイノベーションセンタ 市原 裕史
  • 2. 2Copyright©2018 NTT corp. All Rights Reserved. 自己紹介 市原 裕史 • 所属 • NTT SIC 分散処理基盤技術プロジェクト • OpenStack Developer • Neutron Core Reviewer、その他プロジェクトへの貢献 • 技術: SDN/NFV中心 • パブリッククラウドの開発 • LinuxconでDPDKの性能の発表 • Neutronへの機能提案 • Docker Network Plugin開発
  • 3. 3Copyright©2018 NTT corp. All Rights Reserved. Container Orchestration Tools
  • 4. 4Copyright©2018 NTT corp. All Rights Reserved. CNI vs CNM • Container Network Model (CNM) • Container Network Interface (CNI) CNM IPAM プラグイン CNM Network プラグイン Get/Release Pool Create/Delete Network Create/Delete Endpoint Join/Leave Endpoint CNI プラグイン Add/Remove interface Get/Release IP Address
  • 5. 5Copyright©2018 NTT corp. All Rights Reserved. ベアメタルから仮想ネットワーク ファイアウォール ロードバランサ L2スイッチ サーバ ルータ VM Compute node vSwitch VM vRouter vFW Network node vLB vSwitch VMVM
  • 6. 6Copyright©2018 NTT corp. All Rights Reserved. コンテナネットワーク Worker Container Container Container Container Container Container Router + FW + LB + Switch
  • 7. 7Copyright©2018 NTT corp. All Rights Reserved. コンテナネットワーク技術 Router + FW + LB + Switch • Linux bridge, veth, routing • iptables • OpenVSwitch, VPP
  • 8. 8Copyright©2018 NTT corp. All Rights Reserved. 検証環境 version 1.10.0 by kubeadm version 18.03.0-ce version 0.9.1 calico version 3.0.4 cni version 2.0.3
  • 9. 9Copyright©2018 NTT corp. All Rights Reserved. flannel • シンプルで簡単な設定でL3ネットワークを利用可能 • k8s APIを使用することで外部DB不要 • Network Policyには未対応
  • 10. 10Copyright©2018 NTT corp. All Rights Reserved. ホストインターフェース構成 ens7: 192.168.33.11/24 flannel.1: 10.244.3.0/32 cni0: 10.244.3.1/24 Pod A eth0: 10.244.3.x/24 eth0: 192.168.33.12/24 flannel.1: 10.244.2.0/32 cni0: 10.244.2.1/24 Pod B eth0: 10.244.2.y/24 $ ip a 3: ens7: <BROADCAST,MULTICAST,UP,LOWER_UP> inet 192.168.33.11/24 brd 192.168.33.255 scope global ens7 6: flannel.1: <BROADCAST,MULTICAST,UP,LOWER_UP> inet 10.244.3.0/32 scope global flannel.1 7: cni0: <BROADCAST,MULTICAST,UP,LOWER_UP> inet 10.244.3.1/24 scope global cni0
  • 11. 11Copyright©2018 NTT corp. All Rights Reserved. vxlan インターフェース $ ip -d link show flannel.1 6: flannel.1: <BROADCAST,MULTICAST,UP,LOWER_UP vxlan id 1 local 192.168.33.11 dev ens7 srcport 0 0 dstport 8472 ens7: 192.168.33.11/24 flannel.1: 10.244.3.0/32 vxlan id 1 dev ens7 cni0: 10.244.3.1/24 Pod A eth0: 10.244.3.x/24 eth0: 192.168.33.12/24 flannel.1: 10.244.2.0/32 vxlan id 1 dev ens7 cni0: 10.244.2.1/24 Pod B eth0: 10.244.2.y/24
  • 12. 12Copyright©2018 NTT corp. All Rights Reserved. ルーティング構成 (1 route) $ ip r 10.244.2.0/24 via 10.244.2.0 dev flannel.1 onlink ens7: 192.168.33.11/24 flannel.1: 10.244.3.0/32 cni0: 10.244.3.1/24 Pod A eth0: 10.244.3.x/24 eth0: 192.168.33.12/24 flannel.1: 10.244.2.0/32 cni0: 10.244.2.1/24 Pod B eth0: 10.244.2.y/24 to: Pod B to: Pod A
  • 13. 13Copyright©2018 NTT corp. All Rights Reserved. パケット処理 (1arp, 1FDB entry) ens7: 192.168.33.11/24 flannel.1: 10.244.3.0/32 vxlan id 1 dev ens7 cni0: 10.244.3.1/24 Pod A eth0: 10.244.3.x/24 eth0: 192.168.33.12/24 flannel.1: 10.244.2.0/32 vxlan id 1 dev ens7 mac: 22:f7:97:a0:9c:55 cni0: 10.244.2.1/24 Pod B eth0: 10.244.2.y/24 $ ip n 10.244.2.0 dev flannel.1 lladdr 22:f7:97:a0:9c:55 PERMANENT $ bridge fdb show dev flannel.1 22:f7:97:a0:9c:55 dst 192.168.33.12 self permanent to: Pod B (to: 22:f7:97:a0:9c:55 ) to: Pod B (to: 22:f7:97:a0:9c:55 )
  • 14. 14Copyright©2018 NTT corp. All Rights Reserved. vxlan 情報反映契機 // How it works: // Create the vxlan device but don't register for any L2MISS or L3MISS messages // Then, as each remote host is discovered (either on startup or when they are added), do the following // 1) create routing table entry for the remote subnet. It goes via the vxlan device but also specifies a next hop (of the remote flannel host). // 2) Create a static ARP entry for the remote flannel host IP address (and the VTEP MAC) // 3) Create an FDB entry with the VTEP MAC and the public IP of the remote flannel daemon. // // In this scheme the scaling of table entries is linear to the number of remote hosts - 1 route, 1 arp entry and 1 FDB entry per host https://github.com/coreos/flannel/blob/master/backend/vxlan/vxlan.go#L43-L50 • 10.244.2.0/24 via 10.244.2.0 dev flannel.1 onlink • 10.244.2.0 dev flannel.1 lladdr 22:f7:97:a0:9c:55 PERMANENT • 22:f7:97:a0:9c:55 dst 192.168.33.12 self permanent
  • 15. 15Copyright©2018 NTT corp. All Rights Reserved. flannel CNI 適用後の iptables filter 差分 -A FORWARD -s 10.244.0.0/16 -j ACCEPT -A FORWARD -d 10.244.0.0/16 -j ACCEPT ens7: 192.168.33.11/24 flannel.1: 10.244.3.0/32 cni0: 10.244.3.1/24 Pod A eth0: 10.244.3.x/24 eth0: 192.168.33.12/24 flannel.1: 10.244.2.0/32 cni0: 10.244.2.1/24 Pod B eth0: 10.244.2.y/24 to: Pod B to: Pod A
  • 16. 16Copyright©2018 NTT corp. All Rights Reserved. Calico • シンプルなL3ルーティングを利用 • BGPを用いてルーティング情報を伝搬可能 • IPIPによるトンネリングにも対応 • Network Policyに対応
  • 17. 17Copyright©2018 NTT corp. All Rights Reserved. ホストインタフェース ens7: 192.168.33.11/24 tunl0: 192.168.79.192/32 Pod A eth0: 192.168.79.x/32 eth0: 192.168.33.12/24 tunl0 Pod B $ ip a 5: tunl0@NONE: <NOARP,UP,LOWER_UP> link/ipip 0.0.0.0 brd 0.0.0.0 inet 192.168.79.192/32 brd 192.168.79.192 scope global tunl0 9: calic4324f5b021@if4: <BROADCAST,MULTICAST,UP,LOWER_UP> link/ether ee:ee:ee:ee:ee:ee brd ff:ff:ff:ff:ff:ff link-netnsid 0 calic4324f5b021 eth0: 192.168.179.y/32 caliYYYY
  • 18. 18Copyright©2018 NTT corp. All Rights Reserved. ルーティング構成 $ ip r 192.168.179.0/26 via 192.168.33.12 dev tunl0 proto bird onlink 192.168.79.194 dev calic4324f5b021 scope link ens7: 192.168.33.11/24 tunl0: 192.168.79.192/32 Pod A eth0: 192.168.79.194/32 eth0: 192.168.33.12/24 tunl0 Pod B calic4324f5b021 eth0: 192.168.179.y/32 caliYYYY to: Pod B to: Pod A
  • 19. 19Copyright©2018 NTT corp. All Rights Reserved. PodA から PodB への iptables filter -A FORWARD -m comment --comment "cali:wUHhoiAYhphO9Mso" -j cali-FORWARD -A cali-FORWARD -m comment --comment "cali:JV9-BRWxjz8He5Ib" -j MARK --set-xmark 0x0/0xe000000 -A cali-FORWARD -o cali+ -m comment --comment "cali:B81FOaQNZymbX9H8" -j cali-to-wl- dispatch -A cali-to-wl-dispatch -o calic4324f5b021 -m comment --comment "cali:VlIiuQZf0oRkWoyL" - g cali-tw-calic4324f5b021 -A cali-tw-calic4324f5b021 -m comment --comment "cali:zjyrnaWCVNz-MaWt" -j MARK --set- xmark 0x0/0x1000000 -A cali-tw-calic4324f5b021 -m comment --comment "cali:uTf5kcRs6DeXSj7Z" -j cali-pri- kns.default -A cali-pri-kns.default -m comment --comment "cali:5yVkkQ7pBcxxkSaE" -j MARK --set- xmark 0x1000000/0x1000000 -A cali-pri-kns.default -m comment --comment "cali:pZi5w5MrTl3DghSD" -m mark --mark 0x1000000/0x1000000 -j RETURN -A cali-tw-calic4324f5b021 -m comment --comment "cali:Z5z02E5-p7S1WwQF" -m comment - -comment "Return if profile accepted" -m mark --mark 0x1000000/0x1000000 -j RETURN -A cali-FORWARD -m comment --comment "cali:I1Ki7aNgQsJFzEpG" -m comment --comment "Policy explicitly accepted packet." -m mark --mark 0x1000000/0x1000000 -j ACCEPT
  • 20. 20Copyright©2018 NTT corp. All Rights Reserved. 膨大な iptables ルール $ sudo iptables-save | wc -l 235 PodA起動後のルール数 calico の場合 $ sudo iptables-save | wc -l 85 PodA起動後のルール数 flannel の場合 calico の場合 1 Pod 起動毎16ルール増加する
  • 21. 21Copyright©2018 NTT corp. All Rights Reserved. IPIP パケット ens7: 192.168.33.11/24 tunl0: 192.168.79.192/32 Pod A eth0: 192.168.79.194/32 eth0: 192.168.33.12/24 tunl0 Pod B calic4324f5b021 eth0: 192.168.179.y/32 caliYYYY to: Pod B to: Pod A IP 192.168.33.11 > 192.168.33.12: IP 192.168.79.194 > 192.168.179.2: ICMP echo request, id 53, seq 1, length 64 (ipip-proto-4) IP 192.168.33.12 > 192.168.33.11: IP 192.168.179.2 > 192.168.79.194: ICMP echo reply, id 53, seq 1, length 64 (ipip-proto-4)
  • 22. 22Copyright©2018 NTT corp. All Rights Reserved. トンネリングプロトコル Pod A eth0: 192.168.1.10 Pod B eth0: 192.168.2.10 eth0: 10.0.1.100 eth0: 10.0.2.200 192.168.1.10 192.168.2.20 知らない to: 10.0.2.200 to: 192.168.2.10 to: 192.168.2.10 to: 192.168.2.10 パフォーマンスボトルネック
  • 23. 23Copyright©2018 NTT corp. All Rights Reserved. パフォーマンス改善 • オフロード機能を適切に設定する • VXLANハードウェアオフロード • トンネリングプロトコルを用いない • Flannel: host-gw モード • Calico: ルータへのBGP伝搬 • DPDKやXDPなどのパケット処理高速化技術を用いる
  • 24. 24Copyright©2018 NTT corp. All Rights Reserved. Network Policy all deny ポリシー設定後に特定のラベルを持つ Pod のア クセス許可ポリシー作成し Pod(192.168.79.203) 起動 -A cali-pi-_PfqSzIS1AirpjL0oXbg -m comment --comment "cali:8wIHtkclEDHwaHZ2" -m set --match-set cali4- s:AMAB7BNa5u3MmIiwZrblkWt src -j MARK --set-xmark 0x1000000/0x1000000 $ sudo ipset list cali4-s:AMAB7BNa5u3MmIiwZrblkWt Name: cali4-s:AMAB7BNa5u3MmIiwZrblkWt Type: hash:ip Revision: 4 Header: family inet hashsize 1024 maxelem 1048576 Size in memory: 176 References: 3 Members: 192.168.79.203
  • 25. 25Copyright©2018 NTT corp. All Rights Reserved. ネットワークと向き合う • tcpdumpしながら膨大なiptablesルールとlinux network設定を読み解く • 実際にハマった問題→ https://github.com/coreos/flannel/commit/5df82dcbcb102 05c419f2a9829c9a50e1e566352 • 実環境、サービス要件から適切なプラグイン、ネットワー ク構成を選択する