Breaking Open Apache Geode: How It Works and Why

Apache Geode Summit 2019
Breaking Open Apache Geode - Dan Smith, Pivotal
Dan
Da

What is Geode?
● Distributed key-value store Client
Put (key, value)
Server
Server
Server

● Distributed key-value store
● Highly available
What is Geode?
Client
Put (key, value)
Server
Server
Server

● Low Latency
What is Geode?
Client
Put (key, value)
Server
Server
< 1ms
Whoah!

● Low Latency
● Consistent and Partition Tolerant
What is Geode
Client
Put (key, value)
Server
Server
Oh, no! A network partition!

● Two types of regions
What is Geode
Client
Put (A)
Replicated
Server A
Server
Server
A
A
A

● Two types of regions
What is Geode
Client
Put (A)
Replicated
Server A
Server
Server
A
A
A
Partitioned
Server A
Server
Server
B
A

What is Geode
● Keys and Values are Objects (Java, C++, C#, JSON)
● Has
○ Secondary Indexes & Querying
○ Continuous Queries
○ Transactions
○ Persistence
○ WAN replication
○ Event delivery
○ Parallel functions
○ ...

Components
1
1
Membership
Distributed Locks Replicated Regions
Partitioned Regions
Function Execution
Serialization Messaging Persistence
Indexes
Querying
WAN ReplicationStatistics

Components
1
2
Membership
Partitioned Regions
Function Execution
Indexes
Querying
WAN ReplicationStatistics
Partitioned Regions

Components
1
3
Membership
Partitioned Regions
Function Execution
Indexes
Querying
WAN ReplicationStatisticsPartitioned Regions
- Partitioning & Routing
- High Availability
- Consistency
- Recovery and Rebalancing

● A partitioned regions is divided into buckets
Partitioned Regions
Put (“Marie
Tharp”, value)
Bucket 0
Bucket 1
Bucket 2
Bucket 3
Bucket N
hash = “Marie Tharp”.hashCode()
bucket = hash % num_buckets

Server 2
Server 1
Server 3
● Buckets are mapped to servers
Partitioned Regions
Put (“Marie
Tharp”, value)
Bucket 0
Bucket 3
Bucket N
Bucket 1
Bucket 2
hash = “Marie Tharp”.hashCode()
bucket = hash % num_buckets

What about?
● How does data get to a bucket?
● How does geode handle failures?
● How does geode ensure data is consistent?
● How are lost bucket copies replaced?
● How do we improve data distribution?

Placing Buckets

Server 2
Server 1
Client
Partitioned Regions - Lazy Creation
Put
(key, value)
Hash
Function
Put in
Bucket 2
Routing
Table
(empty)
Server 3 Proxy

Server 2
Server 1
Client
Partitioned Regions - Lazy Creation
Put
(key, value)
Hash
Function
Routing
Table
(empty)
Server 3
Bucket 2
key=value
Proxy
Create Bucket!

Server 2
Server 1
Client
Partitioned Regions - Lazy Discovery
Routing
Table
(empty)
Server 3
Bucket 2
key=value
Proxy
Reply -
Bucket
Metadata
Changed!

Server 2
Server 1
Client
Routing
Table
Server 3
Bucket 2
key=value
Proxy
Get Bucket
Locations

Server 2
Server 1
Client
Put
(key, value)
Hash
Function
Put in
Bucket
Bucket 2
key=value
Routing
Table
Bucket 2
Server 3

High Availability

Server 2
Server 1
Client
Partitioned Regions - High Availability
Put
(key, value)
Hash
Function
Put in
Bucket
Routing
Table
Bucket 2
Server 3
Bucket 2
key=value

Server 2
Server 1
Client
Partitioned Regions - High Availability
Put
(key, value)
Hash
Function
Put in
Bucket
Routing
Table
Bucket 2
Server 3
Bucket 2
key=value
Bucket 2
key=value

Server 2
Server 1
Client
Partitioned Regions - Failover
Put
(key, value)
Hash
Function
Put in
Bucket
Bucket 2
key=value
Routing
Table
Bucket 2
Server 3
Bucket 2
key=value

Consistency
● How do we add/remove servers?

Server 2
Server 1
Client 1
Consistency - Ships Passing in the Night
Put (key, value1)
Bucket 2
key=value1
Server 3
Client 2
Put (key, value2)
Bucket 2
key=value2

Server 2
Server 1
Client 1
Consistency - Ships Passing in the Night
Put (key, value1)
Bucket 2
key=value2
Server 3
Client 2
Put (key, value2)
Bucket 2
key=value1

Consistency

Server 2
Server 1
Client 1
Consistency
Put (key, value1)
Bucket 2
key=value2
Server 3
Client 2
Put (key, value2)
Bucket 2
key=value2
Operations on key
Serialized on primary

Server 2
Server 1
Client
Consistency - Lingering Operations
Put
(key, value)
Hash
Function
Put in
Bucket
Bucket 2
key=value
Routing
Table
Bucket 2
Server 3
Bucket 2
key=value

Server 2
Client
Consistency - Lingering Operations
Server 3
Bucket 2
key=value
Old, lingering event
(key, value, Event ID)Put
(key, value1) Hash
Function
Routing
Table
Bucket 2
Event
Tracker
(key, value, Event ID)

Server 2
Server 1
Client 1
Consistency - Network Partitions
Put (key, value1)
Bucket 2
key=value2
Client 2
Bucket 2
key=value2

Server 2
Server 1
Client 1
Put (key, value1)
Bucket 2
key=value1
Client 2
Put (key, value2)
Bucket 2
key=value2

Server 2
Server 1
Client 1
Put (key, value1)
Bucket 2
key=value2
Client 2
Put (key, value2)
Bucket 2
key=value2

Restoring Redundancy

Partitioned Regions - Redundancy Recovery
Start
Server 4Server 2
Bucket 2
Redundancy
Provider
Redundancy
Provider
Server 3
Redundancy
Provider
Start
Start

Server 4Server 2
Bucket 2
Redundancy
Provider
Redundancy
Provider
Server 3
Redundancy
Provider
Got a lock!

Server 4Server 2
Bucket 2
Redundancy
Provider
Redundancy
Provider
Server 3
Redundancy
Provider
Bucket 2
Make a copy!
Copy Bucket

Server 4Server 2
Bucket 2
Redundancy
Provider
Redundancy
Provider
Server 3
Redundancy
Provider
Nothing to Do
Bucket 2

Nothing to Do
Server 4Server 2
Bucket 2
Redundancy
Provider
Redundancy
Provider
Server 3
Redundancy
Provider
Bucket 2

Rebalancing
● How do improve data distribution?

Rebalancing - What are we optimizing
● Cost based optimizer
● Minimizes the variance in
bytes stored on each member
● Greedy algorithm
○ Maximize the
improvement in variance
per byte moved
Bucket 1
Bucket 3
Bucket 2Server 1
Bucket 1
Bucket 3
Bucket 2
Variance: 1600 Server 2
Server 3
60
0
0

Server 3
Server 1
Server 2
○ Maximize the
per byte moved
Bucket 1
Bucket 3
Bucket 2
Variance: 1050
45
15
0

Server 3
Server 1
Server 2
○ Maximize the
per byte moved
Bucket 1
Bucket 3
Bucket 2
Variance: 150
30
15
15

Rebalancing - what does it do?
Three Phases
1. Restore Redundancy
2. Optimize bucket distribution
3. Optimize primary distribution
Membership changes start from phase 1 again.

Putting it Together
● Start with the simple idea: Hashing
● Using - Laziness, Duplication, Bossyness and Greed
● Get
○ High Availability
○ Low Latency
○ Consistency

Links
● Mailing List: dev-subscribe@geode.apache.org
● Internal Architecture: https://cwiki.apache.org/confluence/x/AolXAw

Breaking Open Apache Geode: How It Works and Why

Recommended

Recommended

More Related Content

What's hot

What's hot (14)

Similar to Breaking Open Apache Geode: How It Works and Why

Similar to Breaking Open Apache Geode: How It Works and Why (20)

More from VMware Tanzu

More from VMware Tanzu (20)

Recently uploaded

Recently uploaded (20)

Breaking Open Apache Geode: How It Works and Why