SlideShare une entreprise Scribd logo
1  sur  25
Hurtownie dla DBA
PLSSUG Trójmiasto – 23.02.2016
Przemysław Dzierżak
Cel prezentacji
• Składowe hurtowni danych i ich zadania
• Różnice pomiędzy hurtowniami a systemami transakcyjnymi
O mnie
• „Hurtownik”
• Wcześniej programista C#
• Praktycznie, automatycznie, prosto
• Zwolennik LEAN / Agile
Co to hurtownia danych?
• Baza danych
• O specyficznej budowie
• Przeznaczenie analizy i raportowanie
Zwykle:
• Łączy wiele źródeł danych
• Ujednolica dane
• Dane historyczne
Budowa hurtowni
Dla osób bez licencji na wózki widłowe ;)
Dobowy cykl życia hurtowni
Używanie
(SELECT)
Ładowane
(INSERT)
Model danych
• Fakt – co liczymy?
(SUM, AVG, COUNT…)
• Liczba zamówień
• Wartość sprzedaży
• Wymiar – wg czego?
(GROUP BY)
• Daty
• Położenia klienta
• Oddziału
• …
Model danych
– gwiazda
Model
danych
– płatek
śniegu
Hurtownia vs kostka
Baza o specyficznej strukturze
i specyficznym sposobie użycia
Kostka – fragment hurtowni
Hurtownia i kostka - narzędzia
• Hurtownia:
• MSSQL
• Kostki:
• MSSQL
• SSAS
• QlikView itp.
Zasilanie hurtowni
Budowa procesu E – T – L
FK, Magazyn, Kadry
CallCenter
Budżet
Extract Transform Load
HurtowniaBaza pośrednia
(Stage)
Baza pośrednia
(OLTP Mirror)
Proces ETL - narzędzia
• Dedykowane narzędzia (SSIS, OWB, … Data Integration, …)
• SQL
• BCPY, usługi replikacyjne, backup/restore
• Programy/skrypty
Specyfika działania hurtowni
ETL dla DBA
• Nowe narzędzie SSIS
• Kopiowanie dużych wolumenów danych
• Okienko czasowe w nocy
• Uprawnienia w systemach źródłowych i między systemami (hurtownia
– system OLTP)
Baza hurtowniana
• Duża baza
• Przemyślenie scenariusza backupu
• Przekrojowe zapytania (SELECT … GROUP BY…)
• Brak zakleszczeń
• Rozważenie RecoveryModel = SIMPLE (min. bazy pośrednie)
Indeksowanie hurtowni
• Czas ładowania vs. czas zapytań
• Wymiary:
• Identyfikatory z systemów źródłowych: clustered
• Identyfikatory sztuczne – hurtowni: nonclustered
• Ew. często używane parametry: nonclustered
• Fakty:
• Czas (duże fakty – dobry kandydat na partycje)
• Na najczęstszych przecięciach
• ColumnStore Index!
• Kompresja
Indeksowanie baz pośrednich
• Zapytania wykonywane raz na ładowanie – często nie warto
indeksować
• Skoordynowane z logiką ETL
Co gdy hurtowni nie ma?
…a biznes jest 
Rozproszone środowisko raportowe
• 500 tabel
• 300 skryptów SQL
• Wiele wersji prawdy
• Utrzymanie?
Sprzedaż, raport dla X
Sprzedaż, raport dla Y
Raport HR
Raport dla prezesa
Sprzedaż, nowy raport
Call Center, wydajność
Call Center, premie
HR, rotacja
Marketing, kampanie
…
Mini - hurtownia
• Jedna tabela z mnóstwem kolumn
Niby ok, ale:
• Tylko jedna granularność
• Kopiowanie danych opisowych
• Problem gdy się rozrasta
Kwota Marża
1
Marża
2
Data
sprzedaży
Data
zakupu
Klient Miasto
klienta
Kod
poczt
Oddział Sprzeda
wca
Podsumowanie
• Budowa hurtowni
• ETL
• Specyfika hurtowni
• Strategie indeksowania
Pytania ?
Dziękuję za uwagę
Przemysław Dzierżak
przemyslaw@dzierzak.eu

Contenu connexe

Similaire à Przemysław Dzierżak: Hurtownie dla DBA

Analizy danych w chmurze
Analizy danych w chmurzeAnalizy danych w chmurze
Analizy danych w chmurzenubitech
 
Typowe problemy podczas migracji sklepu
Typowe problemy podczas migracji sklepuTypowe problemy podczas migracji sklepu
Typowe problemy podczas migracji sklepuLukasz Plutecki
 
Roman Czarko-Wasiutycz- Projektowanie baz danych
Roman Czarko-Wasiutycz- Projektowanie baz danychRoman Czarko-Wasiutycz- Projektowanie baz danych
Roman Czarko-Wasiutycz- Projektowanie baz danychWomen in Technology Poland
 
20181004 Hubert Kobierzewski - Jakość danych w organizacji
20181004 Hubert Kobierzewski - Jakość danych w organizacji20181004 Hubert Kobierzewski - Jakość danych w organizacji
20181004 Hubert Kobierzewski - Jakość danych w organizacjiHubert Kobierzewski
 
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Piotr Czarnas
 
Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Ireneusz Chmielak
 
Zasilanie hurtowni danych w SSIS w praktyce
Zasilanie hurtowni danych w SSIS w praktyceZasilanie hurtowni danych w SSIS w praktyce
Zasilanie hurtowni danych w SSIS w praktyceKamil Nowinski
 
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdfSQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdfSeeQuality.net
 
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...Oktawian Kitala
 
Logi dla dużych firm_Tameshi na AWS Community Day .pdf
Logi dla dużych firm_Tameshi na AWS Community Day .pdfLogi dla dużych firm_Tameshi na AWS Community Day .pdf
Logi dla dużych firm_Tameshi na AWS Community Day .pdfTameshi Team
 
SQLServer dla Programistów
SQLServer dla ProgramistówSQLServer dla Programistów
SQLServer dla ProgramistówHighWheelSoftware
 
Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13Divante
 
Przegląd zastosowań sztucznej inteligencji (2024-01)
Przegląd zastosowań sztucznej inteligencji (2024-01)Przegląd zastosowań sztucznej inteligencji (2024-01)
Przegląd zastosowań sztucznej inteligencji (2024-01)byteLAKE
 
Jak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFrameworkJak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFrameworkHighWheelSoftware
 
SQL Server 2008 Tips & tricks administracji
SQL Server 2008 Tips & tricks administracjiSQL Server 2008 Tips & tricks administracji
SQL Server 2008 Tips & tricks administracjiSQLExpert.pl
 

Similaire à Przemysław Dzierżak: Hurtownie dla DBA (20)

Analizy danych w chmurze
Analizy danych w chmurzeAnalizy danych w chmurze
Analizy danych w chmurze
 
Typowe problemy podczas migracji sklepu
Typowe problemy podczas migracji sklepuTypowe problemy podczas migracji sklepu
Typowe problemy podczas migracji sklepu
 
Roman Czarko-Wasiutycz- Projektowanie baz danych
Roman Czarko-Wasiutycz- Projektowanie baz danychRoman Czarko-Wasiutycz- Projektowanie baz danych
Roman Czarko-Wasiutycz- Projektowanie baz danych
 
MetastudioDRM
MetastudioDRMMetastudioDRM
MetastudioDRM
 
20181004 Hubert Kobierzewski - Jakość danych w organizacji
20181004 Hubert Kobierzewski - Jakość danych w organizacji20181004 Hubert Kobierzewski - Jakość danych w organizacji
20181004 Hubert Kobierzewski - Jakość danych w organizacji
 
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
Rola analityki danych w transformacji cyfrowej firmy - ITFuture'17
 
Metastudio DRM. Opis.
Metastudio DRM. Opis.Metastudio DRM. Opis.
Metastudio DRM. Opis.
 
Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.
 
Bazy danych oraz systemy klasy business intelligence
Bazy danych oraz systemy klasy business intelligenceBazy danych oraz systemy klasy business intelligence
Bazy danych oraz systemy klasy business intelligence
 
Podstawy ETL z SSIS
Podstawy ETL z SSISPodstawy ETL z SSIS
Podstawy ETL z SSIS
 
Zasilanie hurtowni danych w SSIS w praktyce
Zasilanie hurtowni danych w SSIS w praktyceZasilanie hurtowni danych w SSIS w praktyce
Zasilanie hurtowni danych w SSIS w praktyce
 
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdfSQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
SQLDAY2022-AdrianChodkowski-10BledowPowerBI.pdf
 
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
Fundamenty SEO i SEM w Twoim sklepie - Warsztaty dla początkujących - Fox Str...
 
Logi dla dużych firm_Tameshi na AWS Community Day .pdf
Logi dla dużych firm_Tameshi na AWS Community Day .pdfLogi dla dużych firm_Tameshi na AWS Community Day .pdf
Logi dla dużych firm_Tameshi na AWS Community Day .pdf
 
SQLServer dla Programistów
SQLServer dla ProgramistówSQLServer dla Programistów
SQLServer dla Programistów
 
Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13Skalowalność Magento - MMPL13
Skalowalność Magento - MMPL13
 
Przegląd zastosowań sztucznej inteligencji (2024-01)
Przegląd zastosowań sztucznej inteligencji (2024-01)Przegląd zastosowań sztucznej inteligencji (2024-01)
Przegląd zastosowań sztucznej inteligencji (2024-01)
 
Jak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFrameworkJak nie narobić sobie problemów korzystając z EntityFramework
Jak nie narobić sobie problemów korzystając z EntityFramework
 
SQL. Od podstaw
SQL. Od podstawSQL. Od podstaw
SQL. Od podstaw
 
SQL Server 2008 Tips & tricks administracji
SQL Server 2008 Tips & tricks administracjiSQL Server 2008 Tips & tricks administracji
SQL Server 2008 Tips & tricks administracji
 

Plus de AnalyticsConf

Dawid Gonzo Kałędowski: R jako osobisty GPS
Dawid Gonzo Kałędowski: R jako osobisty GPSDawid Gonzo Kałędowski: R jako osobisty GPS
Dawid Gonzo Kałędowski: R jako osobisty GPSAnalyticsConf
 
Tor Hovland: Taking a swim in the big data lake
Tor Hovland: Taking a swim in the big data lakeTor Hovland: Taking a swim in the big data lake
Tor Hovland: Taking a swim in the big data lakeAnalyticsConf
 
Rafał Korszuń: Security in Design of Cloud Applications
Rafał Korszuń: Security in Design of Cloud ApplicationsRafał Korszuń: Security in Design of Cloud Applications
Rafał Korszuń: Security in Design of Cloud ApplicationsAnalyticsConf
 
Tomasz Kopacz: Architektura i service fabric - jak budować aplikacje w paas v2
Tomasz Kopacz: Architektura i service fabric - jak budować aplikacje w paas v2Tomasz Kopacz: Architektura i service fabric - jak budować aplikacje w paas v2
Tomasz Kopacz: Architektura i service fabric - jak budować aplikacje w paas v2AnalyticsConf
 
Wiesław Kałkus: C# functional programming
Wiesław Kałkus: C# functional programmingWiesław Kałkus: C# functional programming
Wiesław Kałkus: C# functional programmingAnalyticsConf
 
Grzegorz Rycaj: Zdebuguj swoja prezentacje
Grzegorz Rycaj: Zdebuguj swoja prezentacjeGrzegorz Rycaj: Zdebuguj swoja prezentacje
Grzegorz Rycaj: Zdebuguj swoja prezentacjeAnalyticsConf
 
Paweł Ciepły: PowerBI part1
Paweł Ciepły: PowerBI part1Paweł Ciepły: PowerBI part1
Paweł Ciepły: PowerBI part1AnalyticsConf
 
Paweł Kucharski: Oswajamy Słonia czyli po co nam Hadoop
Paweł Kucharski: Oswajamy Słonia czyli po co nam HadoopPaweł Kucharski: Oswajamy Słonia czyli po co nam Hadoop
Paweł Kucharski: Oswajamy Słonia czyli po co nam HadoopAnalyticsConf
 
Michał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonychMichał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonychAnalyticsConf
 
Shannon Holgate: Bending non-splittable data to harness distributed performance
Shannon Holgate: Bending non-splittable data to harness distributed performanceShannon Holgate: Bending non-splittable data to harness distributed performance
Shannon Holgate: Bending non-splittable data to harness distributed performanceAnalyticsConf
 
Tomasz Nadolny: Open Data in Gdańsk
Tomasz Nadolny: Open Data in GdańskTomasz Nadolny: Open Data in Gdańsk
Tomasz Nadolny: Open Data in GdańskAnalyticsConf
 
Włodek Bielski: Efektywne wdrożenie BI - z notatnika praktyka
Włodek Bielski: Efektywne wdrożenie BI - z notatnika praktykaWłodek Bielski: Efektywne wdrożenie BI - z notatnika praktyka
Włodek Bielski: Efektywne wdrożenie BI - z notatnika praktykaAnalyticsConf
 
Piotr Janczyk: Modele zachowań klientów
Piotr Janczyk: Modele zachowań klientówPiotr Janczyk: Modele zachowań klientów
Piotr Janczyk: Modele zachowań klientówAnalyticsConf
 
Alex Kornilov: Building Big Data Company in Sports-Betting Industry - BETEGY ...
Alex Kornilov: Building Big Data Company in Sports-Betting Industry - BETEGY ...Alex Kornilov: Building Big Data Company in Sports-Betting Industry - BETEGY ...
Alex Kornilov: Building Big Data Company in Sports-Betting Industry - BETEGY ...AnalyticsConf
 

Plus de AnalyticsConf (14)

Dawid Gonzo Kałędowski: R jako osobisty GPS
Dawid Gonzo Kałędowski: R jako osobisty GPSDawid Gonzo Kałędowski: R jako osobisty GPS
Dawid Gonzo Kałędowski: R jako osobisty GPS
 
Tor Hovland: Taking a swim in the big data lake
Tor Hovland: Taking a swim in the big data lakeTor Hovland: Taking a swim in the big data lake
Tor Hovland: Taking a swim in the big data lake
 
Rafał Korszuń: Security in Design of Cloud Applications
Rafał Korszuń: Security in Design of Cloud ApplicationsRafał Korszuń: Security in Design of Cloud Applications
Rafał Korszuń: Security in Design of Cloud Applications
 
Tomasz Kopacz: Architektura i service fabric - jak budować aplikacje w paas v2
Tomasz Kopacz: Architektura i service fabric - jak budować aplikacje w paas v2Tomasz Kopacz: Architektura i service fabric - jak budować aplikacje w paas v2
Tomasz Kopacz: Architektura i service fabric - jak budować aplikacje w paas v2
 
Wiesław Kałkus: C# functional programming
Wiesław Kałkus: C# functional programmingWiesław Kałkus: C# functional programming
Wiesław Kałkus: C# functional programming
 
Grzegorz Rycaj: Zdebuguj swoja prezentacje
Grzegorz Rycaj: Zdebuguj swoja prezentacjeGrzegorz Rycaj: Zdebuguj swoja prezentacje
Grzegorz Rycaj: Zdebuguj swoja prezentacje
 
Paweł Ciepły: PowerBI part1
Paweł Ciepły: PowerBI part1Paweł Ciepły: PowerBI part1
Paweł Ciepły: PowerBI part1
 
Paweł Kucharski: Oswajamy Słonia czyli po co nam Hadoop
Paweł Kucharski: Oswajamy Słonia czyli po co nam HadoopPaweł Kucharski: Oswajamy Słonia czyli po co nam Hadoop
Paweł Kucharski: Oswajamy Słonia czyli po co nam Hadoop
 
Michał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonychMichał Żyliński: Cortana dla niewtajemniczonych
Michał Żyliński: Cortana dla niewtajemniczonych
 
Shannon Holgate: Bending non-splittable data to harness distributed performance
Shannon Holgate: Bending non-splittable data to harness distributed performanceShannon Holgate: Bending non-splittable data to harness distributed performance
Shannon Holgate: Bending non-splittable data to harness distributed performance
 
Tomasz Nadolny: Open Data in Gdańsk
Tomasz Nadolny: Open Data in GdańskTomasz Nadolny: Open Data in Gdańsk
Tomasz Nadolny: Open Data in Gdańsk
 
Włodek Bielski: Efektywne wdrożenie BI - z notatnika praktyka
Włodek Bielski: Efektywne wdrożenie BI - z notatnika praktykaWłodek Bielski: Efektywne wdrożenie BI - z notatnika praktyka
Włodek Bielski: Efektywne wdrożenie BI - z notatnika praktyka
 
Piotr Janczyk: Modele zachowań klientów
Piotr Janczyk: Modele zachowań klientówPiotr Janczyk: Modele zachowań klientów
Piotr Janczyk: Modele zachowań klientów
 
Alex Kornilov: Building Big Data Company in Sports-Betting Industry - BETEGY ...
Alex Kornilov: Building Big Data Company in Sports-Betting Industry - BETEGY ...Alex Kornilov: Building Big Data Company in Sports-Betting Industry - BETEGY ...
Alex Kornilov: Building Big Data Company in Sports-Betting Industry - BETEGY ...
 

Przemysław Dzierżak: Hurtownie dla DBA

  • 1. Hurtownie dla DBA PLSSUG Trójmiasto – 23.02.2016 Przemysław Dzierżak
  • 2. Cel prezentacji • Składowe hurtowni danych i ich zadania • Różnice pomiędzy hurtowniami a systemami transakcyjnymi
  • 3. O mnie • „Hurtownik” • Wcześniej programista C# • Praktycznie, automatycznie, prosto • Zwolennik LEAN / Agile
  • 4. Co to hurtownia danych? • Baza danych • O specyficznej budowie • Przeznaczenie analizy i raportowanie Zwykle: • Łączy wiele źródeł danych • Ujednolica dane • Dane historyczne
  • 5. Budowa hurtowni Dla osób bez licencji na wózki widłowe ;)
  • 6. Dobowy cykl życia hurtowni Używanie (SELECT) Ładowane (INSERT)
  • 7. Model danych • Fakt – co liczymy? (SUM, AVG, COUNT…) • Liczba zamówień • Wartość sprzedaży • Wymiar – wg czego? (GROUP BY) • Daty • Położenia klienta • Oddziału • …
  • 10. Hurtownia vs kostka Baza o specyficznej strukturze i specyficznym sposobie użycia Kostka – fragment hurtowni
  • 11. Hurtownia i kostka - narzędzia • Hurtownia: • MSSQL • Kostki: • MSSQL • SSAS • QlikView itp.
  • 13. Budowa procesu E – T – L FK, Magazyn, Kadry CallCenter Budżet Extract Transform Load HurtowniaBaza pośrednia (Stage) Baza pośrednia (OLTP Mirror)
  • 14. Proces ETL - narzędzia • Dedykowane narzędzia (SSIS, OWB, … Data Integration, …) • SQL • BCPY, usługi replikacyjne, backup/restore • Programy/skrypty
  • 16. ETL dla DBA • Nowe narzędzie SSIS • Kopiowanie dużych wolumenów danych • Okienko czasowe w nocy • Uprawnienia w systemach źródłowych i między systemami (hurtownia – system OLTP)
  • 17. Baza hurtowniana • Duża baza • Przemyślenie scenariusza backupu • Przekrojowe zapytania (SELECT … GROUP BY…) • Brak zakleszczeń • Rozważenie RecoveryModel = SIMPLE (min. bazy pośrednie)
  • 18. Indeksowanie hurtowni • Czas ładowania vs. czas zapytań • Wymiary: • Identyfikatory z systemów źródłowych: clustered • Identyfikatory sztuczne – hurtowni: nonclustered • Ew. często używane parametry: nonclustered • Fakty: • Czas (duże fakty – dobry kandydat na partycje) • Na najczęstszych przecięciach • ColumnStore Index! • Kompresja
  • 19. Indeksowanie baz pośrednich • Zapytania wykonywane raz na ładowanie – często nie warto indeksować • Skoordynowane z logiką ETL
  • 20. Co gdy hurtowni nie ma? …a biznes jest 
  • 21. Rozproszone środowisko raportowe • 500 tabel • 300 skryptów SQL • Wiele wersji prawdy • Utrzymanie? Sprzedaż, raport dla X Sprzedaż, raport dla Y Raport HR Raport dla prezesa Sprzedaż, nowy raport Call Center, wydajność Call Center, premie HR, rotacja Marketing, kampanie …
  • 22. Mini - hurtownia • Jedna tabela z mnóstwem kolumn Niby ok, ale: • Tylko jedna granularność • Kopiowanie danych opisowych • Problem gdy się rozrasta Kwota Marża 1 Marża 2 Data sprzedaży Data zakupu Klient Miasto klienta Kod poczt Oddział Sprzeda wca
  • 23. Podsumowanie • Budowa hurtowni • ETL • Specyfika hurtowni • Strategie indeksowania
  • 25. Dziękuję za uwagę Przemysław Dzierżak przemyslaw@dzierzak.eu