Związany z technologiami Microsoft od początku kariery zawodowej, najpierw jako programista .NET, później architekt hurtowni danych. Zarządzał zespołami wdrażającymi rozwiązania oparte o MS BI m.in. w Grupie Energa, LOTOS, czy EuroStyl. Nastawiony na tworzenie rozwiązań praktycznych, zautomatyzowanych, prostych. MCSE: Business Intelligence
2. Cel prezentacji
• Składowe hurtowni danych i ich zadania
• Różnice pomiędzy hurtowniami a systemami transakcyjnymi
3. O mnie
• „Hurtownik”
• Wcześniej programista C#
• Praktycznie, automatycznie, prosto
• Zwolennik LEAN / Agile
4. Co to hurtownia danych?
• Baza danych
• O specyficznej budowie
• Przeznaczenie analizy i raportowanie
Zwykle:
• Łączy wiele źródeł danych
• Ujednolica dane
• Dane historyczne
7. Model danych
• Fakt – co liczymy?
(SUM, AVG, COUNT…)
• Liczba zamówień
• Wartość sprzedaży
• Wymiar – wg czego?
(GROUP BY)
• Daty
• Położenia klienta
• Oddziału
• …
16. ETL dla DBA
• Nowe narzędzie SSIS
• Kopiowanie dużych wolumenów danych
• Okienko czasowe w nocy
• Uprawnienia w systemach źródłowych i między systemami (hurtownia
– system OLTP)
17. Baza hurtowniana
• Duża baza
• Przemyślenie scenariusza backupu
• Przekrojowe zapytania (SELECT … GROUP BY…)
• Brak zakleszczeń
• Rozważenie RecoveryModel = SIMPLE (min. bazy pośrednie)
18. Indeksowanie hurtowni
• Czas ładowania vs. czas zapytań
• Wymiary:
• Identyfikatory z systemów źródłowych: clustered
• Identyfikatory sztuczne – hurtowni: nonclustered
• Ew. często używane parametry: nonclustered
• Fakty:
• Czas (duże fakty – dobry kandydat na partycje)
• Na najczęstszych przecięciach
• ColumnStore Index!
• Kompresja
19. Indeksowanie baz pośrednich
• Zapytania wykonywane raz na ładowanie – często nie warto
indeksować
• Skoordynowane z logiką ETL
21. Rozproszone środowisko raportowe
• 500 tabel
• 300 skryptów SQL
• Wiele wersji prawdy
• Utrzymanie?
Sprzedaż, raport dla X
Sprzedaż, raport dla Y
Raport HR
Raport dla prezesa
Sprzedaż, nowy raport
Call Center, wydajność
Call Center, premie
HR, rotacja
Marketing, kampanie
…
22. Mini - hurtownia
• Jedna tabela z mnóstwem kolumn
Niby ok, ale:
• Tylko jedna granularność
• Kopiowanie danych opisowych
• Problem gdy się rozrasta
Kwota Marża
1
Marża
2
Data
sprzedaży
Data
zakupu
Klient Miasto
klienta
Kod
poczt
Oddział Sprzeda
wca