centrum promocji informatyki
E-MAIL
zapisz się zapisz się zapisz się wypisz się
O NASSZKOLENIAMEDIA O NASPARTNERZYREGULAMINKONTAKT

Warszawa, 26.09.2006 Koordynator: Monika Handzelewicz

Konsultacje programowe i prowadzenie obrad:
Robert Wrembel (Instytut Informatyki, Politechnika Poznańska)

PROGRAM

26 września 2006 r.
10:00 Wykład wprowadzający: Rozproszone hurtownie danych - aspekty praktyczne

Dynamikę poszukiwań efektywnych architektur rozproszonych hurtowni danych (DDW) należy rozpatrywać w kontekście: (a) nowych metod przetwarzania równoległego, (b) wydajnego indeksowania przestrzenno-czasowego, (c) optymalizacji procesów balansowana obciążeń, (d) procesów aktualizacji i ekstrakcji strumieni danych, (e) odtwarzania procesów ETL w łagodnym czasie rzeczywistym, (f) silnej skalowalności. Perspektywiczną architekturą DDW są systemy agentów programowych w architekturze gridowej. Takim przykładem motywującym jest rzeczywisty gridowy system przestrzennych hurtowni danych telemetrycznych (2TSGDW). Zaprezentowane zostanie 5 metod przetwarzania równoległego (DWS, DWS+, MVB, STCAT, Indeksy Bitmap) jako odpowiedź na różne potrzeby i specyfikę 2TSGDW. Metoda DWS pozwala na szybkie przybliżone odpowiedzi metodami estymacji wyniku. Poprzez odpowiednie partycjonowanie i indeksowanie metodą DWS+ możemy przyśpieszyć niektóre zapytania. Wraz ze zwiększaniem okien zapytań w wymiarze czasu i przestrzenni, czas odpowiedzi znacznie rośnie. Rozwiązaniem są agregaty zaimplementowane jako drzewa MVB i STCAT lub indeksy Bitmap pozwalające na podział hierarchiczny i przeszukanie tylko tych części tabeli faktów, które zawierają potrzebne dane.

Marcin Gorawski
(Politechnika Śląska)

10:40 Prelekcja: Eksploracja danych XML

XML ostatnio stał się niewątpliwym standardem w rozwijaniu wielu aplikacji, w szczególności aplikacji Webowych zarówno przechowujących jak i wyszukujących informacje. Mając odpowiedni mechanizm do odkrywania wiedzy poprzez metody eksploracji danych np. klastrowanie (grupowanie) dokumentów XML, staje się kluczowym dla eksploracji Web lub innych systemów, które taki rodzaj dokumentów przechowują oraz umożliwiają przeszukiwanie, np. biblioteki cyfrowe. Ważną nowością XML jest to, iż informacja o strukturze dokumentu jest dostępna razem z zawartością dokumentu. Istnieje wiele różnych rozwiązań eksploracji XML. Szczególnie interesującym wydaje się problem eksploracji dokumentów na podstawie ich struktury.

Anna Leśniewska
(Politechnika Poznańska)
11:20 Prezentacja sponsorska: Business Intelligence w praktyce - przykład wdrożenia SQL Server 2005 w Enion S.A.
Jarosław Szymaniuk (Solution Sales Manager, Microsoft)
Łukasz Wróbel (Główny Konsultant Business Intelligence, Comarch S.A.)
12:00 Sesja pytań i odpowiedzi
12:10 Przerwa
12:40 Prezentacja: Obsługa dużych hurtowni danych w DB2 9

Tak naprawdę trudno podać precyzyjną definicję, od jakiego rozmiaru mówimy o dużej bazie danych. Każdy administrator jednak wie, że baza staje się duża, jeśli zbliża się do limitów, które uniemożliwiają pracę systemu zgodną z biznesowymi założeniami. Do takich limitów można zaliczyć dostępne miejsce na dysku, czas wykonywania archiwum, opóźnienia w dostępie do danych, czy ograniczone możliwości sprzętu. Na prezentacji zostaną omówione mechanizmy bazy danych DB2 9 pozwalające na implementację najbardziej wymagających hurtowni danych:

  • klastrowanie bazy danych
  • partycjonowanie tabel
  • słownikowa kompresja danych
  • wirtualizacja dostępu do danych
Artur Wroński
(IBM Polska)
13:25 Prezentacja: Wizualizacja danych biznesowych w oparciu o narzędzia Business Objects
Sławomir Karpiński
(Sales Manager, Connect Distribution)
13:45 Prezentacje: Integracja informacji we współczesnych firmach - cele i sposoby
  • Integracja Informacji - po co to wszystko?
  • Przegląd produktów do Integracji Informacji - WebSphere Data Integration Suite
  • Profilowanie danych - ProfileStage
  • Podnoszenie jakości danych - QualityStage
  • Integracja danych - DataStage
  • Dane na żądanie - DataStage SOA
Anna Ptaszyńska
(IBM Polska)
14:15 Przerwa
14:30 Case study: Web Warehousing w Onet.pl

System powstał wskutek zapotrzebowań Business Unit'ów, aby odciążyć zespół analityków. Korzysta z niego Pion Usług Marketingowych oraz osoby zarządzające serwisami. Pozwala uzyskiwać statystyki oglądalności na poziomie stron poprzez podserwisy, serwisy, grupy serwisów aż do całego portalu. Dodatkowo istnieje możliwość filtrowania według geolokalizacji i demografii.
Onet składa się z przeszło 300 serwisów - 1,5 miliona unikalnych stron. W skali miesiąca jest odwiedzany przez ponad 20 milionów unikalnych użytkowników, którzy generują 2,5 miliarda odsłon.
System składa się z prawie 1000 agregatów, które w większości odświeżane są w cyklu godzinnym. Dlatego w pierwszej kolejności stworzony został mechanizm pozwalający kontrolować odświeżanie takiej ilości tabel. System jest skalowalny - rośnie wraz z portalem. Ma tempo wzrostu na poziomie 1 TB miesięcznie.

Tomasz Antonik
(Grupa Onet.pl SA)
15:10 Case study: Doświadczenia z wdrażania hurtowni danych w BZ WBK

Prezntacja przedstawia zagadnienia związane z organizacją, rozwojem i eksploatacją Hurtowni Danych z punktu widzenia doświadczeń BZWBK w tej dziedzinie. W ramach prezentacji omawiane są zagadnienia organizacji zasobów ludzkich, definicji ról i odpowiedzialności, wyboru i zastosowania narzędzi ETL w procesie budowania Korporacyjnej Hurtownii Danych w dużej instytucji finansowej.

Tomasz Niewiedział
(BZ WBK)
15:50 Prelekcja: Efektywność OLAP w implementacji wielowymiarowej

Jednym z ważniejszych wyzwań technologicznych stawianych hurtowniom danych jest zapewnienie dużej efektywności przetwarzania analitycznego. Efektywność ta zależy po części od przyjętego modelu implementacyjnego. W praktyce wykorzystuje się dwa następujące modele implementacyjne: ROLAP i MOLAP. W modelu ROLAP dane są składowane w tabelach zarządzanych przez relacyjną bazę danych. Natomiast w modelu MOLAP dane są składowane w wielowymiarowych tablicach zarządzanych przez tzw. serwer wielowymiarowy. Często w ramach jednego systemu hurtowni danych mamy do dyspozycji oba modele składowania, np. w Oracle9i/10g, SQL Server2000 i 2005. Celem niniejszego wykładu jest przedstawienie wyników badań nad efektywnością przetwarzania analitycznego w obu modelach. Badania przeprowadzono w oparciu o bazę danych Oracle10g i standardowy zestaw zapytań analitycznych testu TPC-H.

Jacek Krawczyk, Robert Wrembel, Bartosz Bębel
(Politechnika Poznańska)
16:20 Sesja pytań i odpowiedzi
16:40 Zakończenie konferencji
  
e-mailkontakt Na górę strony
Copyright © 2002 Centrum Promocji Informatyki Sp. z o.o. | ul. Miedzyborska 50 | tel. (0-22) 870 69 10, 870 69 78