Big Data
Big Data to termin odnoszący się do niezwykle dużych i złożonych zbiorów danych generowanych zarówno przez ludzi jak i maszyny. Nie można nimi łatwo zarządzać ani ich analizować za pomocą tradycyjnych narzędzi do przetwarzania danych w szczególności zwykłych arkuszy kalkulacyjnych. Termin ten obejmuje dane:
- Ustrukturyzowane, takie jak przykładowo baza danych zapasów lub lista transakcji finansowych.
- Nieustrukturyzowane jak na przykład różnego rodzaju posty lub filmy w mediach społecznościowych.
- Mieszane takie jak np. dane używane do szkolenia dużych modeli językowych na potrzeby sztucznej inteligencji. Takie dane mogą obejmować praktycznie wszystko. Zaczynając od firmowych arkuszy kalkulacyjnych aż po pozycje literackie.
W obecnych czasach dane stały się kapitałem. Wiele największych światowych firm obecnie nieustannie analizują dane w celu poprawy wydajności oraz opracowywania nowych inicjatyw, a obecnie wiele ich najnowszych produktów opiera się właśnie na danych. Powstanie dużych zbiorów danych jest ściśle związane z rozwojem technologii komputerowej. Szybki wzrost mocy obliczeniowej oraz pamięci masowej doprowadził do stopniowego gromadzenia coraz większej ilości danych. Jednak sama wielkość nie stanowi sama w sobie definicji dużych zbiorów danych, dlatego do opisu dużych zbiorów danych zaproponowano użycie liter „V” od pierwszych liter słów, które je opisują:
- Volume (objętość) – odnosi się do ilości danych cyfrowych, które są gromadzone i przechowywane. Obecnie rośnie ona w coraz szybszym tempie. Ciężko dokładnie w tym przypadku dokładnie określić wielkość jaką przyjmują duże zbiory, ponieważ to, co np. 10 lat temu uważane było za duży zbiór może dla dzisiejszych standardów już nim nie być. Dla przykładu w 2008r. CERN po wyodrębnieniu 1% swoich danych ma rocznie do przetworzenia około 25Pb danych.
- Velocity (szybkość) jest to szybkość tempa w jakim dane są odbierane oraz przetwarzane i wykorzystywane do dalszych działań.
- Variety (różnorodność) jest to dostępność wielu typów danych. Pojawiają się nowe częściowo lub w ogóle nieustrukturyzowane typy danych jak np. dźwięk czy video, które wymagają wcześniejszego przetwarzania w celu uzyskania i obsługi metadanych.
- Veracity (wiarygodność) – prawdziwość zgromadzonych danych oraz ocena na ile można na nich polegać.
- Value (wartość) – Big Data zawierają obszerne oraz dogłębne informacje. Wśród nich ukryte są te, które mogą przynieść korzyści. Wartości jakie mogą one wnieść są wewnętrzne jak przykładowo identyfikacja i optymalizacja różnych procesów lub zewnętrzne np. profilowanie klientów.