Pandy segregują dane dla AI

Przy korzystaniu z AI najważniejsze są dane. W świecie IT funkcjonuje powiedzenie "Garbage in, garbage out" (ang. śmieci na wejściu, śmieci na wyjściu), oznacza ono, że jeśli damy programowi "śmieciowe" dane, to znaczy nieoczyszczone i nieuporządkowane, to nie da on nam zadowalających wyników. Dlatego bardzo ważne jest przygotowywanie danych, a do tego służą frameworki (biblioteki) takie jak Numpy, Pandas oraz Matplotlib.

To potężne narzędzie do tworzenia wielowymiarowych tablic. Najczęściej wykorzystuje się tablice 2D oraz macierze 3D. Dzięki niej można bardzo szybko pracować na ogromnych ilościach danych. Zawiera również duża ilość funkcji matematycznych. Z powodu swojej lekkości i rozbudowanych funkcji przygotowuje ona dane do uczenia maszynowego.

Pandas to rozbudowana biblioteka, która działa na tablicach Numpy. Z jej pomocą można importować dane z m.in. plików CSV, Excel, baz SQL oraz JSON. Jej główną zaletą jest lekkość, ponieważ działa na Numpy. Posiada również wiele możliwości do pracy na danych, tj. czyszczenie, filtrowanie i sortowanie danych oraz statystyka.

Mimo trudnej nazwy, ta biblioteka jest naprawdę prosta. Służy do wizualizacji danych, czyli pokazywania ich w formie grafiki, np. wykresy. Jest ona bardzo przydatna, ponieważ pozwala zobaczyć pewne schematy jakie występują w zebranych danych. A tym bardziej jest ona przydatna, kiedy tych danych jest naprawdę dużo, bo szybko można zauważyć różne wyjątki, które pogorszyłyby działanie programu.

Najczęściej korzystam z dwóch funkcji tej biblioteki:

Wykres liniowy - pozwala zobaczyć jak zwiększają się i zmniejszają wartości danych w jednostce np. czasu.

Wykres punktowy - pozwala zobaczyć zależności jakie występują między dwoma zbiorami danych.

Oto przykład takiej wizualizacji danych: