Słyszałeś może wyrażenie używane przez informatyków cały czas: śmieci wchodzą, śmieci wychodzą. W praktyce oznacza to, że komputer będzie starał się za wszelką cenę rozwinąć pokazany mu problem, ale dając mu do dyspozycji dane nie dobrej jakości jako materiał wyjściowy, nie można oczekiwać rozwiązania o jakości wysokiej. Tak samo sytuacja wygląda z modelami matematycznymi wykonywanymi przez komputer oraz poza nim. Te modele również potrzebują danych do działań, ale jeśli te dane nie są dobre, to prognozy wytworzone przez nie też dobre nie będą.
Wiec trzeba się zastanowić i zadać pytanie: Czym są dobre dane oraz gdzie możemy je znaleść?
Przykładem mogą być stacje pogodowe, które każdego dnia gromadzą ogrom dobrych danych wykorzystywanych do modeli prognoz pogody. Dzięki wykorzystaniu satelitów oraz samolotów i balonów meteorologicznych pozyskiwane są dane o atmosferze, oceanach, temperaturze, opadach oraz prędkości wiatrów.
Dane mogą pochodzić z różnych miejsc. Chcesz wiedzieć, ile osób każdego roku wybiera się na rejs? Albo jak często Europejczycy chodzą do kościoła? Albo ilu Amerykanów głosowało w wyborach prezydenckich w 1972 roku? Są do jedne z danych, które można znaleść.
Emily Kubicek jest analitykiem danych w rejonie Los Angeles w Kalifornii. Pracuje dla Walt Disney Company w ich segmencie biznesowym Disney Media and Entertainment Distribution. Wcześniej w swojej karierze pracowała dla National Deaf Center w Austin w Teksasie. Tam zebrała dane dotyczące zarówno słyszących, jak i niesłyszących Amerykanów, aby porównać te dwie grupy. Dane pochodziły z US Census Bureau.
Dane pochodzące z tego spisu są bezpłatne i dostępne dla każdego. Reprezentują także cały naród. Kubicek przeszukała te dane w celu poznania szczegóły, np. ile osób się wykształciło. Jakie zawody były najbardziej popularne w każdej grupie? Jakimi językami posługują się ludzie? Jej grupa przyjrzała się również, czy istnieją jakieś wzorce w tym, jak takie cechy zmieniały się w czasie.
Wielu naukowców do zdobywania danych wykorzystuje Kaggle. Jest to internetowa społeczność naukowców, która udostępnia ogromne ilości danych. Na przykład można tam znaleźć ogromne zestawy danych z Uniwersytetu Kalifornijskiego, repozytorium uczenia maszynowego Irvine’a.
Zdarza się czasami jednak tak, że dane, których poszukują naukowcy, mogą okazać się trudne do znalezienia. Natalie Dean jest statystykiem na Uniwersytecie Florydy w Gainesville. Ostatnio pracowała nad przewidywaniami dotyczącymi rozprzestrzeniania się koronawirusa. A ponieważ wirus, który powoduje COVID-19 jest nowy, istnieje stosunkowo niewiele danych na jego temat. „Wciąż uczymy się czegoś o tym konkretnym wirusie” – mówi Dean. Więc w przeciwieństwie do pogody, która była badana przez wiele dziesięcioleci, jest więcej niewiadomych na temat tego wirusa.