Przykład
Do celów testowych pobrany został Dataset Yelp, w którym znajduje się 6990280 opinii, 150346 firm, 11 obszarów miejskich oraz 200100 zdjęć. Za przetwarzanie danych odpowiedzialny był Apache Spark. Postanowiono, że na podstawie danych zweryfikowane zostanie jakie atrybuty mają wpływ na ocenę, jaką klienci wystawiają lokalowi w zakresie 1-5 gwiazdek. W pierwszej kolejności wyświetlone zostały przykładowe dane wraz z nazwami poszczególnych kolumn zawartych w pobranym datasecie.
Rysunek 1. Tabela z przykładowymi danymi o opiniach klientów.
Rysunek 2. Tabela z przykładowymi danymi odnośnie przedsiębiorstw.
Rysunek 3. Tabela z przykładowymi danymi odnośnie zameldowań.
Rysunek 4. Tabela z przykładowymi danymi o użytkownikach.
Postanowiono, że zostanie wytrenowany model Random Forest, oraz że wytrenowany model będzie miał za zadanie znaleźć powiązania pomiędzy atrybutami przedsiębiorstwa a opiniami klientów w postaci gwiazdek 1-5. Do utworzenia modelu wykorzystany Pyspark. Niestety ze względu na ograniczenia sprzętowe ilość danych została ograniczona do 5% co dało około 350 tys. próbek.
Rysunek 5. Kod z parametrami do trenowania modelu Lasu Losowego.
Łącznie wszystkich badanych atrybutów w biznesach jest ponad 100 i są zależne od rodzaju biznesu. Znajdują się tam między innymi takie cechy jak:
- Alkohol
- Atmosfera
- Dozwolone grupy wiekowe
- Możliwość przyniesienia własnego alkoholu
- Jedzenie na wynos
- WiFi
- Możliwość palenia
- Parking samochodowy
- Parking dla rowerów
- Polecane dni na odwiedziny
| 66 Atmosfera | 24 Parking | 8 Polecane dni |
Wykres 1. Procentowe wartości wpływu parametrów, które miały największe znaczenie.
Z otrzymanych wyników można wywnioskować, że najwyższy wpływ na opinię klientów miała atmosfera w lokalu. Dużo niższą, ale nadal znaczącą wartość ma parking samochodowy. Według analizy dni tygodnia, które są polecane na odwiedziny przez klientów mają już tylko 8% udziału. Dla pozostałych atrybutów nie została wykryta zależność, lub została wykryta ale na poziomie mniejszym niż 1%.