|
Dane w Web Mining
W ogólności można powiedzieć, że w projektach Web Mining dane pochodzą z:
- logów serwerów WWW
- dzienników serwerów aplikacji
- cookies
- kwestionariuszy i formularzy
- badań rynku i innych źródeł
Przy każdym projekcie Web Mining dobór danych będzie zależał od PYTANIA, na które chcecie znaleźć odpowiedź oraz wykorzystywanej metody analitycznej. Tak więc inne dane będziecie potrzebowali do eksploracji stanu Waszego serwisu WWW i podstawowej analizy zachowań odwiedzających go osób, a inne do segmentacji i profilowania w oparciu o zakupy w e-sklepie, itp.
Zbiory danych pochodzące z serwisów www są zwykle bardzo duże i zawierają miliony obserwacji (rekordów). Z tego powodu osoby początkujące w analizie tych danych często bezkrytycznie sądzą, że: - dysponują wystarczającą ilością (a może nawet nadmiarem) danych
- do analizy należy wykorzystać wszystkie dostępne dane
Pierwszy pogląd szybko może się okazać fałszywy, gdy postawimy pytanie i zaczniemy poszukiwać na nie odpowiedzi. Np. absolutna większość witryn, pomimo posiadania olbrzymich zbiorów danych nie dysponuje właściwymi danymi, żeby na przykład odpowiedzieć sobie na pytanie: "Czy stan cywilny klienta ma wpływ na łączną ilość pieniędzy wydawanych w naszym e-sklepie?"
Druga opinia jest najczęściej fałszywa. Np. przy segmentacji odwiedzających ze względu na ich zachowania na witrynie, przy zwiększeniu liczby użytych rekordów ze stu tysięcy do pięciu milionów możecie nie uzyskać żadnej poprawy jakości wyników (choć spowodujecie znaczący wzrost czasu obliczeń). Natomiast zmiana metody analitycznej (lub choćby wybranych jej parametrów) lub zestawu cech użytych w analizie może spowodować wyraźne różnice w wynikach.
Przeczytajcie o tym Jak możemy pomóc? >>
|