Predictiile si problemele lor

how-predictive-analytics-can-make-money-for-social-networks-46ce73d0c0Predictiile pot fi folosite oriunde o decizie bazata pe cifre este luata. Diversitatea aplicabilitatilor include:

Previziuni de vanzari: Una dintre primele aplicatii
Managementul personalului: Urmarea logica a previziunilor de vanzari in marile companii
Descoperiri stiintifice: O modalitate de a identifica dintre miliarde de corpuri stelare ce merita atentie
Gaming: O metoda de a prezice care client are cel mai mare potential de a cheltuii bani
Sport: O metoda de a descoperi care jucator are, intr-o situatie a jocului specifica, un potential mai mare de contributie la victorie
Customer Management: Retentie, cross-sell/up-sell
Achizita de clienti: O modalitate de a identifica prospectii care au cea mai mare probabilitate de a raspunde la o oferta de membru.

Indiferent de obiectivul pentru care incerci sa dezvolti un model de predictie, sunt 9 probleme majore care trebuie tratate:

1. Calitatea datelor
Calitatea datelor nu poate fi explicit evidentiata de metodele de predictie folosite, dar aceste date pot produce doar modele de predictie slabe.
Da, este posibil sa faci un model care prezice destul de bine viitoarele achizitii, dar un astfel de model este doar o fantezie.

2. Informatii diferite
Intotdeauna in constructia unui model care sa genereze predictii este necesar sa integrezi date din surse diferite, baze de date interne, baze de date de comportamente din online, date pastrate in Excel-uri, imagini si documente. Integrearea datelor poate fi complexa si mare consumatoare de timp.

3. Integrarea datelor
De multe ori trebuie combinate date la nivel de general cu date la nivel individual, date care au granularitate temporara diferita. Aceasta problema necesita transformarea atenta a fiecarui set de date pentru a fi comparabile intre ele.
In plus, unele dintre datele care au cea mai mare putere de predictie nu se regasesc neaparat in bazele de date ale companiilor; date demografice, date istorice si alte date third party. Integrarea acestor date externe poate reprezenta un proces destul de inselator si imprecis. Integrarea poate avea asocieri inexacte in multe cazuri. Acest proces poate de asemenea sa iti consume mult prea mult timp.

4. Limbajele de interogare a datelor
Este pasul in care trebuie asigurata interfata dintre sistemele de management al datelor si sistemele de predictie. Structured Query Language (SQL) este cel mai comun limbaj pentru extragerea datelor din baze de date mari dar uneori trebuie folosite si alte limbaje.

5. Vizualizarea rezultatelor modelelor de predictie
Prezentarea unor rezultate foarte tehnice unor manageri nontehnici poate fi o provocare destul de mare. Graficele si vizualizare datelor pot fi foarte importante in comunicarea cu managementul.

6. Gestiunea “zgomotului” sau a datelor incomplete
De multe ori multe inregistrarile din baza de date pentru un client sau un cont sunt goale. Unul dintre cele mai grele task-uri in realizarerea predictiilor este completarea acestor valori goale cu valori intuitive. Daca ar fi sa comparam campurile goale cu vorbitul la telefon, acele campuri ar reprezenta zgomotul ambiental care face sa nu auzim corespondentul.

7. Evaluarea pattern-urilor – problema “interesanta”
Exista multe pattern-uri in date, provocarea este sa le identificam pe acelea care sunt interesante si asta ne ajuta sa identificam problema.
Aplicarea unei bune masuratori asupra importantei poate evidentia variabilele ce pot contribui semnificativ la modelul de previziune si pot elimina variabilele nenecesare. Aceasta activitate poate economisi mult timp si putere de calculul in ciclul de construire al modelului.

8. Eficienta si scalabilitatea algoritmului
Eficienta unui algoritm poate fi masurata in termeni de putere de predictie si din punct de vedere al timpului necesar pentru a construi modelul. Problemele de scalabilitate apar atunci cand un algoritm ori model este construit pe un set relativ mic de date si este alicat pe un set mai mare. Algoritmii buni de reviziune sunt liniar scalabili, insa timpul consumat in proces creste intr-o progresie geometrica (2x, 3x etc).

9. Algoritmi distribuiti si/sau procesarea incrementala
Modelele de previziune pot fi procesate mult mai eficient printr-o abordare de tipul “divide si cucereste”, folosind puterea de calcul distribuita pe servere paralelel. Unele probleme de previziuni trebuie rezolvate folosind algoritmi incrementali.

De fapt, aceste probleme apar in multiple procese de business, inclusiv in procesele de automatizare.

Leave a Reply

Your email address will not be published. Required fields are marked *