Data Science
Che cos'è e e perché è importante
La data science è un campo multidisciplinare che definisce sostanzialmente l'utilizzo dei dati per generare insight, informazioni di valore. A differenza di altre discipline più specialistiche, quali data mining o data engineering, la data science racchiude l'intero ciclo di vita che va della trasformazione dei dati grezzi in informazioni utili, fino al loro successivo impiego per finalità produttive in un'ampia gamma di applicazioni.
L'evoluzione della data science
Nel tracciare le origini della data science, molti ritengono che la disciplina sia nata nel 1962, quando il matematico John Tukey ne fece cenno nel suo brillante lavoro The future of data analysis. Nel libro lo studioso descriveva l'esistenza di una "scienza non riconosciuta" che si basava sullo studio dei dati.
È più interessante, tuttavia, esaminare la data science nel contesto attuale. L'avvento dei big data – reso possibile dai progressi nelle capacità di elaborazione e archiviazione – ha creato opportunità senza pari per le organizzazioni, mettendole in grado di rivelare modelli nascosti nei dati e di utilizzare queste informazioni per migliorare il processo decisionale. Ma per farlo, devono prima raccogliere, elaborare, analizzare e condividere quei dati. Ed è proprio della gestione del ciclo di vita dei dati che si occupa la data science.
Oggi la data science è ovunque, non solo nel mondo del business. Non è un caso, quindi, che Harvard Review Business abbia battezzato il data scientist come il lavoro più sexy del XXI secolo. Se per data scientist s'intende il professionista, la data science è l'insieme delle tecniche e delle tecnologie di cui si serve.
Implementare il modello migliore nella produzione industriale
In quanto produttore globale di materiali edili, USG deve realizzare prodotti di alta qualità a prezzi accessibili. Con l'implementazione di SAS® Model Manager, l'azienda di Sheetrock può individuare il mix ottimale di materie prime e modificare il processo produttivo in tempo quasi reale per raggiungere il proprio obiettivo.
La data science nel mondo di oggi
Andiamo alla scoperta della data science
Il Magic Quadrant di Gartner per la Data Science
Come si posizionano le diverse piattaforme di data science? Esplora il Magic Quadrant for Data Science and Machine Learning Platforms di Gartner che mette a confronto le 20 migliori proposte.
Chi utilizza la data science?
È difficile trovare un settore che non applichi la data science alle funzioni aziendali più importanti. Ecco alcuni tra i casi d'uso più interessanti.
Risultati della data science
Per capire in che modo la data science può incidere su un'organizzazione, prendiamo in esame alcuni tra gli obiettivi o attività più comuni della data science.
- Previsioni (guasto di un impianto)
- Classificazione (cliente nuovo o esistente)
- Consigli, Recommendations (se ti piace quello, prova questo)
- Rilevamento anomalie (acquisti fraudolenti)
- Riconoscimento (per immagini, testo, audio, video, etc.)
- Informazioni utili (dashboard, report, visualizzazioni)
- Procedure e processi decisionali automatizzati (approvazione della carta di credito)
- Valutazione e classificazione (affidabilità creditizia)
- Segmentazione (marketing mirato)
- Ottimizzazione (miglioramenti della produzione)
- Forecasting (previsione di vendite e ricavi)
Se desideri migliorare le tue attività di data science comprendendo meglio come scegliere, implementare e gestire i modelli, esplora i corsi di IA e ML. Ronald van Loon Principal Analyst CEO of Intelligent World
Intelligenza Artificiale composita
Attualmente la maggior parte dei progetti di IA si avvale di tecnologie multiple di data science. Secondo Gartner, si usa il termine intelligenza artificiale composita quando si ricorre a una combinazione di più tecniche di IA per raggiungere il risultato ottimale.
Con l'IA composita si parte dal problema e si applicano quindi i dati e gli strumenti giusti per risolverlo. Spesso ciò comporta l'utilizzo di un insieme di tecniche di data science, tra cui machine learning, statistica, advanced analytics, data mining, forecasting, ottimizzazione, natural language processing, computer vision e altre.
L'IA composita è sempre più sinonimo di data science. Il motivo è che la scelta della tecnologia IA più appropriata non è sempre semplice. È necessaria una conoscenza approfondita del problema aziendale che si sta cercando di risolvere, nonché dei dati disponibili per la sua soluzione. Questo mix di competenze aziendali e tecnologiche è l'essenza della data science.
Come funziona la data science
Nella data science rientra l'impiego di molteplici strumenti e tecnologie per ricavare informazioni significative da dati strutturati e non strutturati. Ecco alcune delle pratiche più comuni utilizzate dai data scientist per trasformare i dati grezzi in insight in grado d'incidere sul business.
Per data management si intende la procedura di gestione dei dati volta a sbloccare il loro potenziale a vantaggio di un'organizzazione. Per gestire efficacemente i dati occorre disporre di strategie e metodi affidabili per accedere, integrare, filtrare, amministrare, archiviare e preparare i dati per l'analisi.
Il machine learning automatizza la costruzione di modelli analitici. Nel machine learning non supervisionato, la tecnologia utilizza metodi derivati dalle reti neurali, dalla statistica, dalla ricerca operativa e dalla fisica per trovare informazioni nascoste nei dati, senza essere stata esplicitamente programmata su dove guardare o quali conclusioni trarre.
La rete neurale è un tipo di machine learning che si ispira al funzionamento del cervello umano. È un sistema informatico composto da unità interconnesse (come i neuroni), che elabora le informazioni rispondendo a input esterni e trasmettendole quindi tra ciascuna unità.
Il deep learning utilizza enormi reti neurali con numerosi livelli di unità di elaborazione. Sfruttando i progressi nella potenza di calcolo e i miglioramenti nelle tecniche di addestramento, è in grado di ricavare modelli complessi da grandi quantità di dati. Le applicazioni più comuni includono il riconoscimento delle immagini e il riconoscimento vocale.
La computer vision si basa sul riconoscimento dei modelli e sul deep learning per identificare il contenuto di un'immagine o di un video. Quando le macchine sono in grado di elaborare, analizzare e comprendere le immagini, possono acquisire foto o video in tempo reale e interpretare l'ambiente circostante.
Con natural language processing si intende la capacità dei computer di analizzare, comprendere e generare il linguaggio umano, anche verbale. La fase successiva della NLP è l'interazione linguistica, che consente agli esseri umani di dialogare con i computer, utilizzando il linguaggio quotidiano, per portare a compimento delle azioni.
La data visualization è la presentazione dei dati sotto forma d'immagini o grafici per facilitarne l'analisi. È estremamente importante perché consente alle organizzazioni di prendere decisioni aziendali basate sull'output delle attività di data science.
I linguaggi di programmazione più utilizzati per la data science
Se gli esseri umani usano tante lingue diverse, lo stesso vale per i data scientist. Oggi sono disponibili centinaia di linguaggi di programmazione e per scegliere quello giusto occorre anzitutto comprendere qual è la finalità da perseguire. Ecco una panoramica di alcuni dei linguaggi di programmazione più diffusi nel campo della scienza dei dati.
Python è un linguaggio di programmazione interpretato, orientato agli oggetti, di alto livello e con una semantica dinamica. Le sue strutture dati integrate di alto livello, insieme alla tipizzazione e al binding dinamico, lo rendono particolarmente interessante per lo sviluppo rapido di applicazioni, nonché come linguaggio di script o glue per collegare componenti esistenti.
R è un ambiente software gratuito per il calcolo statistico e la grafica, supportato dalla R Foundation for Statistical Computing. Il linguaggio R è molto usato dagli esperti di statistica e di data mining per sviluppare software di statistica e di analisi dei dati.
SQL è un linguaggio specifico di dominio utilizzato nella programmazione e progettato per la gestione dei dati in un sistema di gestione di database relazionali (RDBMS) o per l'elaborazione di flussi in un sistema di gestione di flussi di dati relazionali (RDSMS). È utile soprattutto per gestire dati strutturati come, ad esempio, i dati che incorporano relazioni tra entità e variabili.
SAS è un linguaggio di programmazione a cui si affidano centinaia di migliaia di data scientist in tutto il mondo. La piattaforma SAS Viya permette di combinare i vantaggi di tutti i sistemi tecnologici e linguaggi di programmazione presenti nell'organizzazione, per migliorare lo sviluppo e l'implementazione dei modelli analitici. Scopri come SAS Viya può aiutarti a trasformare un'ampia varietà di modelli in processi decisionali efficaci.
Passi successivi
Se vuoi conoscere la data science, questo è il posto giusto.
Soluzioni di data science
Le soluzioni per la data science di SAS Viya offrono valide funzionalità di data management, visualizzazione, advanced analytics e gestione dei modelli, che consentono di ottimizzare la data science in qualsiasi organizzazione.
SAS Visual Data Mining and Machine Learning offre la possibilità di risolvere i più complessi problemi analitici con una soluzione unica, integrata e collaborativa, che dispone di una propria API di modellazione automatizzata.
SAS Visual Analytics fornisce gli strumenti per preparare velocemente report in maniera interattiva, esplorare i dati attraverso le visualizzazioni ed effettuare analisi in modalità autonoma.
Queste soluzioni, e altre ancora, sono alimentate da SAS Viya, la piattaforma SAS di data science leader di mercato, sviluppata su un'architettura moderna, scalabile e abilitata al cloud.