(creazione di un datamart) quali sono le procedure definite dall'alimentazione? | procedura di passaggio di dati dalle sorgenti operazionali al livello riconciliato
procedura di passaggio dal livello riconciliato al data mart (schemi a stella) |
funzioni principali previste dalle ETL | estrazione (acquisizione di dati dalle sorgenti)
trasformazione (conformazione dei dati sorgente allo schema riconciliato)
caricamento (inserimento dei file nel database riconciliato)
pulizia (eliminazione di eventuali incongruenze |
quali sono esempi di operazioni di trasformazione sui dati? (delle ETL) | standardizzazione dei formati
paramentrizzazione discreta -> suddivisione dei dati
arricchimento -> dati che magari sono presenti in diversi campi vengono usati per estrapolarne degli altri
concatenamento -> ovvero l'unione di diversi campi (nome cognome) |
i due diversi tipi di caricamento di dati in un database | in base al tipo di estrazione utilizzata
Estrazione statica -> i dati del livello sono completamente sostituiti
Estrazione dinamica -> vengono solo inseriti i nuovi record o quelli che hanno subito modifiche |
Dove vengono messi i dati estratti ? I due tipi di estrazione | i dati estratti vengono messi in una staging area per i successivi trattamenti
estrazione statica -> scansione di tutte le sorgenti da capo a fondo
estrazione dinamica -> scansione dei soli dati aggiunti o modificati |
cosa è una suite ERP e i suoi paradigmi | piattaforma usata dalle aziende per regolare i processi essenziali per la gestione(organizzativi produttivi e commerciali).
- La modularità
Ovvero l'azienda può decidere quali moduli implementare e realizzare
- Unicità dell'informazione
Ovvero quando tutte le elaborazioni del sistema condividono un solo valore per una data informazione
- Prescrittività
la capacità di un ERP di trovare soluzioni a problemi |
che cosa è un CRM | customer relationship management è la parte di ERP che si occupa della relazione con il cliente
lo scopo è quello di costruire relazioni a lungo termine con il cliente
- semplificazione dellaccesso a prodotti o servizi
- creazione di offerte personalizzate
-offerta di un servizio completo
- raccolta di reclami o osservazioni |
quali sono i tre paradigmi di un ERP | - La modularità
Ovvero l'azienda può decidere quali moduli implementare e realizzare
- Unicità dell'informazione
Ovvero quando tutte le elaborazioni del sistema condividono un solo valore per una data informazione
- Prescrittività
Il software ERP norma il comportamento dell'azienda |
le suddivisioni dei CRM | CRM operativo -> informatizzazione dei canali per la comunicazione con il cliente(chiamate, incontri, tracciamenti di ordini, proposte di vendita, reclami)
CRM analitico -> analisi dei clienti e dei potenziali clienti (prende i dati dall'operativo da i dati al direzionale)
CRM direzionale -> controllo delle performance dell'azienda verso il cliente con l'utilizzo di particolari indici |
le principali caratteristiche di un CRM | - Multicanalità :
I customer relationship managment spesso sono presenti in diverse forme in un singolo rapporto (es. telefono email)
- Completezza:
Le informazioni scambiate sono disponibili nell'immediato e su tutti i canali
- Catena di servizio:
Gli ERP in generale puntano a servire un servizio completo come:
Comunicazione con front end
Fornitura dei servizi richiesti
Manutenzione dei servizi erogati |
spiega le V dei big data | Volume
Varietà: strutturato, semi strutturato, non strutturato
Velocità: priodico, in real time, non real time
Veracità: qualità dei dati
Valore: desiderio e utilità di questi dati per un vantaggio |
che cosa sono i NoSQL database?
Quali sono i diversi tipi? | servono per immagazzinare dati non strutturati
- key value : mappati nel database con una chiave hash
- document based
- column family
- graphic oriented |
dove vengono immagazzinati i dati dei big Data? | solitamente vengono usati NoSQL database (non relazionali)
o in data lake |
quali sono gli approcci che si usano con i big data? | Approccio data Warehouse/business intelligence
Si fa una repository strutturata contenente dati strutturati o meno
approccio Data Lake
tutti i file sono contenuti in una repository non strutturata nella loro forma originaria con la procedura ELT
subiscono una immagazzinazione veloce |
che cosa prevede la struttura best practice dei data lake? | - transit zone ( per l'anonimizzazione dei dati )
- raw zone (raccolta dei dati nel loro formato originale)
- process zone (modifica dei dati in base alla richiesta del cliente)
- access zone (dove i dati possono essere usufruiti)
- govern zone (trasversale garantisce la sicurezza e la qualità dei dati) |
che strutture vengono usate per gestire i big data? | si usa il cluster computing (architettura distribuita) con delle tecnologie apposite:
- big data storage/maintenance tools
- big data programming models
- big data storage (distributed file system)
- big data computing frameworks
i dati sono memorizzati nella modalità write-once-read-many |
quali sono le tecniche di pulizia di dati più utilizzate? | - tecniche basate sui dizionari
vengono utilizzati dei dizionari o delle lookup table
- tecniche di pulizia ad hoc
vengono integrate delle regole specifiche per verificare la correttezza dei dati |
che cosa può fare un ETL nel caso di dati mancanti? | - può essere inserito un dato standard
- il dato mancante può essere presunto da altri dati già presenti
- viene segnalato un errore e viene fatta una richiesta specifica di inserimento |
Quali problemi possono insorgere nella unione di database? | - join approssimato : quando si vuole fare un join fra due basi che non hanno chiavi in comune quindi vengono usati campi alternativi
- pure merge problem : quando vengono usati database che hanno dati simili e allora i dati duplicati devono essere cancellati(c'è bisogno di un criterio per capire quando due dati rappresentano la stessa cosa) |
in quale ordine viene popolato un datamart da una ETL? | considerando un datamart con schema a stella, vengono prima popolate le DIMENSION TABLE dopodichè le FACT TABLE si connetteranno alle chiavi delle prime |
quali sono le casistiche per implementare la dinamicità negli schemi? | - oggi per ieri
- ieri per oggi
- oggi o ieri
- oggi e ieri |
quali sono i diversi tipi di dati per le aggregazioni per la creazione delle viste? | - Distributive:
Non danno problemi come la somma
- Algebrici:
Hanno bisogno di funzioni aggiuntive come le medie pesate
- Olistici:
non possono essere aggregati (esempi di tipo o descrittivi) |
ETL, per quanto riguarda la pulizia, quali sono i diversi tipi di incongruenze che si possono presentare? | Ø Dati errati
Ø Differenza di formato
Ø Inconsistenza dei campi
Ø Inconsistenza tra valori
Ø Valori mancanti
Ø Informazioni duplicate |
quali sono i diversi tipi di data di cui è composto un big data? | - Operational data
Da sensori o streaming
- Dark data
Con un proprietario ma non utilizzato ( email )
- Commercial data
Dati di organizzazioni e aziende
- Social data
Dati provenienti da social media
- Public data
Tutti i tipi di dati che non hanno necessariamente un proprietario |
come sono suddivisi i moduli di un ERP? | suite settoriali:
ovvero moduli che sono specifici di un settore dell'azienda (contabilità, produzione)
suite intersettoriali: ovvero applicazioni che si trovano in modo identico in tutta l'azienda(gestione della catena di fornitura)
internamente invece:
- Livello suite
Insieme di software che supportano i processi gestionali e utilizzano basi di dati
- Livello modulo
Singola applicazione/software che supporta un singolo processo gestionale
- Livello funzione
Supporta attività elementari, normalmente usata da utenti che operano sul web |
che cosa è la SBI e su che cosa si basa? | la SBI si basa interamente sul UGC
La social business intelligence ha lo scopo di immagazzinare i dati che vengono prodotti direttamente dagli utenti e combinarli con dati aziendali con lo scopo di supportare le decisioni aziendali e l'analisi dei dati |
scopo e tecniche del sentiment analysis | tecniche:
- text analysis
- information retrieval
- natural language processing
- machine learning
scopo:
estrarre e identificare le opinioni contenute in un testo in base a soggettività(se è una descrizione oggettiva o una opinione soggettiva), orientamento e forza (determinare quanto sia positiva o negativa) |
come avviene la fornitura di dati in una SBI e dove confluiscono | la fornitura avviene per mezzo di strumenti di web crawling e semantic enrichment, questi confluiscono in un ODS (operational data store) che dopo aver suddiviso per topic e creato uno schema passa i dati su un Datamart dove possono essere eseguite query ROLAP |