Big data...
|
conjunto de práticas e técnicas que envolvem a coleta e o processamento de um volume de dados confiáveis e variados com a velocidade necessária à geração de valor.
|
Motivos de volume de dados...
|
aumento em processamento combinado com redução de custos de armazenamento; internete das coisas IoT.
|
Os Vs em big data...
|
volume, variedade, velocidade, veracidade e valor.
|
Volume...
|
não depende de tamanho, mas de sua relação com a escalabilidade, eficiência, custo e complexidade.
|
Variedade...
|
dados estruturados (com propriedades ACID, atomicidade, consistência, isolamento e durabilidade) e não estruturados ou semi-estruturados (JSON, XML).
|
Velocidade...
|
processamento em tempo para que a informação seja útil e não perca o valor.
|
Valor...
|
prioridade na escolha dos dados para obter o valor agregado.
|
Veracidade...
|
o mesmo que confiabilidade.
|
Coleta de dados...
|
dados internos (CRM, ERP...), dataficação, sensores, fontes externas (API...).
|
Armazenamento...
|
estruturados (ACID, SQL...), semi-estruturados (JSON, XML...) e não estruturados.
|
Implicações...
|
o aumento mostrou os limites dos bancos de dados relacionais como única solução de armazenamento, no que se refere à escalabilidade, disponibilidade e flexibilidade.
|
Escalabilidade...
|
manutenção do desempenho apesar do aumento do volume de dados.
|
Disponibilidade...
|
manutenção da operação apesar de falhas na infraestrutura.
|
Flexibilidade...
|
capacidade de comportar diversidade de dados.
|
NoSQL...
|
banco de dados não relacionais, escaláveis, disponíveis e flexíveis.
|
Tipos de NoSQL...
|
orientados a chave-valor, documentos, colunas e grafos.
|
Chave-valor...
|
mais simples, itens do tipo atributo-chave, geralmente do tipo string.
|
Documentos...
|
extensão do modelo chave-valor, no qual o valor é uma estrutura de dados (documentos tipo XMLS, YAML, JSON e formatos binários...); alta disponibilidade.
|
CRUD...
|
creation (inserção), retrieval (leitura), update (atualização) e deletion (exclusão).
|
Colunas...
|
chave-valor bidimensionais, um valor pode conter vários conjuntos de chave-valor, família de colunas (linhas por linha); alto desempenho, disponibilidade e flexibilidade.
|
Grafos...
|
quando as relações entre os dados são mais importantes que o dado em si. Vértices representam entidades e arestas as relações entre si.
|
Governança de dados...
|
pessoas, processos e tecnologias para garantir os Vs dos dados da empresa. Tópicos a seguir.
|
Arquitetura de dados...
|
modelo para gerenciamento dos dados, políticas de padronização e boas práticas.
|
Auditoria...
|
autoexplicativo.
|
Metadados...
|
dados a respeito dos dados.
|
MDM, Master Data Management...
|
gerenciamento de dados-mestre, essenciais para o negócio da empresa.
|
Modelagem de dados...
|
aplicação de padrões aos dados.
|
Qualidade dos dados...
|
processos com o objetivo de aperfeiçoar a qualidade dos dados.
|
Segurança...
|
gestão de risco relacionado à coleta, armazenamento, processamento e análise dos dados.
|
Processamento de dados...
|
alocação de recursos, escalabilidade, disponibilidade e desempenho.
|
Escalabilidade vertical (scale up/down)...
|
aumento da capacidade de processamento de um único recurso com a atualização da infraestrutura; adicionar ou remover recusos (RAM, CPU...).
|
Escalabilidade horizontal (scale out/in)...
|
aumento da capacidade de processamento redistribuindo a carga entre vários recursos da infraestrutura; adicionar ou remover instâncias (físicas ou virtuais).
|
Hadoop...
|
motor de busca de código aberto; HDFS (Hadoop Distributed File System), sistema de arquivos distribuído e MapReduce, modelo de programação distribuída.
|
Características...
|
baixo curso, escalabilidade (horizontal), tolerância a falhas, balanceamento de carga (processamento distribuído) e comunicação entre máquinas e sua alocação (transparente ao usuário).
|
|