Big data...
conjunto de práticas e técnicas que envolvem a coleta e o processamento de um volume de dados confiáveis e variados com a velocidade necessária à geração de valor.
Motivos de volume de dados...
aumento em processamento combinado com redução de custos de armazenamento; internete das coisas IoT.
Os Vs em big data...
volume, variedade, velocidade, veracidade e valor.
Volume...
não depende de tamanho, mas de sua relação com a escalabilidade, eficiência, custo e complexidade.
Variedade...
dados estruturados (com propriedades ACID, atomicidade, consistência, isolamento e durabilidade) e não estruturados ou semi-estruturados (JSON, XML).
Velocidade...
processamento em tempo para que a informação seja útil e não perca o valor.
Valor...
prioridade na escolha dos dados para obter o valor agregado.
Veracidade...
o mesmo que confiabilidade.
Coleta de dados...
dados internos (CRM, ERP...), dataficação, sensores, fontes externas (API...).
Armazenamento...
estruturados (ACID, SQL...), semi-estruturados (JSON, XML...) e não estruturados.
Implicações...
o aumento mostrou os limites dos bancos de dados relacionais como única solução de armazenamento, no que se refere à escalabilidade, disponibilidade e flexibilidade.
Escalabilidade...
manutenção do desempenho apesar do aumento do volume de dados.
Disponibilidade...
manutenção da operação apesar de falhas na infraestrutura.
Flexibilidade...
capacidade de comportar diversidade de dados.
NoSQL...
banco de dados não relacionais, escaláveis, disponíveis e flexíveis.
Tipos de NoSQL...
orientados a chave-valor, documentos, colunas e grafos.
Chave-valor...
mais simples, itens do tipo atributo-chave, geralmente do tipo string.
Documentos...
extensão do modelo chave-valor, no qual o valor é uma estrutura de dados (documentos tipo XMLS, YAML, JSON e formatos binários...); alta disponibilidade.
CRUD...
creation (inserção), retrieval (leitura), update (atualização) e deletion (exclusão).
Colunas...
chave-valor bidimensionais, um valor pode conter vários conjuntos de chave-valor, família de colunas (linhas por linha); alto desempenho, disponibilidade e flexibilidade.
Grafos...
quando as relações entre os dados são mais importantes que o dado em si. Vértices representam entidades e arestas as relações entre si.
Governança de dados...
pessoas, processos e tecnologias para garantir os Vs dos dados da empresa. Tópicos a seguir.
Arquitetura de dados...
modelo para gerenciamento dos dados, políticas de padronização e boas práticas.
Auditoria...
autoexplicativo.
Metadados...
dados a respeito dos dados.
MDM, Master Data Management...
gerenciamento de dados-mestre, essenciais para o negócio da empresa.
Modelagem de dados...
aplicação de padrões aos dados.
Qualidade dos dados...
processos com o objetivo de aperfeiçoar a qualidade dos dados.
Segurança...
gestão de risco relacionado à coleta, armazenamento, processamento e análise dos dados.
Processamento de dados...
alocação de recursos, escalabilidade, disponibilidade e desempenho.
Escalabilidade vertical (scale up/down)...
aumento da capacidade de processamento de um único recurso com a atualização da infraestrutura; adicionar ou remover recusos (RAM, CPU...).
Escalabilidade horizontal (scale out/in)...
aumento da capacidade de processamento redistribuindo a carga entre vários recursos da infraestrutura; adicionar ou remover instâncias (físicas ou virtuais).
Hadoop...
motor de busca de código aberto; HDFS (Hadoop Distributed File System), sistema de arquivos distribuído e MapReduce, modelo de programação distribuída.
Características...
baixo curso, escalabilidade (horizontal), tolerância a falhas, balanceamento de carga (processamento distribuído) e comunicação entre máquinas e sua alocação (transparente ao usuário).
 

Voltar