Datasets (Bases de dados)...
... conjunto de dados fornecido aos algoritmos apra aprendizado de padrões, podem variar de arquivos de textos simples a banco de dados complexos, estruturados ou não, influencia na qualidade do modelo.
CSV (Comma-separated values)...
... formato de arquivo de texto usado para armazenar dados tabulares, usa caracteres separadores (geralmente vírgula ou ponto e vírgula) e delimitadores (aspas) para organizar colunas e campos.
JSON (JavaScript Object Notation)...
... formato leve e flexível para intercâmbio de dados, legível por humanos e indempendente de linguagem, estrutura-se em coleções de pares nome-valor (objetos) e listas ordenadas (arrays).
Serialização e desserialização...
... processos de conversão de dados, o primeiro converte objetos em memória para um formato de armazenamento e transmissão (como JSON) e o segundo reconstrói os dados do arquivo de volta para as estruturas de memória do programa.
XML (eXtensible Markup Language)...
... linguagem de marcação genérica usada para descrever documentos e estruturas de dados, diferente do JSON, foca na descrição e validação dos dados (via DTD) do que na facilidade de conversão para objetos em memória.
NumPy...
... biblioteca Python fundamental para computação científica e processamento numérico, oferece alto desempenho para cálculos matriciais e vetoriais, superando a lentidão nativa do Python em loops complexos.
ndarray...
... principal objeto da biblioteca NumPy, é um array de n dimensões que exige que todos os seus elementos sejam do mesmo tipo, para garantir eficiência no processamento.
Vectorization (Vetorização)...
... técnica usada no NumPy para ganhar performance e evitar loops explícitos executando operações matemáticas diretamente sobre vetores inteiros de uma só vez.
Broadcasting...
... mecanismo do NumPy que permite operações aritiméticas entre arrays de formas diferentes, expande automaticamente o elemento menhor (um escalar) para corresponder às dimensões do elemento maior (uma matriz).
Pandas...
... biblioteca de código aberto para análise e manipulação de dados, permite trabalhar com dados de tipos heterogêneos, filtrar, agrupar e limpar dados antes do treinamento.
DataFrame...
... principal estrutura de dados do Pandas, semelhantes a uma planilha, possui índices para as linhas e rótulos para as colunas, suportando dados de tipos variados em diferentes colunas.
Matplotlib...
... biblioteca usada para visualização de dados (plotagem), permite criar gráficos para analisar a distribuição dos dados, encontrar correlações e detectar valores discrepantes (outliers).
Instância...
... refere-se a uma linha ou registro único dentro de um dataset, geralmetne contém um vetor de características (atributos) e no caso da aprendizagem supervisionada, a classe associada.
Treinamento e teste...
... divisão estratégica do dataset, o subconjunto de treinamento é usado pelo algoritmo para aprender padrões e o de teste (ou validação) para avaliar o desempenho do modelo em dados não vistos.
Generalização...
... capacidade de um modelo treinado de reconhecer e acertar previsões em novas instâncas que nunca lhe foram apresentadas, evitando apenas 'decorar' os dados de treinamento.

Voltar