| Datasets (Bases de dados)... |
| ... conjunto de dados fornecido aos algoritmos apra aprendizado de padrões, podem variar de arquivos de textos simples a banco de dados complexos, estruturados ou não, influencia na qualidade do modelo. |
| CSV (Comma-separated values)... |
| ... formato de arquivo de texto usado para armazenar dados tabulares, usa caracteres separadores (geralmente vírgula ou ponto e vírgula) e delimitadores (aspas) para organizar colunas e campos. |
| JSON (JavaScript Object Notation)... |
| ... formato leve e flexível para intercâmbio de dados, legível por humanos e indempendente de linguagem, estrutura-se em coleções de pares nome-valor (objetos) e listas ordenadas (arrays). |
| Serialização e desserialização... |
| ... processos de conversão de dados, o primeiro converte objetos em memória para um formato de armazenamento e transmissão (como JSON) e o segundo reconstrói os dados do arquivo de volta para as estruturas de memória do programa. |
| XML (eXtensible Markup Language)... |
| ... linguagem de marcação genérica usada para descrever documentos e estruturas de dados, diferente do JSON, foca na descrição e validação dos dados (via DTD) do que na facilidade de conversão para objetos em memória. |
| NumPy... |
| ... biblioteca Python fundamental para computação científica e processamento numérico, oferece alto desempenho para cálculos matriciais e vetoriais, superando a lentidão nativa do Python em loops complexos. |
| ndarray... |
| ... principal objeto da biblioteca NumPy, é um array de n dimensões que exige que todos os seus elementos sejam do mesmo tipo, para garantir eficiência no processamento. |
| Vectorization (Vetorização)... |
| ... técnica usada no NumPy para ganhar performance e evitar loops explícitos executando operações matemáticas diretamente sobre vetores inteiros de uma só vez. |
| Broadcasting... |
| ... mecanismo do NumPy que permite operações aritiméticas entre arrays de formas diferentes, expande automaticamente o elemento menhor (um escalar) para corresponder às dimensões do elemento maior (uma matriz). |
| Pandas... |
| ... biblioteca de código aberto para análise e manipulação de dados, permite trabalhar com dados de tipos heterogêneos, filtrar, agrupar e limpar dados antes do treinamento. |
| DataFrame... |
| ... principal estrutura de dados do Pandas, semelhantes a uma planilha, possui índices para as linhas e rótulos para as colunas, suportando dados de tipos variados em diferentes colunas. |
| Matplotlib... |
| ... biblioteca usada para visualização de dados (plotagem), permite criar gráficos para analisar a distribuição dos dados, encontrar correlações e detectar valores discrepantes (outliers). |
| Instância... |
| ... refere-se a uma linha ou registro único dentro de um dataset, geralmetne contém um vetor de características (atributos) e no caso da aprendizagem supervisionada, a classe associada. |
| Treinamento e teste... |
| ... divisão estratégica do dataset, o subconjunto de treinamento é usado pelo algoritmo para aprender padrões e o de teste (ou validação) para avaliar o desempenho do modelo em dados não vistos. |
| Generalização... |
| ... capacidade de um modelo treinado de reconhecer e acertar previsões em novas instâncas que nunca lhe foram apresentadas, evitando apenas 'decorar' os dados de treinamento. |