IntermediárioIA e Machine LearningAberto

Pipeline RAG (Retrieval-Augmented Generation) com embeddings e vector database

Implementação completa de RAG com chunking, embeddings, busca semântica e geração aumentada.

RAGembeddingsvector databaseLLMbusca semântica

Objetivo do Prompt

Construir um sistema de busca e resposta baseado em documentos da empresa que reduza alucinações e forneça respostas fundamentadas em dados reais.

Exemplo Real de Uso

A consultoria carioca DataInsight tem 2.500 relatórios em PDF, 800 planilhas e 15 mil emails técnicos acumulados em 8 anos. Os consultores gastam 2-3 horas por dia buscando informações em projetos anteriores. Precisam de um chatbot que responda perguntas baseado nessa base de conhecimento.

Prompt

Implemente um pipeline RAG completo para [NOME DO PROJETO], um sistema de Q&A sobre [TIPO DE DOCUMENTOS] usando [PYTHON/NODE.JS].

**Contexto:**
- Volume: [NÚMERO] documentos ([TIPOS: PDF, DOCX, planilhas, emails])
- Tamanho total: [VALOR] GB de texto
- Idioma principal: [PORTUGUÊS/INGLÊS/AMBOS]
- Modelo de geração: [GPT-4/Claude/Llama local]
- Modelo de embeddings: [OpenAI/Cohere/Sentence-Transformers]
- Vector DB: [PINECONE/QDRANT/PGVECTOR/CHROMADB]

**1) Ingestão e Processamento:**
- Extração de texto por tipo de documento:
  - PDF: [PyPDF2/pdfplumber/unstructured]
  - DOCX: [python-docx]
  - Planilhas: conversão para texto descritivo
  - Imagens/Tabelas: OCR ou multimodal
- Limpeza: remoção de headers/footers, normalização de encoding
- Metadata extraction: título, autor, data, categoria

**2) Chunking Strategy:**
- Método: [recursive character/semantic/sentence window]
- Chunk size: [256/512/1024] tokens — justifique a escolha
- Chunk overlap: [50/100/200] tokens
- Preservar contexto: manter parágrafo inteiro quando possível
- Metadata por chunk: source document, page, section, date
- Parent document retrieval (chunk pequeno para busca, documento maior para contexto)

**3) Embeddings:**
- Modelo: [text-embedding-3-small/large, multilingual-e5, bge-m3]
- Dimensão: [256/768/1024/1536]
- Batch processing para volume grande
- Custo estimado de embedding de toda a base
- Re-embedding strategy (quando documentos mudam)

**4) Vector Database:**
- Schema do index (embeddings + metadata)
- Estratégia de indexação (HNSW, IVF)
- Filtros de metadata (buscar apenas documentos de [DATA], [CATEGORIA])
- Hybrid search: semântica + keyword (BM25)
- Reranking: Cohere Rerank ou cross-encoder

**5) Retrieval + Generation:**
- Top K chunks a recuperar: [3/5/10]
- Prompt template com contexto injetado:
  ```
  Baseado nos seguintes documentos da empresa:
  {context}
  
  Responda à pergunta: {question}
  
  Cite as fontes utilizadas.
  ```
- Streaming de resposta
- Citation/source attribution (referenciar documento original)
- Fallback quando confiança é baixa: "Não encontrei informações suficientes"

**6) Avaliação do Pipeline:**
- Métricas: faithfulness, relevance, answer correctness
- Framework: RAGAS ou custom eval
- Test set: 50-100 pares pergunta-resposta verificados por humanos
- A/B testing de chunking strategies
- Custo por query (embedding lookup + LLM generation)

**7) API e Interface:**
- REST API: `POST /ask` com streaming response
- Chat interface com histórico de conversas
- Upload de novos documentos (ingestão on-the-fly)
- Admin dashboard: documentos indexados, métricas de uso, queries populares

Forneça o código Python completo do pipeline e instruções de deploy.

Como usar este prompt

1Cole o prompt diretamente no ChatGPT, Claude, Gemini ou qualquer assistente de IA.
2Personalize os campos entre colchetes [assim] com suas informações específicas.
3Para melhores resultados, forneça contexto adicional sobre seu caso de uso.
4Combine múltiplos prompts em uma conversa para resultados mais completos.
5Salve os prompts que mais usa para acesso rápido no futuro.

Prompts relacionados

Ver todos

Fine-tuning de LLMs com dados customizados usando LoRA e QLoRA

Guia completo para fine-tunar modelos de linguagem com técnicas eficientes de adaptação de parâmetros.

Avançadofine-tuningLoRALLM

Aberto

Engenharia de prompts avançada com chain-of-thought e function calling

Técnicas avançadas de prompt engineering para extrair o máximo de performance de LLMs em produção.

Intermediárioprompt engineeringLLMchain-of-thought

Aberto

MLOps pipeline completo com treinamento, versionamento e deploy de modelos

Infraestrutura de MLOps para gerenciar o ciclo de vida de modelos de ML em produção.

AvançadoMLOpspipelinemodel registry

Assinantes

Pipeline de pré-processamento de dados para treino de modelos de NLP

Pipeline robusto de coleta, limpeza e preparação de dados textuais em português para treinamento de modelos.

Iniciantepré-processamentoNLPdados

Assinantes

Explore outras categorias de prompts

📊Análise de Dados 🎨Design e UX 📋Gestão de Projetos Ver todas as categorias

Assine o AulasDeIA para desbloquear

Acesse 10.000+ prompts prontos para usar em qualquer profissão, além de todos os cursos da plataforma.

Assinar por R$ 49,90/mês

Cancele quando quiser. Sem multas.