Pipeline RAG (Retrieval-Augmented Generation) com embeddings e vector database
Implementação completa de RAG com chunking, embeddings, busca semântica e geração aumentada.
Objetivo do Prompt
Construir um sistema de busca e resposta baseado em documentos da empresa que reduza alucinações e forneça respostas fundamentadas em dados reais.
Exemplo Real de Uso
A consultoria carioca DataInsight tem 2.500 relatórios em PDF, 800 planilhas e 15 mil emails técnicos acumulados em 8 anos. Os consultores gastam 2-3 horas por dia buscando informações em projetos anteriores. Precisam de um chatbot que responda perguntas baseado nessa base de conhecimento.
Prompt
Implemente um pipeline RAG completo para [NOME DO PROJETO], um sistema de Q&A sobre [TIPO DE DOCUMENTOS] usando [PYTHON/NODE.JS].
**Contexto:**
- Volume: [NÚMERO] documentos ([TIPOS: PDF, DOCX, planilhas, emails])
- Tamanho total: [VALOR] GB de texto
- Idioma principal: [PORTUGUÊS/INGLÊS/AMBOS]
- Modelo de geração: [GPT-4/Claude/Llama local]
- Modelo de embeddings: [OpenAI/Cohere/Sentence-Transformers]
- Vector DB: [PINECONE/QDRANT/PGVECTOR/CHROMADB]
**1) Ingestão e Processamento:**
- Extração de texto por tipo de documento:
- PDF: [PyPDF2/pdfplumber/unstructured]
- DOCX: [python-docx]
- Planilhas: conversão para texto descritivo
- Imagens/Tabelas: OCR ou multimodal
- Limpeza: remoção de headers/footers, normalização de encoding
- Metadata extraction: título, autor, data, categoria
**2) Chunking Strategy:**
- Método: [recursive character/semantic/sentence window]
- Chunk size: [256/512/1024] tokens — justifique a escolha
- Chunk overlap: [50/100/200] tokens
- Preservar contexto: manter parágrafo inteiro quando possível
- Metadata por chunk: source document, page, section, date
- Parent document retrieval (chunk pequeno para busca, documento maior para contexto)
**3) Embeddings:**
- Modelo: [text-embedding-3-small/large, multilingual-e5, bge-m3]
- Dimensão: [256/768/1024/1536]
- Batch processing para volume grande
- Custo estimado de embedding de toda a base
- Re-embedding strategy (quando documentos mudam)
**4) Vector Database:**
- Schema do index (embeddings + metadata)
- Estratégia de indexação (HNSW, IVF)
- Filtros de metadata (buscar apenas documentos de [DATA], [CATEGORIA])
- Hybrid search: semântica + keyword (BM25)
- Reranking: Cohere Rerank ou cross-encoder
**5) Retrieval + Generation:**
- Top K chunks a recuperar: [3/5/10]
- Prompt template com contexto injetado:
```
Baseado nos seguintes documentos da empresa:
{context}
Responda à pergunta: {question}
Cite as fontes utilizadas.
```
- Streaming de resposta
- Citation/source attribution (referenciar documento original)
- Fallback quando confiança é baixa: "Não encontrei informações suficientes"
**6) Avaliação do Pipeline:**
- Métricas: faithfulness, relevance, answer correctness
- Framework: RAGAS ou custom eval
- Test set: 50-100 pares pergunta-resposta verificados por humanos
- A/B testing de chunking strategies
- Custo por query (embedding lookup + LLM generation)
**7) API e Interface:**
- REST API: `POST /ask` com streaming response
- Chat interface com histórico de conversas
- Upload de novos documentos (ingestão on-the-fly)
- Admin dashboard: documentos indexados, métricas de uso, queries populares
Forneça o código Python completo do pipeline e instruções de deploy.Como usar este prompt
- 1Cole o prompt diretamente no ChatGPT, Claude, Gemini ou qualquer assistente de IA.
- 2Personalize os campos entre colchetes [assim] com suas informações específicas.
- 3Para melhores resultados, forneça contexto adicional sobre seu caso de uso.
- 4Combine múltiplos prompts em uma conversa para resultados mais completos.
- 5Salve os prompts que mais usa para acesso rápido no futuro.
Prompts relacionados
Ver todosFine-tuning de LLMs com dados customizados usando LoRA e QLoRA
Guia completo para fine-tunar modelos de linguagem com técnicas eficientes de adaptação de parâmetros.
Engenharia de prompts avançada com chain-of-thought e function calling
Técnicas avançadas de prompt engineering para extrair o máximo de performance de LLMs em produção.
MLOps pipeline completo com treinamento, versionamento e deploy de modelos
Infraestrutura de MLOps para gerenciar o ciclo de vida de modelos de ML em produção.
Pipeline de pré-processamento de dados para treino de modelos de NLP
Pipeline robusto de coleta, limpeza e preparação de dados textuais em português para treinamento de modelos.
Explore outras categorias de prompts
Assine o AulasDeIA para desbloquear
Acesse 10.000+ prompts prontos para usar em qualquer profissão, além de todos os cursos da plataforma.
Cancele quando quiser. Sem multas.
