Você é um cientista de dados incumbido de desenvolver
uma aplicação de perguntas e respostas para facilitar a
extração de informações de documentos PDF contendo
artigos científicos na área da saúde. Para construir essa
aplicação, as seguintes estratégias foram apresentadas.
I. Utilizar a técnica de embeddings de texto para converter
documentos PDF em vetores e armazená-los em um
vectorstore, como ChromaDb ou Pinecone, permitindo
buscas semânticas rápidas e eficientes baseadas no
conteúdo dos artigos.
II. Desenvolver um sistema de indexação baseado em
metadados extraídos dos documentos PDF, como autor, data de publicação e palavras-chave, para facilitar
a filtragem e a busca por documentos específicos.
III. Implementar uma abordagem de processamento de linguagem natural (PLN) que empregue a API do modelo
de linguagem para gerar respostas precisas às perguntas, utilizando os vetores e metadados armazenados
para recuperar informações relevantes dos documentos
e inseri-las no contexto do prompt.
IV. Realizar o fine-tuning do modelo de linguagem através
de um dataset que contenha o conhecimento do
domínio que se quer adicionar ao modelo, utilizando
frameworks como LoRA ou QLoRA para fazer o merge
desse dataset adicional treinado.
V. Criar uma hierarquia de documentos baseada na classificação dos artigos científicos por tópicos e subtópicos,
utilizando algoritmos de clustering para organizar automaticamente os documentos em categorias relevantes.
Das estratégias acima: