Você é um cientista de dados trabalhando em um projeto
de pesquisa em saúde que envolve a análise de relatórios
médicos utilizando técnicas de Processamento de Linguagem Natural (PLN). Parte do seu trabalho é explorar as
relações semânticas entre diferentes condições de saúde
utilizando um modelo pré-treinado de word embeddings em
português, focado na área da saúde. Você decide investigar
a relação entre diferentes doenças e tratamentos.
Seja o seguinte código Python, que utiliza a biblioteca
gensim e um modelo hipotético de word embeddings
denominado modelo_saude.bin especializado em termos
médicos em português:
import numpy as np
from gensim.models import KeyedVectors
def calcular_similaridade(vetor_a, vetor_b):
numerador = np.dot(vetor_a, vetor_b)
denominador = np.linalg.norm(vetor_a) *
np.linalg.norm(vetor_b)
similaridade = numerador / denominador
return similaridade
mo del = Ke yed Vectors. load_ word 2vec _
format(‘modelo_saude.bin’, binary=True)
vetor_diabetes = model[‘diabetes’]
vetor_hipertensao = model[‘hipertensão’]
vetor_insulina = model[‘insulina’]
vetor_diabetes_ajustado = vetor_diabetes +
vetor_insulina
vetor_hipertensao_ajustado = vetor_hipertensao + vetor_insulina
similaridade = calcular_similaridade(vetor_
diabetes_ajustado, vetor_hipertensao_ajustado)
print(f”Similaridade: {similaridade}”)
Utilizando o modelo hipotético model_saude.bin, o resultado
mostrado pelo código foi de 0.7036085724830627. Baseado
no cenário descrito, no código fornecido e no resultado
mostrado, a opção que melhor descreve o que está sendo
calculado e o significado do resultado é: