Considere a seguinte implementação de um modelo de
regressão linear múltipla utilizando NumPy e scikit-learn,
usado para prever o financiamento de projetos com base
em características de projetos e pesquisadores. O código
abaixo foi executado e algumas métricas de desempenho
foram obtidas.
import numpy as np
from sklearn.model_selection import train_
test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
X = np.array([[1, 50], [2, 60], [3, 70], [4,
80], [5, 90], [1, 55], [2, 65], [3, 75], [4,
85], [5, 95]])
y = np.array([100000, 120000, 150000, 200000,
250000, 110000, 130000, 170000, 230000,
290000])
X_train, X_test, y_train, y_test = train_
test_split(X, y, test_size=0.2, random_
state=0)
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, y_pred)
print(f”R-Quadrado: {r2}, MSE: {mse}, RMSE:
{rmse}, MAE: {mae}”)
Após executar o código, foram obtidas as seguintes métricas de desempenho:
R-Quadrado: 0.9020746527777778 , MSE:
156680555.5555556,
R M S E : 1 2 5 1 7 . 2 1 0 3 7 4 3 4 2 8 2 3 , M A E :
10083.333333333343
Com base nessas informações, analise as observações
abaixo.
I. O valor de R-Quadrado próximo de 1 indica que o modelo
explica uma grande proporção da variância dos dados
de financiamento. Isso sugere que o modelo tem um
bom ajuste aos dados, sendo capaz de capturar uma
grande parte da relação entre as variáveis independentes e a variável dependente.
II. Um valor de MSE de aproximadamente 156 milhões
sugere que, em média, o quadrado dos erros das
previsões do modelo em relação aos valores reais é
significativo. Isso indica que o modelo tem um bom
ajuste de acordo e não existem erros consideráveis
nas previsões.
III. Um MAE de aproximadamente 10083 sugere que, em
média, as previsões do modelo desviam cerca de 10083
unidades dos valores reais. Comparado ao RMSE, o
MAE não dá um peso tão grande a erros maiores, o
que sugere que o modelo pode ter um número relativamente consistente de pequenos a moderados erros
de previsão.
IV.A diferença entre o RMSE e o MAE sugere que o modelo
pode estar lidando com alguns outliers ou previsões
particularmente imprecisas que afetam mais o RMSE,
pois o RMSE penaliza mais erros maiores do que erros menores.
Sobre as afirmativas acima, pode-se dizer que: