O campo da Ciência de Dados é dinâmico e está em
constante evolução, com o desenvolvimento de tecnologias
e ferramentas que tornam a análise de dados mais eficiente
e acessível. Uma dessas ferramentas é a biblioteca Pandas
para a linguagem de programação Python. Por ser uma
biblioteca de análise de dados conhecida principalmente
por suas estruturas de dados poderosas que facilitam a
manipulação de dados, como dataframes, é amplamente
utilizada em processos de ETL (Extract, Transform and
Load) por engenheiros e cientistas de dados que necessitam pré-processar e transferir dados entre plataformas de
dados, como, por exemplo, bancos de dados relacionais e
Data Lakes.
Considere o seguinte código Python que implementa parte
de um ETL sobre a tabela Financiamento.
import pandas as pd
from sqlalchemy import create_engine
from datetime import datetime
engine = create_engine(“postgresql://
postgres:postgres@localhost:5432/bd_pesquisa”)
query = “SELECT * FROM Financiamento”
df = pd.read_sql_query(con=engine.connect(),
sql=sql_text(query))
df[‘data_inicio’] = pd.to_datetime(df[‘data_
inicio’]).dt.strftime(‘%d/%m/%Y’)
df[‘data_fim’] = pd.to_datetime(df[‘data_
fim’]).dt.strftime(‘%d/%m/%Y’)
df.to_csv(‘financiamentos_transformados.csv’,
index=False)
Observe as afirmativas a seguir sobre a execução do código.
I. O código se conecta a um banco de dados PostgreSQL
usando a biblioteca SQLAlchemy e extrai todos os dados da tabela Financiamento.
II. As colunas data_inicio e data_fim são transformadas para o formato DD/MM/AAAA, mas esses dados
não são atualizados no banco de dados.
III. O dataframe resultante da transformação é salvo em
um arquivo CSV chamado financiamentos_transformados.csv na máquina local, incluindo o índice do
datadrame como uma coluna adicional.
Sobre as afirmativas acima, pode-se dizer que: