Relatório Técnico · 2026

Regressão Linear Múltipla para Avaliação de Imóveis

Comparação entre o TCC de 2015 (SisDEA Windows) e a reprodução em 2026 com KNIME Analytics Platform.

Autor
Thiago Alves Rodrigues
Disciplina
Análise de Dados e IA
Professor
Alexandre Pimenta
Amostra
82 imóveis — Arcos/MG

01 · Visão geral

Resumo

Este trabalho desenvolve um modelo de Regressão Linear Múltipla na plataforma KNIME Analytics Platform para estimar o valor de imóveis urbanos, reproduzindo a metodologia empregada no Trabalho de Conclusão de Curso de 2015. O objetivo não foi propor um novo modelo, mas verificar se uma plataforma moderna de Ciência de Dados é capaz de reproduzir resultados semelhantes aos obtidos em um software especializado em Engenharia de Avaliações.

Foram utilizados 82 registros — 61 para treinamento e 21 para validação — preservando a estratégia original. O modelo obtido apresentou R² = 0,7507 e R² Ajustado = 0,7329, indicando que cerca de 75% da variabilidade dos preços é explicada pelas variáveis independentes.

Imóveis

82

Variáveis

4

0,7507

Correlação R

0,8664

02 · Contexto

Introdução

A avaliação de imóveis é uma das aplicações mais relevantes da estatística aplicada, com uso intenso em instituições financeiras, órgãos públicos, perícias judiciais e no mercado imobiliário. Modelos de regressão linear múltipla permitem estimar o valor de mercado a partir de características físicas e construtivas, reduzindo a subjetividade do processo e padronizando os resultados.

O TCC de 2015 utilizou regressão múltipla para avaliar imóveis urbanos no município de Arcos-MG, com resultados estatisticamente consistentes. Aqui, a mesma metodologia foi reproduzida no KNIME Analytics Platform — ambiente amplamente usado em Ciência de Dados e Machine Learning — comparando-se as duas abordagens.

03 · Propósito

Objetivos

Objetivo geral

Desenvolver um modelo de regressão linear múltipla no KNIME e comparar seus resultados com o TCC de 2015.

Objetivos específicos

  • Importar e tratar a base de dados
  • Aplicar transformação log na variável resposta
  • Construir o modelo e analisar correlações
  • Interpretar coeficientes e comparar com o TCC

04 · Fluxo analítico

Pipeline desenvolvido no KNIME

Figura — pipeline analítico construído no KNIME para reproduzir o modelo do TCC de 2015. (clique para ampliar)

  1. 01Excel ReaderImportação da base de dados
  2. 02Table PartitionerDivisão treino/validação (61/21)
  3. 03Column FilterSeleção das variáveis explicativas
  4. 04Column RenamerPadronização para cálculo de ln(valor)
  5. 05Math FormulaTransformação logarítmica natural
  6. 06StatisticsEstatísticas descritivas
  7. 07Linear CorrelationMatriz de correlação / multicolinearidade
  8. 08Scatter PlotDispersão entre variáveis e valor
  9. 09Linear Regression LearnerAjuste por mínimos quadrados

05 · Dados

Base de dados e variáveis

Mesma base do TCC original: 82 imóveis urbanos de Arcos-MG. A variável resposta é o valor total do imóvel, transformada por ln(valor) para reduzir assimetria.

VariávelMédia
Área construída92,61 m²
Área do terreno226,64 m²
Número de quartos2,72
Padrão construtivo2,13
Valor médioR$ 156.950,82
Apêndice A — recorte da base de dados utilizada no modelo (82 imóveis).

06 · Análise exploratória

Estatísticas descritivas

O nó Statistics do KNIME confirmou a ausência de valores faltantes e mostrou que área construída e valor total apresentam assimetria positiva — justificativa para a transformação logarítmica adotada.

Tabela de estatísticas descritivas gerada pelo nó Statistics do KNIME, com média, desvio padrão, assimetria e histogramas das variáveis.

07 · Relações

Análise de correlação

A área construída apresentou a maior associação linear com o valor do imóvel. As demais variáveis ficaram em faixa moderada, compatível com o esperado.

VariávelCorrelação com Valor
Área construída≈ 0,83
Padrão construtivo≈ 0,64
Área do terreno≈ 0,62
Número de quartos≈ 0,60
Figura 1 — Matriz de correlações com influência entre as variáveis (Fonte: SisDEA Windows / TCC 2015).

08 · Visualizações

Gráficos de dispersão

Os gráficos de dispersão gerados no KNIME confirmaram as relações esperadas: tendência crescente entre área construída e valor, e maior dispersão para área do terreno.

Valor × Área construída
Valor × Área do terreno
Valor × Número de quartos
Valor × Padrão construtivo

09 · Resultados

Modelo de regressão linear

0,7507

R² Ajustado

0,7329

VariávelCoeficiente
Intercepto10,58
Área construída0,0034
Área do terreno0,0007
Número de quartos0,0833
Padrão construtivo0,2761
Saída do nó Linear Regression Learner do KNIME: coeficientes, erros-padrão, estatística t e p-valor.
Equação do modelo ajustado no KNIME.

Área construída e padrão construtivo apresentaram elevada significância estatística. A área do terreno ficou em significância limítrofe e o número de quartos teve menor influência individual.

10 · Confronto metodológico

Comparação: TCC 2015 × KNIME 2026

Ambos os modelos partem da mesma base de 82 imóveis, mesma divisão treino/validação e mesma transformação logarítmica. A diferença principal está no tratamento da variável número de quartos: no TCC ela foi usada com transformação inversa (1/x); no KNIME, na forma linear.

Equação — TCC 2015 (SisDEA)

Equação calculada pelo SisDEA Windows (2015).

Equação — KNIME 2026

Equação reproduzida no KNIME Analytics Platform.
IndicadorTCC 2015KNIME 2026
Base de dados82 imóveis82 imóveis
Treinamento6161
Validação2121
MétodoRegressão Linear MúltiplaRegressão Linear Múltipla
EstimaçãoMínimos QuadradosMínimos Quadrados
SoftwareSisDEA WindowsKNIME Analytics Platform
Correlação (R)0,86960,8664
0,75630,7507
R² Ajustado0,7389*0,7329
Variável nº de quartosTransformação 1/xForma linear
Variável respostaln(Valor)ln(Valor)
Variável mais influenteÁrea construídaÁrea construída

* R² Ajustado do TCC calculado a partir de R² = 0,7563, n = 61 e p = 4 (não apresentado explicitamente no estudo original).

Mesmo em plataformas diferentes, os modelos produziram coeficientes de magnitude semelhante e a mesma hierarquia de importância entre as variáveis. As diferenças observadas decorrem do tratamento da variável número de quartos (1/x no SisDEA, linear no KNIME) e de critérios numéricos internos de cada software. O estudo demonstra que ferramentas modernas de Ciência de Dados podem ser aplicadas com sucesso em Engenharia de Avaliações.

Gráfico 5 do TCC — aderência dos resíduos padronizados à curva normal reduzida (Fonte: SisDEA Windows).

11 · Reflexão crítica

Discussão

Além de coeficientes consistentes, o KNIME entrega vantagens práticas em relação a softwares tradicionais: construção visual do fluxo, maior transparência das etapas analíticas, fácil replicação dos experimentos e integração com algoritmos de Machine Learning. Todo o pipeline pode ser reexecutado sem reconfiguração, garantindo reprodutibilidade — característica essencial tanto em pesquisa acadêmica quanto em aplicações profissionais.

12 · Síntese

Conclusão

Os objetivos foram plenamente alcançados. Foi possível reproduzir, no KNIME Analytics Platform, a metodologia do TCC de 2015, obtendo resultados muito próximos aos originais — com diferenças inferiores a 1 ponto percentual em R² e R² Ajustado. A hierarquia das variáveis e a equação final mantêm o mesmo comportamento estatístico, confirmando que plataformas modernas de Ciência de Dados são plenamente adequadas a aplicações de Engenharia de Avaliações.

Anexos

Arquivos do projeto