01 · Visão geral
Resumo
Este trabalho desenvolve um modelo de Regressão Linear Múltipla na plataforma KNIME Analytics Platform para estimar o valor de imóveis urbanos, reproduzindo a metodologia empregada no Trabalho de Conclusão de Curso de 2015. O objetivo não foi propor um novo modelo, mas verificar se uma plataforma moderna de Ciência de Dados é capaz de reproduzir resultados semelhantes aos obtidos em um software especializado em Engenharia de Avaliações.
Foram utilizados 82 registros — 61 para treinamento e 21 para validação — preservando a estratégia original. O modelo obtido apresentou R² = 0,7507 e R² Ajustado = 0,7329, indicando que cerca de 75% da variabilidade dos preços é explicada pelas variáveis independentes.
Imóveis
82
Variáveis
4
R²
0,7507
Correlação R
0,8664
02 · Contexto
Introdução
A avaliação de imóveis é uma das aplicações mais relevantes da estatística aplicada, com uso intenso em instituições financeiras, órgãos públicos, perícias judiciais e no mercado imobiliário. Modelos de regressão linear múltipla permitem estimar o valor de mercado a partir de características físicas e construtivas, reduzindo a subjetividade do processo e padronizando os resultados.
O TCC de 2015 utilizou regressão múltipla para avaliar imóveis urbanos no município de Arcos-MG, com resultados estatisticamente consistentes. Aqui, a mesma metodologia foi reproduzida no KNIME Analytics Platform — ambiente amplamente usado em Ciência de Dados e Machine Learning — comparando-se as duas abordagens.
03 · Propósito
Objetivos
Objetivo geral
Desenvolver um modelo de regressão linear múltipla no KNIME e comparar seus resultados com o TCC de 2015.
Objetivos específicos
- Importar e tratar a base de dados
- Aplicar transformação log na variável resposta
- Construir o modelo e analisar correlações
- Interpretar coeficientes e comparar com o TCC
04 · Fluxo analítico
Pipeline desenvolvido no KNIME
Figura — pipeline analítico construído no KNIME para reproduzir o modelo do TCC de 2015. (clique para ampliar)
- 01Excel ReaderImportação da base de dados
- 02Table PartitionerDivisão treino/validação (61/21)
- 03Column FilterSeleção das variáveis explicativas
- 04Column RenamerPadronização para cálculo de ln(valor)
- 05Math FormulaTransformação logarítmica natural
- 06StatisticsEstatísticas descritivas
- 07Linear CorrelationMatriz de correlação / multicolinearidade
- 08Scatter PlotDispersão entre variáveis e valor
- 09Linear Regression LearnerAjuste por mínimos quadrados
05 · Dados
Base de dados e variáveis
Mesma base do TCC original: 82 imóveis urbanos de Arcos-MG. A variável resposta é o valor total do imóvel, transformada por ln(valor) para reduzir assimetria.
| Variável | Média |
|---|---|
| Área construída | 92,61 m² |
| Área do terreno | 226,64 m² |
| Número de quartos | 2,72 |
| Padrão construtivo | 2,13 |
| Valor médio | R$ 156.950,82 |
06 · Análise exploratória
Estatísticas descritivas
O nó Statistics do KNIME confirmou a ausência de valores faltantes e mostrou que área construída e valor total apresentam assimetria positiva — justificativa para a transformação logarítmica adotada.
07 · Relações
Análise de correlação
A área construída apresentou a maior associação linear com o valor do imóvel. As demais variáveis ficaram em faixa moderada, compatível com o esperado.
| Variável | Correlação com Valor |
|---|---|
| Área construída | ≈ 0,83 |
| Padrão construtivo | ≈ 0,64 |
| Área do terreno | ≈ 0,62 |
| Número de quartos | ≈ 0,60 |
08 · Visualizações
Gráficos de dispersão
Os gráficos de dispersão gerados no KNIME confirmaram as relações esperadas: tendência crescente entre área construída e valor, e maior dispersão para área do terreno.
09 · Resultados
Modelo de regressão linear
R²
0,7507
R² Ajustado
0,7329
| Variável | Coeficiente |
|---|---|
| Intercepto | 10,58 |
| Área construída | 0,0034 |
| Área do terreno | 0,0007 |
| Número de quartos | 0,0833 |
| Padrão construtivo | 0,2761 |
Área construída e padrão construtivo apresentaram elevada significância estatística. A área do terreno ficou em significância limítrofe e o número de quartos teve menor influência individual.
10 · Confronto metodológico
Comparação: TCC 2015 × KNIME 2026
Ambos os modelos partem da mesma base de 82 imóveis, mesma divisão treino/validação e mesma transformação logarítmica. A diferença principal está no tratamento da variável número de quartos: no TCC ela foi usada com transformação inversa (1/x); no KNIME, na forma linear.
Equação — TCC 2015 (SisDEA)
Equação — KNIME 2026
| Indicador | TCC 2015 | KNIME 2026 |
|---|---|---|
| Base de dados | 82 imóveis | 82 imóveis |
| Treinamento | 61 | 61 |
| Validação | 21 | 21 |
| Método | Regressão Linear Múltipla | Regressão Linear Múltipla |
| Estimação | Mínimos Quadrados | Mínimos Quadrados |
| Software | SisDEA Windows | KNIME Analytics Platform |
| Correlação (R) | 0,8696 | 0,8664 |
| R² | 0,7563 | 0,7507 |
| R² Ajustado | 0,7389* | 0,7329 |
| Variável nº de quartos | Transformação 1/x | Forma linear |
| Variável resposta | ln(Valor) | ln(Valor) |
| Variável mais influente | Área construída | Área construída |
* R² Ajustado do TCC calculado a partir de R² = 0,7563, n = 61 e p = 4 (não apresentado explicitamente no estudo original).
Mesmo em plataformas diferentes, os modelos produziram coeficientes de magnitude semelhante e a mesma hierarquia de importância entre as variáveis. As diferenças observadas decorrem do tratamento da variável número de quartos (1/x no SisDEA, linear no KNIME) e de critérios numéricos internos de cada software. O estudo demonstra que ferramentas modernas de Ciência de Dados podem ser aplicadas com sucesso em Engenharia de Avaliações.
11 · Reflexão crítica
Discussão
Além de coeficientes consistentes, o KNIME entrega vantagens práticas em relação a softwares tradicionais: construção visual do fluxo, maior transparência das etapas analíticas, fácil replicação dos experimentos e integração com algoritmos de Machine Learning. Todo o pipeline pode ser reexecutado sem reconfiguração, garantindo reprodutibilidade — característica essencial tanto em pesquisa acadêmica quanto em aplicações profissionais.
12 · Síntese
Conclusão
Os objetivos foram plenamente alcançados. Foi possível reproduzir, no KNIME Analytics Platform, a metodologia do TCC de 2015, obtendo resultados muito próximos aos originais — com diferenças inferiores a 1 ponto percentual em R² e R² Ajustado. A hierarquia das variáveis e a equação final mantêm o mesmo comportamento estatístico, confirmando que plataformas modernas de Ciência de Dados são plenamente adequadas a aplicações de Engenharia de Avaliações.
Anexos