Please use this identifier to cite or link to this item:
https://ri.ufs.br/jspui/handle/riufs/19584
Document Type: | Monografia |
Title: | Detecção de anomalias em um conjunto de dados de imóveis comerciais no município de Aracaju |
Authors: | Santos, Anderson dos |
Issue Date: | 11-Apr-2024 |
Advisor: | Araujo, Luiz Henrique Gama Dore de |
Resumo : | O presente trabalho emprega o fator de anomalia local (LOF) na detecção de anomalias em um conjunto de dados de imóveis comerciais, localizados no município de Aracaju, disponibilizado pelo Observatório do Mercado Imobiliário de Aracaju (OMI-AJU), da Secretaria Municipal da Fazenda de Aracaju (SEMFAZ). Um conhecido procedimento semi-automático para seleção dos valores ótimos dos hiperparâmetros envolvidos no cálculo do LOF é aplicado. Como os dados são de tipos mistos, isto é, quantitativos e qualitativos, adota-se, para o cálculo do LOF, a distância de Gower. Seis anomalias são identificadas. A anomalia com maior LOF é um imóvel com 14 pavimentos, no bairro Centro. Há três outros imóveis, com 14 pavimentos, nesse mesmo bairro. Os valores das variáveis, referentes a esses três imóveis, são, praticamente, os mesmos e são diferentes do daquele identificado como anomalia. Isso pode explicar a anomalia, sugerindo haver erro nos dados referentes a esses três imóveis ou que tais dados tratam-se de observações repetidas. A anomalia com menor LOF é um imóvel, também no Centro, que está entre os mais caros do município, mas possui densidade comercial muito superior àquelas desse grupo de imóveis, o que sugere uma incompatibilidade entre o valor do imóvel identificado como anomalia e sua densidade comercial. Além de contribuir com o OMI-AJU/SEMFAZ, fornecendo mecanismos para identificação de anomalias que podem interferir negativamente na qualidade e na modelagem dos dados imobiliários, o presente trabalho apresenta uma contribuição metodológica para o campo da detecção de anomalias, a qual consiste no uso do referido procedimento de seleção semi-automática dos hiperparâmetros do LOF, combinado com a distância de Gower, para identificar anomalias em conjuntos de dados de tipos mistos. |
Abstract: | The present work uses the local anomaly factor (LOF) to detect anomalies in a data set of commercial properties, located in the city of Aracaju, made available by the Aracaju Real Estate Market Observatory (OMI-AJU), of the Municipal Finance Secretariat. from Aracaju (SEMFAZ). A well-known semi-automatic procedure for selecting the optimal values of the hyperparameters involved in the LOF calculation is applied. As the data are of mixed types, that is, quantitative and qualitative, the Gower distance is adopted to calculate the LOF. Six anomalies are identified. The anomaly with the highest LOF is a property with 14 floors, in the Centro neighborhood. There are three other properties, with 14 floors, in the same neighborhood. The values of the variables, referring to these three properties, are practically the same and are different from the one identified as an anomaly. This may explain the anomaly, suggesting that there is an error in the data relating to these three properties or that such data are repeated observations. The anomaly with the lowest LOF is a property, also in the Center, which is among the most expensive in the municipality, but has a much higher commercial density than that of this group of properties, which suggests an incompatibility between the value of the property identified as an anomaly and its density commercial. In addition to contributing to OMI-AJU/SEMFAZ, providing mechanisms for identifying anomalies that can negatively interfere with the quality and modeling of real estate data, this work presents a methodological contribution to the field of anomaly detection, which consists of using of the aforementioned semi-automatic selection procedure for LOF hyperparameters, combined with the Gower distance, to identify anomalies in mixed-type data sets. |
Keywords: | Estatística Ensino superior (UFS) Aprendizagem de máquina Detecção de anomalias Valores atípicos Métodos não-supervisionados Métodos semi-automáticos Fator de anomalia local Dados de tipos mistos Distância de Gower Machine learning Anomaly detection Outliers Unsupervised methods Semiautomatic methods Local outlier factor LOF Mixed type data Gower’s distance |
Subject CNPQ: | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS |
Language: | por |
Institution: | Universidade Federal de Sergipe (UFS) |
Department: | DECAT - Departamento de Estatística e Ciências Atuariais – Estatística – São Cristóvão - Presencial |
Citation: | Santos, Anderson dos. Detecção de anomalias em um conjunto de dados de imóveis comerciais no município de Aracaju. São Cristóvão, 2024. Monografia (graduação em Estatística) – Departamento de Estatística e Ciências Atuariais, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, SE, 2024 |
URI: | https://ri.ufs.br/jspui/handle/riufs/19584 |
Appears in Collections: | Estatística e Ciências Atuariais |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Anderson_Santos.pdf | 750,34 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.