Abstract : | Σε αυτή την εργασία θα αναλύουμε ένα σύνολο δεδομένων, που προέρχεται από έναν δημόσιο ιστότοπο, το οποίο περιλαμβάνει ιδιοκτησίες που βρίσκονται στην Ελλάδα και είναι προς πώληση. Ένας από τους στόχους μας είναι η δημιουργία προβλεπτικών μοντέλων για την ζητούμενη τιμή των ιδιοκτησιών, έχοντας ως δεδομένα τα χαρακτηριστικά τους. Επίσης εξετάζουμε πώς μπορούμε να εκμεταλλευτούμε την τοποθεσία για να βελτιώσουμε την πρόβλεψή μας. Οι τύποι μοντέλων που χρησιμοποιήσαμε είναι: Κανονική Γραμμική Παλινδρόμηση, Παλινδρόμηση LASSO, Παλινδρόμηση LAD και Random Forests. Επιπλέον, αναλύουμε το περιθώριο διαπραγμάτευσης στην τιμή τις ιδιοκτησίας και πώς επηρεάζεται από την τοποθεσία και άλλα χαρακτηριστικά της ιδιοκτησίας. Για να κατανοήσουμε πώς τα χαρακτηριστικά της ιδιοκτησίας επηρεάζουν το περιθώριο διαπραγμάτευσης, κατασκευάζουμε ένα ερμηνευτικό μοντέλο γραμμικής παλινδρόμησης και ερμηνεύουμε τους συντελεστές. Σε πρώτο στάδιο αυτό γίνετε για όλη την χώρα συνολικά και στη συνέχεια επιλέγουμε να επικεντρωθούμε στις τρεις νομαρχίες με τις περισσότερες ιδιοκτησίες. Ακόμα, παρέχουμε χάρτες θερμότητας ώστε να διακρίνουμε τοποθεσίες όπου το περιθώριο διαπραγμάτευσης εμφανίζετε να είναι μεγαλύτερο από το συνηθισμένο. Φυσικά, πριν κάνουμε όλα τα παραπάνω, παρουσιάζουμε μια λεπτομερή περιγραφική ανάλυση του συνόλου δεδομένων, όπου επισημαίνουμε ενδιαφέροντα γεγονότα και παράξενες συμπεριφορές που εντοπίσαμε. In this project, we analyze a dataset for a commercial website that contains properties located in Greece and are up for sale. One of the goals is to make predictive models for the asking price of properties given their characteristics, and especially how to use the location of the properties to get better predictions. The type of models we used are Standard Linear Regression, LASSO Regression, LAD Regression, and Random Forests. Also, in this project, we analyze the negotiation margin, and how it is affected by the location and other property characteristics. To understand how property characteristics influence the negotiation margin, we construct an explanatory linear regression model and interpret the beta coefficients. We do this for the whole country and then we specifically choose to focus on the three prefectures with the most properties, where do the same. Also, we provide heatmaps in order to find locations where the negotiation margin is larger than usual. Of course, before we do all the above, we present a thorough explanatory analysis of the dataset where we point out interesting facts and bizarre behaviors of the dataset.
|
---|