Conference PaperPDF Available

Base de dados: Contratação pública em Portugal entre 2015 e 2022

Authors:

Abstract

Atualmente, o setor da Arquitetura, Engenharia e Construção (AEC) exibe uma enorme escassez de informação sistematizada, sobre a forma de bases de dados (BD). Esta carência apresenta-se como um crescente obstáculo à implementação de novas metodologias no setor, que apresentam já um elevado sucesso noutras indústrias. Esta escassez contrasta ainda com o funcionamento intrínseco do setor AEC, que ao longo de todo o processo construtivo gera um elevado volume de documentação. Nomeadamente, o procedimento de contratação e concurso público é dos procedimentos mais bem documentados ao longo deste processo, dispondo de um acesso aberto a todos os dados a ele associados, ainda que careçam de tratamento e sistematização. Com o objetivo de contribuir para a sistematização da informação do setor, o presente trabalho resume os passos desenvolvidos para a obtenção e tratamento destes dados, através de um algoritmo scraping, disponibilizando a BD obtida. A BD resultante é composta por 5214 contratos únicos, caracterizados com 37 propriedades distintas. Ao longo do artigo são identificadas oportunidades futuras de desenvolvimento que podem ser suportadas por esta BD, aplicando técnicas de análise estatística descritiva e algoritmos de inteligência artificial, nomeadamente, machine learning (ML). Refere-se ainda a possibilidade de continuar o processo de expansão da BD e de a traduzir para língua inglesa de modo a ampliar o âmbito das análises a realizar. Introdução Durante a fase de concurso de uma empreitada pública, são emitidos diferentes documentos que descrevem o projeto a executar. As entidades que pretendam participam nestes concursos devem estudar as variáveis que afetam a empreitada como: o preço base, o tempo de submissão ou o tipo de construção; e adaptar a sua proposta a cada caso específico. A entidade contratante pondera cada proposta e determina a quem adjudicar com base numa série de fatores, como: o preço, o prazo ou a valia técnica. Assim, se forem tomadas as diligências necessárias, existe nesta fase uma enorme oportunidade de aglomeração de dados. Contudo, devido à natureza do processo de contratação, extrair informação consistente destes dados é um desafio, tornando a sua análise demorada e inconsistente, uma vez que, a qualidade dos dados depende frequentemente do indivíduo que a submete. A emergência da metodologia Big Data tem tido um impacto disruptivo em várias indústrias, afetando também o setor da AEC [1]. Nos últimos anos, o acesso, armazenamento e uso de dados tem apresentado uma crescente importância neste setor, em grande parte impulsionada pela disseminação de novas tecnologias que permitem uma expedita geração de elevados volumes de dados. Esta nova magnitude de informação amplia significativamente o âmbito da sua utilização [2], sendo que a sua disponibilização sobre a forma de BDs possibilita que investigadores e técnicos
Congresso Construção 2022
5, 6 e 7 de dezembro de 2022
Guimarães, Portugal
55
Base de dados: Contratação pública em Portugal entre 2015 e 2022
JACQUES de SOUSA Luís1,a, POÇAS MARTINS João2,b e SANHUDO
Luís3,c
1Faculdade de Engenharia da Universidade do Porto, 4200-465 Porto, Portugal
2 CONSTRUCT/GEQUALTEC, FEUP DEC, Porto, Portugal
3 BUILT CoLAB Collaborative Laboratory for the Future Built Environment, 4150-003 Porto,
Portugal
aup201604212@fe.up.pt, bjppm@fe.up.pt, cluis.sanhudo@builtcolab.pt
Palavras-chave: Base de dados, Database, Contratação Pública, Procurement, Concurso,
Tender.
Resumo. Atualmente, o setor da Arquitetura, Engenharia e Construção (AEC) exibe uma enorme
escassez de informação sistematizada, sobre a forma de bases de dados (BD). Esta carência
apresenta-se como um crescente obstáculo à implementação de novas metodologias no setor, que
apresentam um elevado sucesso noutras indústrias. Esta escassez contrasta ainda com o
funcionamento intrínseco do setor AEC, que ao longo de todo o processo construtivo gera um
elevado volume de documentação. Nomeadamente, o procedimento de contratação e concurso
público é dos procedimentos mais bem documentados ao longo deste processo, dispondo de um
acesso aberto a todos os dados a ele associados, ainda que careçam de tratamento e sistematização.
Com o objetivo de contribuir para a sistematização da informação do setor, o presente trabalho
resume os passos desenvolvidos para a obtenção e tratamento destes dados, através de um algoritmo
scraping, disponibilizando a BD obtida. A BD resultante é composta por 5214 contratos únicos,
caracterizados com 37 propriedades distintas. Ao longo do artigo são identificadas oportunidades
futuras de desenvolvimento que podem ser suportadas por esta BD, aplicando técnicas de análise
estatística descritiva e algoritmos de inteligência artificial, nomeadamente, machine learning (ML).
Refere-se ainda a possibilidade de continuar o processo de expansão da BD e de a traduzir para
língua inglesa de modo a ampliar o âmbito das análises a realizar.
Introdução
Durante a fase de concurso de uma empreitada pública, são emitidos diferentes documentos que
descrevem o projeto a executar. As entidades que pretendam participam nestes concursos devem
estudar as variáveis que afetam a empreitada como: o preço base, o tempo de submissão ou o tipo
de construção; e adaptar a sua proposta a cada caso específico. A entidade contratante pondera cada
proposta e determina a quem adjudicar com base numa série de fatores, como: o preço, o prazo ou a
valia técnica. Assim, se forem tomadas as diligências necessárias, existe nesta fase uma enorme
oportunidade de aglomeração de dados. Contudo, devido à natureza do processo de contratação,
extrair informação consistente destes dados é um desafio, tornando a sua análise demorada e
inconsistente, uma vez que, a qualidade dos dados depende frequentemente do indivíduo que a
submete.
A emergência da metodologia Big Data tem tido um impacto disruptivo em várias indústrias,
afetando também o setor da AEC [1]. Nos últimos anos, o acesso, armazenamento e uso de dados
tem apresentado uma crescente importância neste setor, em grande parte impulsionada pela
disseminação de novas tecnologias que permitem uma expedita geração de elevados volumes de
dados.
Esta nova magnitude de informação amplia significativamente o âmbito da sua utilização [2],
sendo que a sua disponibilização sobre a forma de BDs possibilita que investigadores e técnicos
tomem melhores decisões, suportadas pelos dados históricos armazenados [3]. Adicionalmente,
estatística descritiva e ML são exemplos de tecnologias intimamente ligadas e dependentes da
disponibilização destes grandes volumes de dados, sendo que o acesso a esta informação representa
a eliminação do principal bloqueio ao desenvolvimento e aplicação destas tecnologias no setor AEC
[1, 4, 5] permitindo o usufruto das suas vantagens.
Contudo, a adoção destas tecnologias no setor AEC encontra-se num estado de desenvolvimento
relativamente atrasado quando comparado com setores análogos [1, 6], em grande parte devido ao
seu difícil acesso, devido à resistência, por parte dos intervenientes, em partilhar informação,
frequentemente considerada de carácter confidencial. Neste sentido, recentemente, têm existido
esforços crescentes para disponibilizar BDs focadas em diferentes âmbitos do setor, como:
renovação de edifícios [7]; habitação e urbanismo [8], imobiliário [9]; sismologia em edifícios [10];
materiais de construção [11]; eficiência energética [12]; e análise do ciclo de vida [13]. Este
documento suplementa este estado da arte com a publicação de uma BD relativa ao processo de
contratação pública e ao desempenho dos projetos públicos.
O restante artigo encontra-se organizado em quatro capítulos. O Capítulo 2 esclarece a
metodologia para a obtenção, processamento e publicação dos dados. O Capítulo 3 carateriza a
amostra obtida e descreve todas as variáveis constituintes da BD. O Capítulo 4 sugere futuros
caminhos de pesquisa e, por fim, o Capítulo 5 conclui o trabalho, resumindo os principais resultados
obtidos.
Metodologia
Conforme ilustrado na Figura 1, a metodologia inicia-se com a recolha de informação a partir do
Portal Base o repositório nacional de procedimentos de concursos de contratação pública. Esta
recolha restringiu-se a contratos com data de fecho entre 2015 e 2022, bem como a empreitadas de
obras públicas. De realçar que a exclusão de contratos anteriores a 2015 teve como fundamentação
as alterações ao Diário da Républica Eletrónico (DRE), que criam desassociações de hiperligações
ao Portal Base.
Desta filtragem resultaram 5253 contratos, cujos dados foram extraídos e armazenados através
de um webscraper criado para o efeito. Entre os diferentes campos de valores extraídos, pode existir
o link URL para o local de publicação do anúncio do procedimento, publicado no DRE. Caso
exista, o PDF do anúncio é também descarregado e as suas informações coletadas e armazenadas
através de um PDF scraper. Caso não exista, é armazenada informação que indica a falta desse
documento.
De seguida, os dados contratuais provenientes do Portal Base, e os dados do anúncio do
procedimento provenientes do DRE, são compilados num único ficheiro json, representativo de toda
a informação obtida acerca dos 5253 contratos identificados.
Por fim, para publicação da BD, foi realizada uma exportação do ficheiro json para Excel, onde
os dados foram processados para homogeneização da informação, limpeza de dados errados e/ou
omitidos e remoção de outliers. Deste processamento resultaram 5214 contratos, caracterizados por
37 variáveis, que dão origem à BD disponibilizada neste artigo, sobre o formato xlsx. Os conteúdos
desta BD são explorados no capítulo que se segue.
Figura 1: Metodologia para a obtenção e processamento dos dados
Caracterização da amostra
As BD disponibilizada é composta por 5214 registos (contratos com propriedades únicas), cada um
caracterizado por um conjunto de 37 campos (características das propriedades ou outras variáveis).
A Tabela 1 caracteriza estes campos para melhor compreensão da BD, apresentando o seu:
nome título do campo na respetiva coluna do ficheiro Excel;
descrição breve descrição do conteúdo de cada campo;
esquema de codificação formato do valor de cada campo (i.e., inteiro, texto, lógico, data,
monetário, percentagem ou alfanumérico);
unidade de medição unidade de medição do valor de cada campo.
Tabela 1: Explicação das propriedades da base de dados
Nome Descrição Esquema de
Codificação
Unidade de
medição
ID Número de Identificação Inteiro N/A
Descrição Breve Descrição breve do objeto do contrato Texto N/A
Cpvs
Código Cpvs
Texto
N/A
gnaçã
o Cp
vs
Des
ignação do código C
pvs
Texto
N/A
Critério Ambiental Se o critério ambiental foi considerado no
concurso
(VERDADEIR
O
-
FALSO)
Lógico N/A
Ano de publicação Ano de publicação do concurso em Diário da
Républica
Data N/A
Ano de fecho
Ano
de
fech
o do
proc
esso n
o Portal Base
Data
N/A
País
País
d
e execução da obra
Text
o
N/A
Município Município de execução da obra Texto N/A
Distrito Distrito da execução da obra Texto N/A
Código de Distrito Código identificador de distrito, organizado por
ordem alfabética e numerado de 1 a 20
Inteiro N/A
Prazo de submissão Prazo de submissão da proposta Inteiro Dias
Data de celebração Data de celebração do Contrato Data dd-mm-aaaa
Data de fecho Data de fecho do processo no Portal Base Data dd-mm-aaaa
Diferença entre data de
celebração e fecho
Diferença entre data de celebração e fecho Inteiro Dias
Prazo de execução Prazo previsto para a execução da obra Inteiro Dias
Preço Base
Pre
ço base para
propostas a concurso
Monetário
Preço Inicial Preço inicial acordado entre adjudicatário e
adjudic
an
te
Monetário
Categoria Preço I. 1 - Entre 0 e 250 mil; 2 - entre 250 mil e 1
Milhão; 3 acima de 1 Milhão
Inteiro N/A
Preço Efetivo Preço efetivo no final da obra Monetário
Diferença de preço Diferença entre preço inicial e preço efetivo Monetário
Percentagem da Diferença de
preço
Preço Inicial dividido pelo Preço Efetivo Percentagem Percentagem
Critério de adjudicação Critério de adjudicação utilizado classificar as
propostas durante o concurso público
Texto N/A
Categoria do Critério de
adjud
icação
1 - Critério multifator; 2 - Critério preço mais
baixo
; 0
-
Critério de adjudicação em falta
Inteiro N/A
Classificação do critério
mu
ltifator
ultifator Percentagem Percentagem
Caução Valor da caução, se aplicável Alfanumérico
Percentagem,
lógico
Publicado no Jornal EU Se o contrato foi publicado em jornal da união
europeia
Lógico N/A
Tipo de fim do contrato 1 Cumprimento integral do contrato 2
Cumprimento não integral do contrato
Texto N/A
Número de concorrentes Número de concorrentes do concurso Inteiro N/A
Envolve aquisição conjunta Se o contrato envolve aquisição por várias
entidades (VERDADEIRO-FALSO-N/A)
Lógico N/A
Adjudicado por uma central de
compras
Se o contrato foi adjudicado por uma central de
compras (VERDADEIRO-FALSO-N/A)
Lógico N/A
Celebração de um acordo
quadro
Se o contrato foi celebrado por um acordo quadro
(VERDADEIRO-FALSO-N/A)
Lógico N/A
Leilão eletrónico Se o contrato foi executado com recurso a leilão
eletrónico (VERDADEIRO-FALSO-N/A)
Lógico N/A
Adotada uma fase de
negociação
Se foi adotada uma fase de negociação
(VERDADEIRO-FALSO-N/A)
Lógico N/A
Contratação por lotes Se a contratação se realizou por lotes
(VERDADEIRO-FALSO-N/A)
Lógico N/A
Justificação para mudança de
prazo
Justificação para mudança de prazo (formato
livre)
Texto N/A
Justificação para mudança de
preço
Justificação para mudança de preço (formato
livre)
Texto N/A
De realçar que dos 37 campos, 6 foram criados pelos autores, à posteriori, através da associação
entre propriedades ou para classificação das mesmas. A seguinte lista enumera-as e justifica a sua
criação:
Facilita a identificação do distrito;
a - Permite determinar a pontualidade com que
as informações finais são subscritas no Portal Base;
Separação arbitrária dos autores com intuito de separar diferentes
obras por dimensão com vista a analises estatísticas;
Permite determinar o desempenho da obra;
Permite determinar a proporção dos deslizes para
isolar os casos significativos;
Categoria dada tendo em conta o critério utilizado,
se multifator, exclusivamente económico ou em falta.
Disponibilização da base de dados
A BD encontra-se disponível para acesso ao público via github
(https://github.com/LuisJSousa/Portuguese-Public-Procurement-Database) mediante pedido formal
aos autores deste trabalho. Os utilizadores terão acesso a duas versões: uma versão com a
informação tratada em formato xlsx (i.e., com a constituição apresentada no Capítulo 3 desta
comunicação) e outra com os dados brutos em formato json.
O repositório indicado contém ainda um conjunto de documentos de suporte: uma tabela de
apoio à consulta do ficheiro xlsx; um PDF com a nomenclatura do ficheiro json; e um ficheiro com
código Python para suporte à consulta do ficheiro json. O código fornece exemplos de codificação
simples para extração de dados e o tipo de informação/propriedades que podem ser obtidos a partir
do ficheiro. A estrutura de dados proposta permite obter informações adicionais detalhadas sobre os
contratos da BD.
Conclusão
Dados fidedignos que traduzem as tendências do mercado da Construção são um recurso escasso na
indústria da Construção. Para o setor AEC acompanhar os desenvolvimentos tecnológicos de
indústrias semelhantes nas áreas da estatística descritiva e ML, são necessários esforços no sentido
de gerar, armazenar e partilhar dados.
O presente documento aborda esta realidade de forma direta através da publicação de uma BD
relativa à contratação pública no setor. Através do desenvolvimento de algoritmos de webscraping e
PDF scraping, em Python, foi possível aceder, armazenar e processar a informação contida no
Portal Base, bem como a informação contida nos anúncios dos procedimentos publicados no DRE.
O grande volume de dados reunidos foram estruturados num ficheiro Excel, constituído por 5214
contratos únicos com 37 propriedades diferentes.
O acesso a uma base extensa de dados bem estruturada abre portas para o desenvolvimento de
trabalhos de investigação em diferentes disciplinas, como se refere no Capítulo 1. Deste modo,
prevê-se que trabalhos futuros realizem a análise estatística descritiva de toda a informação
recolhida, com o intuito de realizar o benchmarking das obras públicas em Portugal e de identificar
tendências e melhores práticas no momento da adjudicação para a indústria da Construção.
Adicionalmente, prevê-se a tradução desta BD para língua inglesa e subsequente partilha com a
comunidade científica internacional, com o objetivo de facultar estes dados a um maior leque de
investigadores. Por fim, é ainda previsto que esta BD sirva de repositório para treino e avaliação de
algoritmos de previsão (baseados em ML) com duas vertentes distintas: (1) identificação de features
no texto; e (2) previsão do sucesso de uma da obra, em função da informação do contrato.
A disponibilização da BD ao público é um incentivo ao trabalho colaborativo, permitindo que
outros investigadores possam explorar diferentes aplicações para os dados recolhidos.
Agradecimentos
Este trabalho foi financiado por: Financiamento Base - UIDB/04708/2020 da Unidade de
Investigação CONSTRUCT - Instituto de I&D em Estruturas e Construções - financiada por fundos
nacionais através da FCT/MCTES (PIDDAC). Este trabalho é também cofinanciado pelo Fundo
Social Europeu (FSE), através do Programa Operacional Regional do Norte (Norte 2020)
[Referência de Financiamento: NORTE-06-3559-FSE-000176].
Referências
[1] H. S. Munawar et al., Big Data in Construction: Current Applications and Future
Opportunities, Big Data and Cognitive Computing, vol. 6, no. 1, (2022) 18.
[2] Phaneendra, Seethamraju and E. M. Reddy, Big Data - Solutions for Rdbms Problems - a
Survey, 2013.
[3] W. Xu et al., A Personalized Information Recommendation System for R&D Project
Opportunity Finding in Big Data Contexts, Journal of Network and Computer Applications,
vol. 59, (2016) 362-369, doi: https://doi.org/10.1016/j.jnca.2015.01.003.
[4] H. H. Elmousalami, Data on Field Canals Improvement Projects for Cost Prediction Using
Artificial Intelligence, Data in Brief, vol. 31, (2020) 105688, doi: 10.1016/j.dib.2020.105688.
[5] L. Jacques de Sousa et al., Algoritmos De Classificação De Texto Na Automatização Dos
Processos Orçamentação,
Braga, Portugal, 2022.
[6] S. M. E. Sepasgozar and S. Davis, Construction Technology Adoption Cube: An Investigation
on Process, Factors, Barriers, Drivers and Decision Makers Using Nvivo and Ahp Analysis,
Buildings, vol. 8, no. 6, (2018) 74.
[7] T. Stout et al., United States Department of Defense (Dod) Real Property Repair, Alterations,
Maintenance, and Construction Project Contract Data: 2009 2020, Data in Brief, vol. 32,
(2020) 106128, doi: https://doi.org/10.1016/j.dib.2020.106128.
[8] A. O. Afolabi et al., Statistical Exploration of Dataset Examining Key Indicators Influencing
Housing and Urban Infrastructure Investments in Megacities, Data in Brief, Data paper vol. 18,
(2018) 1725-173, doi: 10.1016/j.dib.2018.04.089.
[9] P. Bonifaci and S. Copiello, Real Estate Market and Building Energy Performance: Data for a
Mass Appraisal Approach, Data in Brief, vol. 5, (2015) 1060-1065, doi:
https://doi.org/10.1016/j.dib.2015.11.027.
[10] X. Guan M.Eeri et al., A Database of Seismic Designs, Nonlinear Models, and Seismic
Responses for Steel Moment-Resisting Frame Buildings, Earthquake Spectra, Data paper vol.
37, no. 2, (2021) 1199-1222, doi: 10.1177/8755293020971209.
[11] G. Guven et al., A Construction Classification System Database for Understanding Resource
Use in Building Construction, Scientific Data, Data paper vol. 9, (2022) no.1, Art no. 42, doi:
10.1038/s41597-022-01141-8.
[12] T. M. Uidhir et al., Residential Stock Data and Dataset on Energy Efficiency Characteristics of
Residential Building Fabrics in Ireland, Data in Brief, vol. 29, (2020) 105247, doi:
https://doi.org/10.1016/j.dib.2020.105247.
[13] A. Kortazar et al., Dataset for the Life Cycle Assessment of the High Speed Rail Network in
Spain, Data in Brief, vol. 36, (2021) 107006, doi: https://doi.org/10.1016/j.dib.2021.107006.
... In the specific case of Portuguese Construction Procurement, public construction projects are mandatorily submitted to online, open-source repositories [9,10]. However, the consultation and extraction of procurement files is decentralised and not automated, making data agglomeration difficult and time-consuming [11]. Previous studies have tackled this difficulty by scraping procurement data in these repositories to a tabular dataset to be used in ML applications [11,12]. ...
... However, the consultation and extraction of procurement files is decentralised and not automated, making data agglomeration difficult and time-consuming [11]. Previous studies have tackled this difficulty by scraping procurement data in these repositories to a tabular dataset to be used in ML applications [11,12]. Thus, if the necessary diligence is ensured, the procurement phase represents a great opportunity for data aggregation. ...
... Following previous work [11,12], a reengineered version of the PPPData algorithm was developed. As highlighted in Figure 1, this new algorithm focused on scraping procurement files from the open-source online repository Portal Base [9] using the Selenium [13] and Chrome Driver [14] Python libraries. ...
Article
Full-text available
The Architecture, Engineering, and Construction (AEC) sector is observed to have a lower adoption rate of machine learning (ML) tools compared to other industries that share similar characteristics. A significant contributing factor to this lower adoption rate is the limited availability of data, as ML techniques rely on large datasets to train algorithms effectively. However, the construction process generates substantial data that provide a detailed characterisation of the project. This inclination towards generating abundant data in the Construction sector contradicts ML developers' prevailing challenge in sourcing sufficient data within the AEC industry. In the specific case of Portuguese Construction Procurement, public construction projects are mandatorily submitted to online, open-source repositories. However, the consultation and extraction of procurement files is decentralised and not automated, making data agglomeration difficult and time-consuming. In this sense, this paper presents a data-scraping algorithm to scrape construction procurement repositories to develop an ML-ready dataset of training data for ML and Natural Language Processing (NLP) algorithms focused on the Construction sector's procurement phase. This tool automatically scrapes procurement repositories, developing a procurement file dataset comprising bills of quantities (BoQ) and project specifications. In future studies, the dataset will be processed into a standardised format suitable for NLP BOQ task-matching algorithms. These matching algorithms will aim to automate construction budgeting for tender proposal purposes.
... A qualidade e quantidade de dados é crucial para o desenvolvimento de aplicações ML e representam o maior desafio conceptual para a implementação destas tecnologias em Construção. No entanto, apenas recentemente a importância da gestão e armazenamento de dados foi reconhecida pelo setor AEC havendo a publicação de alguns trabalhos que partilham bases de dados abertas preparadas para suportar aplicações de ML [18,19]. Neste sentido, este estudo utilizou dados provenientes da base de dados Portuguese Public Procurement Database (PPPData), que inclui mais de 5000 contratos de públicos provenientes do Portal Base e do Diário da República Eletrónico e que estão caracterizados por 37 propriedades distintas de 2015 a 2022 [18,19]. ...
... No entanto, apenas recentemente a importância da gestão e armazenamento de dados foi reconhecida pelo setor AEC havendo a publicação de alguns trabalhos que partilham bases de dados abertas preparadas para suportar aplicações de ML [18,19]. Neste sentido, este estudo utilizou dados provenientes da base de dados Portuguese Public Procurement Database (PPPData), que inclui mais de 5000 contratos de públicos provenientes do Portal Base e do Diário da República Eletrónico e que estão caracterizados por 37 propriedades distintas de 2015 a 2022 [18,19]. ...
Conference Paper
Full-text available
Os projetos de adjudicação públicos são influenciados e decididos de acordo com um conjunto de fatores como o preço base, o prazo de submissão, o número de propo‑nentes, entre outros. Estes fatores podem ter impacto na conformidade orçamental do projeto. Tradicionalmente a previsão da conformidade orçamental em projetos de construção tem demonstrado ser um grande desafio devido à imprevisibilidade característica de projetos de construção. Não obstante, as técnicas de aprendizagem de máquinas podem oferecer importantes ferramentas de apoio a decisão, através de previsões de conformidade com base em dados históricos. Aplicações anteriores de aprendizagem de máquinas centraram-se em previsões do custo total da obra com base em dados privados da fase de execução dos projetos, salvo algumas exceções. Neste sentido, este estudo introduz um modelo de aprendizagem de máquinas automática que utiliza dados abertos da fase de adjudicação para prever a conformidade económica de projetos de construção pública. O modelo prevê o cumprimento do orçamento através da análise de diferentes características dos contratos de projetos públicos. Este estudo explora várias arquiteturas de algoritmos e técnicas de tratamento de dados para escolher o modelo com melhor desempenho com o objetivo de auxiliar o dono de obra na definição os requisitos do concurso. Ferramentas de aprendizagem de máquinas podem assim fornecer aos donos de obra informações sobre os critérios mais adequados para cada situação com base em projetos semelhantes, ajudando na tomada de decisões. Estudos futuros devem avaliar o impacto e a capacidade do modelo no fluxo de trabalho das adjudicações públicas.
... uses the PPP Data database, which contains Portuguese public procurement contracts with closing dates between 2015 and 2022, in both Portuguese and English versions [15,19]. The available dataset only covers this period because the data were scraped in 2022 and due to inconsistencies in the hyperlinks of tender notices stored in DRE and other tender data stored in PB from 2015 onwards. ...
Article
Full-text available
During the tender phase of public construction projects in Portugal, documents that describe the project are mandatorily submitted to open data repositories. However, in their current state, most of these repositories do not allow for benchmarking analysis due to a lack of data treatment and cohesion. This paper seeks to diagnose the main trends during the public construction project’s tender phase by performing a descriptive statistical analysis on the Portuguese Public Procurement Database (PPPData), a database that compiles 5172 public procurement contracts in Portugal from 2015 to 2022, to respond to the research gap in construction procurement benchmarking. The results of this statistical analysis draw out the main trends, uncover which tender variables can influence budget compliance, and diagnose Portugal’s public procurement in terms of its geographical, temporal, financial, and performance dispersion. This paper concludes that the award criteria are not correlated with final project performance and that multifactor assessment criteria do not necessarily lead to better performance. High-value projects awarded solely with the price award criterion tend to perform worse than those awarded with the multifactor assessment. The study also identified frequent errors and omissions in construction reporting; thus, there is a need for error mitigation tools.
Article
Full-text available
Purpose Factors like bid price, submission time, and number of bidders influence the procurement process in public projects. These factors and the award criteria may impact the project’s financial compliance. Predicting budget compliance in construction projects has been traditionally challenging, but Machine Learning (ML) techniques have revolutionised estimations. Design/methodology/approach In this study, Portuguese Public Procurement Data (PPPData) was utilised as the model’s input. Notably, this dataset exhibited a substantial imbalance in the target feature. To address this issue, the study evaluated three distinct data balancing techniques: oversampling, undersampling, and the SMOTE method. Next, a comprehensive feature selection process was conducted, leading to the testing of five different algorithms for forecasting budget compliance. Finally, a secondary test was conducted, refining the features to include only those elements that procurement technicians can modify while also considering the two most accurate predictors identified in the previous test. Findings The findings indicate that employing the SMOTE method on the scraped data can achieve a balanced dataset. Furthermore, the results demonstrate that the Adam ANN algorithm outperformed others, boasting a precision rate of 68.1%. Practical implications The model can aid procurement technicians during the tendering phase by using historical data and analogous projects to predict performance. Social implications Although the study reveals that ML algorithms cannot accurately predict budget compliance using procurement data, they can still provide project owners with insights into the most suitable criteria, aiding decision-making. Further research should assess the model’s impact and capacity within the procurement workflow. Originality/value Previous research predominantly focused on forecasting budgets by leveraging data from the private construction execution phase. While some investigations incorporated procurement data, this study distinguishes itself by using an imbalanced dataset and anticipating compliance rather than predicting budgetary figures. The model predicts budget compliance by analysing qualitative and quantitative characteristics of public project contracts. The research paper explores various model architectures and data treatment techniques to develop a model to assist the Client in tender definition.
Conference Paper
Full-text available
As aplicações de gestão da Construção incluem dados relativos à duração de tarefas, orçamentação, qualidade, segurança em obra, entre outros tópicos. No caso específico da orçamentação, as empresas de Construção são obrigadas a avaliar o âmbito de cada tarefa, mapeando as expectativas do cliente (expressas no mapa de quantidade de trabalho) para uma base de dados interna de tarefas, recursos e custos. Esta avaliação é frequentemente realizada por técnicos dentro de restrições de tempo muito austeras, apesar de os resultados obtidos através desta avaliação serem fulcrais para a qualidade e competitividade das propostas emitidas, para além de serem contratualmente vinculativas. Com o objetivo de melhorar o desempenho desta tarefa, a presente comunicação explora a possibilidade de automatizar esta avaliação manual utilizando algoritmos de classificação de texto. Assim, propõe ‑se um protocolo para revisão de literatura sobre este tópico utilizando o método PRISMA (Preferred Reporting Items for Systematic reviews and Meta‑Analyses). É realizada uma análise preliminar da literatura recolhida, permitindo a definição de um framework para apoiar uma abordagem automatizada à orçamentação. Embora a automatização total não seja um objetivo verosímil, nem desejado, a curto prazo, especialmente devido à falta de especificações de construção padrão em Portugal, os algoritmos de classificação de texto podem fornecer ferramentas úteis de apoio à decisão. Estes algoritmos requerem grandes volumes de dados, que podem ser obtidos através da sua utilização contínua, pelo que será necessário mais trabalho para desenvolver fluxos de operações abrangentes.
Article
Full-text available
The building sector is a voracious consumer of primary materials. However, the study of building material use and associated impacts is challenged by the paucity of publicly available data in the field and the heterogeneity of data organization and classification between published studies. This paper makes two main contributions. First, we propose and demonstrate a building material data structure adapted from UniFormat and MasterFormat, two widely used construction classification systems in North America. Second, the dataset included provides fine grained material data for 70 buildings in North America. The dataset was developed by collecting design or construction drawings for the studied buildings and performing material takeoffs based on these drawings. The ontology is based on UniFormat and MasterFormat to facilitate interoperability with existing construction management practices, and to suggest a standardized structure for future material intensity studies. The data structure supports investigation into how form and building design are driving material use, opportunities to reduce construction material consumption and better understanding of how materials are used in buildings.
Article
Full-text available
A life cycle assessment (LCA) of the Spanish high speed rail (HSR) network in service in 2016 (2583 km) was conducted. Life cycle inventory (LCI) data related to the construction and maintenance phases of the infrastructure was collected using Google Earth tool, and complemented with data obtained from the LCA carried out by Tuchschmid et al. [1]. LCI data associated with the operation phase of the infrastructure was built on available fragmentary data on passenger movements for the year 2016 [2], [3], [4], processed with a python algorithm to estimate the transport service provided by the infrastructure. Environmental impacts for transport modes were obtained from Ecoinvent v3.7 database [5,6] and processed with openLCA software [7]. Life cycle impact assessment (LCIA) results gathered in the dataset include Global Warming (GWP100a), Cumulative Energy Demand and total emissions for PM10, SO2, NOX and NMVOC. This dataset presents a detailed description of the Spanish HSR network, including the length of each item (bridges, tunnels, earthworks, railway tracks), and a robust estimation of passenger transport over the infrastructure for year 2016. The LCI data presented in this paper support the original research done on whether the construction of Spanish HSR network infrastructure is justified in terms of reducing environmental impacts and energy consumption [8], and may be used as a baseline for future studies on transport economics.
Article
Full-text available
Nearly one-half of all construction projects exceed planned costs and schedule, globally [1]. Owners and construction managers can analyze historical project performance data to inform cost and schedule overrun risk-reduction strategies. Though, the majority of open-source project datasets are limited by the number of projects, data dimensionality, and location. A significant global customer of the construction industry, the Department of Defense (DoD) maintains a vast database of historical project data that can be used to determine the sources and magnitude of construction schedule and cost overruns for many continental and international locations. The selection of data provided by the authors is a subset of the U.S. Federal Procurement Data System-Next Generation (FPDS-NG), which stores contractual obligations made by the U.S. Federal Government [2]. The data comprises more than ten fiscal years (1 Oct 2009 – 04 June 2020) of construction contract attributes that will enable researchers to investigate spatiotemporal schedule and cost performance by, but not limited to: contract type, construction type, delivery method, award date, and award value. To the knowledge of the authors, this is the most extensive open-source dataset of its kind, as it provides access to the contract data of 132,662 uniquely identified construction projects totaling $865 billion. Because the DoD's facilities and infrastructure construction requirements and use of private construction firms are congruent with the remainder of the public sector and the private sector, results obtained from analyses of this dataset may be appropriate for broader application.
Article
Full-text available
Field Canals Improvement Projects is an important sustainable project to save fresh water in our world. Machine learning and artificial intelligence (AI) needs sufficient dataset size to model and predict the cost and duration of Field Canals Improvement Projects. Therefore, this data paper presents dataset includes the key parameters of such project to be used for analyzing and modelling project cost and duration. The data were acquired based on questionnaire survey and collecting historical cases of Field Canals Improvement Projects. The data consists of the following features: area served, total length of PVC pipe line, number of irrigation values, construction year, geographical zone, cost of FCIP, and duration of FCIP construction. The data can be applied to compare and evaluate the performance of machine learning algorithms for predicting cost and duration.
Article
Full-text available
These data support the research article “Improving energy savings from a residential retrofit policy: a new model to inform better retrofit decisions” – (Mac Uidhir et al., 2019) [1]. This article presents 3 data sources which are utilised in conjunction with a detailed energy system model of the residential sector to explore policy pathways for residential retrofitting. Data is collected from the Central Statistics Office (CSO) and the Sustainable Energy Authority of Ireland (SEAI). The first SEAI dataset is compiled for Ireland in compliance with the EU Energy Performance of Buildings Directive (EPBD) [2]. Data is collected using the Dwelling Energy Assessment Procedure (DEAP) [3]. DEAP is used to produce energy performance certificates known as Building Energy Ratings (BER). A BER indicates a buildings energy performance across a 15-point energy efficiency scale, rated alphabetically from A1 to G, in units of kWh/m² year. A BER is required for new buildings and the rent or sale of existing dwellings – therefore the database has consistently grown in size since its inception in 2006. The BER database contains 735,906 records of individual dwellings. The database includes detailed building fabric information across a range of different building types, year of construction, Main/Secondary space/water heating fuels, heating system efficiency, ventilation method and structure type (Insulated concrete form, Masonry, Timber or Steel Frame). The second SEAI dataset (PWBER) contains aggregated pre and post BER information for a sample of 112,007 dwellings retrofitted during the period 2010–2015; this database contains mean energy efficiency improvement (kWh/m² year) for a range of retrofit combinations as they apply to nine distinct building archetypes. The third CSO dataset is compiled from census data, representing the frequency of building types by year of construction.
Article
Full-text available
Lagos, by the UN standards, has attained the megacity status, with the attendant challenges of living up to that titanic position; regrettably it struggles with its present stock of housing and infrastructural facilities to match its new status. Based on a survey of construction professionals’ perception residing within the state, a questionnaire instrument was used to gather the dataset. The statistical exploration contains dataset on the state of housing and urban infrastructural deficit, key indicators spurring the investment by government to upturn the deficit and improvement mechanisms to tackle the infrastructural dearth. Descriptive statistics and inferential statistics were used to present the dataset. The dataset when analyzed can be useful for policy makers, local and international governments, world funding bodies, researchers and infrastructural investors.
Article
Full-text available
Mass appraisal is widely considered an advanced frontier in the real estate valuation field. Performing mass appraisal entails the need to get access to base information conveyed by a large amount of transactions, such as prices and property features. Due to the lack of transparency of many Italian real estate market segments, our survey has been addressed to gather data from residential property advertisements. The dataset specifically focuses on property offer prices and dwelling energy efficiency. The latter refers to the label expressed and exhibited by the energy performance certificate. Moreover, data are georeferenced with the highest possible accuracy: at the neighborhood level for a 76.8% of cases, at street or building number level for the remaining 23.2%. Data are related to the analysis performed in Bonifaci and Copiello [1], about the relationship between house prices and building energy performance, that is to say, the willingness to pay in order to benefit from more efficient dwellings.
Article
Full-text available
Now a day’s increases shared data very fast due to social networking and mobile phone. In olden days the data is less and able to handle most popular RDBMS concepts, but recently it is difficult to handle this much of huge data through old RDBMS tools. To overcome this situation we told to prefer using of Big Data. In this paper, we will outline the origin and history of this new system to handle “Big Data”. We look up to current popular big data systems, illustrated by Hadoop architecture and its current & future use-cases of this system, apache drill high level architecture, applications of Big Data and its challenges.