Content uploaded by Luís Jacques de Sousa
Author content
All content in this area was uploaded by Luís Jacques de Sousa on Dec 07, 2022
Content may be subject to copyright.
Congresso Construção 2022
5, 6 e 7 de dezembro de 2022
Guimarães, Portugal
55
Base de dados: Contratação pública em Portugal entre 2015 e 2022
JACQUES de SOUSA Luís1,a, POÇAS MARTINS João2,b e SANHUDO
Luís3,c
1Faculdade de Engenharia da Universidade do Porto, 4200-465 Porto, Portugal
2 CONSTRUCT/GEQUALTEC, FEUP DEC, Porto, Portugal
3 BUILT CoLAB Collaborative Laboratory for the Future Built Environment, 4150-003 Porto,
Portugal
aup201604212@fe.up.pt, bjppm@fe.up.pt, cluis.sanhudo@builtcolab.pt
Palavras-chave: Base de dados, Database, Contratação Pública, Procurement, Concurso,
Tender.
Resumo. Atualmente, o setor da Arquitetura, Engenharia e Construção (AEC) exibe uma enorme
escassez de informação sistematizada, sobre a forma de bases de dados (BD). Esta carência
apresenta-se como um crescente obstáculo à implementação de novas metodologias no setor, que
apresentam já um elevado sucesso noutras indústrias. Esta escassez contrasta ainda com o
funcionamento intrínseco do setor AEC, que ao longo de todo o processo construtivo gera um
elevado volume de documentação. Nomeadamente, o procedimento de contratação e concurso
público é dos procedimentos mais bem documentados ao longo deste processo, dispondo de um
acesso aberto a todos os dados a ele associados, ainda que careçam de tratamento e sistematização.
Com o objetivo de contribuir para a sistematização da informação do setor, o presente trabalho
resume os passos desenvolvidos para a obtenção e tratamento destes dados, através de um algoritmo
scraping, disponibilizando a BD obtida. A BD resultante é composta por 5214 contratos únicos,
caracterizados com 37 propriedades distintas. Ao longo do artigo são identificadas oportunidades
futuras de desenvolvimento que podem ser suportadas por esta BD, aplicando técnicas de análise
estatística descritiva e algoritmos de inteligência artificial, nomeadamente, machine learning (ML).
Refere-se ainda a possibilidade de continuar o processo de expansão da BD e de a traduzir para
língua inglesa de modo a ampliar o âmbito das análises a realizar.
Introdução
Durante a fase de concurso de uma empreitada pública, são emitidos diferentes documentos que
descrevem o projeto a executar. As entidades que pretendam participam nestes concursos devem
estudar as variáveis que afetam a empreitada como: o preço base, o tempo de submissão ou o tipo
de construção; e adaptar a sua proposta a cada caso específico. A entidade contratante pondera cada
proposta e determina a quem adjudicar com base numa série de fatores, como: o preço, o prazo ou a
valia técnica. Assim, se forem tomadas as diligências necessárias, existe nesta fase uma enorme
oportunidade de aglomeração de dados. Contudo, devido à natureza do processo de contratação,
extrair informação consistente destes dados é um desafio, tornando a sua análise demorada e
inconsistente, uma vez que, a qualidade dos dados depende frequentemente do indivíduo que a
submete.
A emergência da metodologia Big Data tem tido um impacto disruptivo em várias indústrias,
afetando também o setor da AEC [1]. Nos últimos anos, o acesso, armazenamento e uso de dados
tem apresentado uma crescente importância neste setor, em grande parte impulsionada pela
disseminação de novas tecnologias que permitem uma expedita geração de elevados volumes de
dados.
Esta nova magnitude de informação amplia significativamente o âmbito da sua utilização [2],
sendo que a sua disponibilização sobre a forma de BDs possibilita que investigadores e técnicos
tomem melhores decisões, suportadas pelos dados históricos armazenados [3]. Adicionalmente,
estatística descritiva e ML são exemplos de tecnologias intimamente ligadas e dependentes da
disponibilização destes grandes volumes de dados, sendo que o acesso a esta informação representa
a eliminação do principal bloqueio ao desenvolvimento e aplicação destas tecnologias no setor AEC
[1, 4, 5] permitindo o usufruto das suas vantagens.
Contudo, a adoção destas tecnologias no setor AEC encontra-se num estado de desenvolvimento
relativamente atrasado quando comparado com setores análogos [1, 6], em grande parte devido ao
seu difícil acesso, devido à resistência, por parte dos intervenientes, em partilhar informação,
frequentemente considerada de carácter confidencial. Neste sentido, recentemente, têm existido
esforços crescentes para disponibilizar BDs focadas em diferentes âmbitos do setor, como:
renovação de edifícios [7]; habitação e urbanismo [8], imobiliário [9]; sismologia em edifícios [10];
materiais de construção [11]; eficiência energética [12]; e análise do ciclo de vida [13]. Este
documento suplementa este estado da arte com a publicação de uma BD relativa ao processo de
contratação pública e ao desempenho dos projetos públicos.
O restante artigo encontra-se organizado em quatro capítulos. O Capítulo 2 esclarece a
metodologia para a obtenção, processamento e publicação dos dados. O Capítulo 3 carateriza a
amostra obtida e descreve todas as variáveis constituintes da BD. O Capítulo 4 sugere futuros
caminhos de pesquisa e, por fim, o Capítulo 5 conclui o trabalho, resumindo os principais resultados
obtidos.
Metodologia
Conforme ilustrado na Figura 1, a metodologia inicia-se com a recolha de informação a partir do
Portal Base o repositório nacional de procedimentos de concursos de contratação pública. Esta
recolha restringiu-se a contratos com data de fecho entre 2015 e 2022, bem como a empreitadas de
obras públicas. De realçar que a exclusão de contratos anteriores a 2015 teve como fundamentação
as alterações ao Diário da Républica Eletrónico (DRE), que criam desassociações de hiperligações
ao Portal Base.
Desta filtragem resultaram 5253 contratos, cujos dados foram extraídos e armazenados através
de um webscraper criado para o efeito. Entre os diferentes campos de valores extraídos, pode existir
o link URL para o local de publicação do anúncio do procedimento, publicado no DRE. Caso
exista, o PDF do anúncio é também descarregado e as suas informações coletadas e armazenadas
através de um PDF scraper. Caso não exista, é armazenada informação que indica a falta desse
documento.
De seguida, os dados contratuais provenientes do Portal Base, e os dados do anúncio do
procedimento provenientes do DRE, são compilados num único ficheiro json, representativo de toda
a informação obtida acerca dos 5253 contratos identificados.
Por fim, para publicação da BD, foi realizada uma exportação do ficheiro json para Excel, onde
os dados foram processados para homogeneização da informação, limpeza de dados errados e/ou
omitidos e remoção de outliers. Deste processamento resultaram 5214 contratos, caracterizados por
37 variáveis, que dão origem à BD disponibilizada neste artigo, sobre o formato xlsx. Os conteúdos
desta BD são explorados no capítulo que se segue.
Figura 1: Metodologia para a obtenção e processamento dos dados
Caracterização da amostra
As BD disponibilizada é composta por 5214 registos (contratos com propriedades únicas), cada um
caracterizado por um conjunto de 37 campos (características das propriedades ou outras variáveis).
A Tabela 1 caracteriza estes campos para melhor compreensão da BD, apresentando o seu:
nome título do campo na respetiva coluna do ficheiro Excel;
descrição breve descrição do conteúdo de cada campo;
esquema de codificação formato do valor de cada campo (i.e., inteiro, texto, lógico, data,
monetário, percentagem ou alfanumérico);
unidade de medição unidade de medição do valor de cada campo.
Tabela 1: Explicação das propriedades da base de dados
Nome Descrição Esquema de
Codificação
Unidade de
medição
ID Número de Identificação Inteiro N/A
Descrição Breve Descrição breve do objeto do contrato Texto N/A
Cpvs
Código Cpvs
Texto
N/A
Desi
gnaçã
o Cp
vs
Des
ignação do código C
pvs
Texto
N/A
Critério Ambiental Se o critério ambiental foi considerado no
concurso
(VERDADEIR
O
-
FALSO)
Lógico N/A
Ano de publicação Ano de publicação do concurso em Diário da
Républica
Data N/A
Ano de fecho
Ano
de
fech
o do
proc
esso n
o Portal Base
Data
N/A
País
País
d
e execução da obra
Text
o
N/A
Município Município de execução da obra Texto N/A
Distrito Distrito da execução da obra Texto N/A
Código de Distrito Código identificador de distrito, organizado por
ordem alfabética e numerado de 1 a 20
Inteiro N/A
Prazo de submissão Prazo de submissão da proposta Inteiro Dias
Data de celebração Data de celebração do Contrato Data dd-mm-aaaa
Data de fecho Data de fecho do processo no Portal Base Data dd-mm-aaaa
Diferença entre data de
celebração e fecho
Diferença entre data de celebração e fecho Inteiro Dias
Prazo de execução Prazo previsto para a execução da obra Inteiro Dias
Preço Base
Pre
ço base para
propostas a concurso
Monetário
Preço Inicial Preço inicial acordado entre adjudicatário e
adjudic
an
te
Monetário
Categoria Preço I. 1 - Entre 0 e 250 mil; 2 - entre 250 mil e 1
Milhão; 3 acima de 1 Milhão
Inteiro N/A
Preço Efetivo Preço efetivo no final da obra Monetário
Diferença de preço Diferença entre preço inicial e preço efetivo Monetário
Percentagem da Diferença de
preço
Preço Inicial dividido pelo Preço Efetivo Percentagem Percentagem
Critério de adjudicação Critério de adjudicação utilizado classificar as
propostas durante o concurso público
Texto N/A
Categoria do Critério de
adjud
icação
1 - Critério multifator; 2 - Critério preço mais
baixo
; 0
-
Critério de adjudicação em falta
Inteiro N/A
Classificação do critério
mu
ltifator
ultifator Percentagem Percentagem
Caução Valor da caução, se aplicável Alfanumérico
Percentagem,
lógico
Publicado no Jornal EU Se o contrato foi publicado em jornal da união
europeia
Lógico N/A
Tipo de fim do contrato 1 Cumprimento integral do contrato 2
Cumprimento não integral do contrato
Texto N/A
Número de concorrentes Número de concorrentes do concurso Inteiro N/A
Envolve aquisição conjunta Se o contrato envolve aquisição por várias
entidades (VERDADEIRO-FALSO-N/A)
Lógico N/A
Adjudicado por uma central de
compras
Se o contrato foi adjudicado por uma central de
compras (VERDADEIRO-FALSO-N/A)
Lógico N/A
Celebração de um acordo
quadro
Se o contrato foi celebrado por um acordo quadro
(VERDADEIRO-FALSO-N/A)
Lógico N/A
Leilão eletrónico Se o contrato foi executado com recurso a leilão
eletrónico (VERDADEIRO-FALSO-N/A)
Lógico N/A
Adotada uma fase de
negociação
Se foi adotada uma fase de negociação
(VERDADEIRO-FALSO-N/A)
Lógico N/A
Contratação por lotes Se a contratação se realizou por lotes
(VERDADEIRO-FALSO-N/A)
Lógico N/A
Justificação para mudança de
prazo
Justificação para mudança de prazo (formato
livre)
Texto N/A
Justificação para mudança de
preço
Justificação para mudança de preço (formato
livre)
Texto N/A
De realçar que dos 37 campos, 6 foram criados pelos autores, à posteriori, através da associação
entre propriedades ou para classificação das mesmas. A seguinte lista enumera-as e justifica a sua
criação:
Facilita a identificação do distrito;
a - Permite determinar a pontualidade com que
as informações finais são subscritas no Portal Base;
Separação arbitrária dos autores com intuito de separar diferentes
obras por dimensão com vista a analises estatísticas;
Permite determinar o desempenho da obra;
Permite determinar a proporção dos deslizes para
isolar os casos significativos;
Categoria dada tendo em conta o critério utilizado,
se multifator, exclusivamente económico ou em falta.
Disponibilização da base de dados
A BD encontra-se disponível para acesso ao público via github
(https://github.com/LuisJSousa/Portuguese-Public-Procurement-Database) mediante pedido formal
aos autores deste trabalho. Os utilizadores terão acesso a duas versões: uma versão com a
informação tratada em formato xlsx (i.e., com a constituição apresentada no Capítulo 3 desta
comunicação) e outra com os dados brutos em formato json.
O repositório indicado contém ainda um conjunto de documentos de suporte: uma tabela de
apoio à consulta do ficheiro xlsx; um PDF com a nomenclatura do ficheiro json; e um ficheiro com
código Python para suporte à consulta do ficheiro json. O código fornece exemplos de codificação
simples para extração de dados e o tipo de informação/propriedades que podem ser obtidos a partir
do ficheiro. A estrutura de dados proposta permite obter informações adicionais detalhadas sobre os
contratos da BD.
Conclusão
Dados fidedignos que traduzem as tendências do mercado da Construção são um recurso escasso na
indústria da Construção. Para o setor AEC acompanhar os desenvolvimentos tecnológicos de
indústrias semelhantes nas áreas da estatística descritiva e ML, são necessários esforços no sentido
de gerar, armazenar e partilhar dados.
O presente documento aborda esta realidade de forma direta através da publicação de uma BD
relativa à contratação pública no setor. Através do desenvolvimento de algoritmos de webscraping e
PDF scraping, em Python, foi possível aceder, armazenar e processar a informação contida no
Portal Base, bem como a informação contida nos anúncios dos procedimentos publicados no DRE.
O grande volume de dados reunidos foram estruturados num ficheiro Excel, constituído por 5214
contratos únicos com 37 propriedades diferentes.
O acesso a uma base extensa de dados bem estruturada abre portas para o desenvolvimento de
trabalhos de investigação em diferentes disciplinas, como se refere no Capítulo 1. Deste modo,
prevê-se que trabalhos futuros realizem a análise estatística descritiva de toda a informação
recolhida, com o intuito de realizar o benchmarking das obras públicas em Portugal e de identificar
tendências e melhores práticas no momento da adjudicação para a indústria da Construção.
Adicionalmente, prevê-se a tradução desta BD para língua inglesa e subsequente partilha com a
comunidade científica internacional, com o objetivo de facultar estes dados a um maior leque de
investigadores. Por fim, é ainda previsto que esta BD sirva de repositório para treino e avaliação de
algoritmos de previsão (baseados em ML) com duas vertentes distintas: (1) identificação de features
no texto; e (2) previsão do sucesso de uma da obra, em função da informação do contrato.
A disponibilização da BD ao público é um incentivo ao trabalho colaborativo, permitindo que
outros investigadores possam explorar diferentes aplicações para os dados recolhidos.
Agradecimentos
Este trabalho foi financiado por: Financiamento Base - UIDB/04708/2020 da Unidade de
Investigação CONSTRUCT - Instituto de I&D em Estruturas e Construções - financiada por fundos
nacionais através da FCT/MCTES (PIDDAC). Este trabalho é também cofinanciado pelo Fundo
Social Europeu (FSE), através do Programa Operacional Regional do Norte (Norte 2020)
[Referência de Financiamento: NORTE-06-3559-FSE-000176].
Referências
[1] H. S. Munawar et al., Big Data in Construction: Current Applications and Future
Opportunities, Big Data and Cognitive Computing, vol. 6, no. 1, (2022) 18.
[2] Phaneendra, Seethamraju and E. M. Reddy, Big Data - Solutions for Rdbms Problems - a
Survey, 2013.
[3] W. Xu et al., A Personalized Information Recommendation System for R&D Project
Opportunity Finding in Big Data Contexts, Journal of Network and Computer Applications,
vol. 59, (2016) 362-369, doi: https://doi.org/10.1016/j.jnca.2015.01.003.
[4] H. H. Elmousalami, Data on Field Canals Improvement Projects for Cost Prediction Using
Artificial Intelligence, Data in Brief, vol. 31, (2020) 105688, doi: 10.1016/j.dib.2020.105688.
[5] L. Jacques de Sousa et al., Algoritmos De Classificação De Texto Na Automatização Dos
Processos Orçamentação,
Braga, Portugal, 2022.
[6] S. M. E. Sepasgozar and S. Davis, Construction Technology Adoption Cube: An Investigation
on Process, Factors, Barriers, Drivers and Decision Makers Using Nvivo and Ahp Analysis,
Buildings, vol. 8, no. 6, (2018) 74.
[7] T. Stout et al., United States Department of Defense (Dod) Real Property Repair, Alterations,
Maintenance, and Construction Project Contract Data: 2009 2020, Data in Brief, vol. 32,
(2020) 106128, doi: https://doi.org/10.1016/j.dib.2020.106128.
[8] A. O. Afolabi et al., Statistical Exploration of Dataset Examining Key Indicators Influencing
Housing and Urban Infrastructure Investments in Megacities, Data in Brief, Data paper vol. 18,
(2018) 1725-173, doi: 10.1016/j.dib.2018.04.089.
[9] P. Bonifaci and S. Copiello, Real Estate Market and Building Energy Performance: Data for a
Mass Appraisal Approach, Data in Brief, vol. 5, (2015) 1060-1065, doi:
https://doi.org/10.1016/j.dib.2015.11.027.
[10] X. Guan M.Eeri et al., A Database of Seismic Designs, Nonlinear Models, and Seismic
Responses for Steel Moment-Resisting Frame Buildings, Earthquake Spectra, Data paper vol.
37, no. 2, (2021) 1199-1222, doi: 10.1177/8755293020971209.
[11] G. Guven et al., A Construction Classification System Database for Understanding Resource
Use in Building Construction, Scientific Data, Data paper vol. 9, (2022) no.1, Art no. 42, doi:
10.1038/s41597-022-01141-8.
[12] T. M. Uidhir et al., Residential Stock Data and Dataset on Energy Efficiency Characteristics of
Residential Building Fabrics in Ireland, Data in Brief, vol. 29, (2020) 105247, doi:
https://doi.org/10.1016/j.dib.2020.105247.
[13] A. Kortazar et al., Dataset for the Life Cycle Assessment of the High Speed Rail Network in
Spain, Data in Brief, vol. 36, (2021) 107006, doi: https://doi.org/10.1016/j.dib.2021.107006.