ChapterPDF Available

Prospecção de dados acadêmicos de currículos Lattes através de scriptLattes

Authors:

Abstract and Figures

Atualmente, muitas instituições acadêmicas e/ou grupos de pesquisa no Brasil utilizam informações de currículos Lattes na elaboração de relatórios de produção científica, orientações e projetos de pesquisa. Tais relatórios, tipicamente usados para avaliar, analisar ou documentar a produção científica do grupo, são criados de forma manual, considerando o currículo de cada membro. Apesar dos currículos terem informação semi-estruturada, o procedimento de análise para médios e grandes grupos torna-se uma tarefa demorada e altamente suscetível a erros. O scriptLattes, um software livre, permite a criação de relatórios acadêmicos de forma automática, considerando apenas informação cadastrada nos Currículos Lattes. Neste trabalho, descrevemos as principais características da ferramenta e experiências de utilização para a prospecção de dados acadêmicos de currículos Lattes.
No caption available
… 
Content may be subject to copyright.
PROSPECÇÃO DE DADOS ACADÊMICOS DE CURRÍCULOS LATTES
ATRAVÉS DE SCRIPTLATTES
Jesús Pascual Mena-Chalco1
Roberto Marcondes Cesar Junior2
Resumo
Atualmente, muitas instituições acadêmicas e/ou grupos de pesquisa no Brasil utilizam
informações de currículos Lattes na elaboração de relatórios de produção científica,
orientações e projetos de pesquisa. Tais relatórios, tipicamente usados para avaliar,
analisar ou documentar a produção científica do grupo, são criados de forma manual,
considerando o currículo de cada membro. Apesar dos currículos terem informação
semi-estruturada, o procedimento de análise para médios e grandes grupos torna-se uma
tarefa demorada e altamente suscetível a erros. O scriptLattes, um software livre,
permite a criação de relatórios acadêmicos de forma automática, considerando apenas
informação cadastrada nos Currículos Lattes. Neste trabalho, descrevemos as principais
características da ferramenta e experiências de utilização para a prospecção de dados
acadêmicos de currículos Lattes.
1 Introdução
A prospecção de dados é um processo de extração e exploração de grandes volumes de
dados, geralmente utilizado para identificar ou evidenciar possíveis relacionamentos
entre instâncias dos elementos tratados (YE, 2003). A extração de dados de produção
científica, identificação de padrões bibliométricos, e modelagem e visualização efetiva
de redes de interação entre coautores são tópicos relevantes na área de Bibliometria e
Cientometria. Nos últimos anos, está se dando especial interesse a tais tópicos devido à
descoberta de conhecimento que pode ser obtida a partir do tratamento de conjuntos de
dados disponíveis nos repositórios de produção científica (e.g. banco de dados de
produções bibliográficas, de orientação acadêmica, de projetos de pesquisa, e de
diretórios de grupos de pesquisa) .
Por outro lado, no Brasil, o Conselho Nacional de Desenvolvimento Científico e
Tecnológico (CNPq) realiza um importante trabalho na integração de bases de
currículos acadêmicos de instituições públicas e privadas em uma única plataforma
denominada Lattes. Os chamados “Currículos Lattes” são considerados um padrão
nacional de avaliação, representando um histórico das atividades científicas, acadêmicas
1Centro de Matemática, Computação e Cognição da Universidade Federal do ABC.
2Instituto de Matemática e Estatística da Universidade de São Paulo.
COMO CITAR O ARTIGO:
J. P. Mena-Chalco & R. M. Cesar-Jr. Prospecção de dados acadêmicos de currículos Lattes através de scriptLattes. Capítulo de livro:
"Bibliometria e Cientometria: reflexões teóricas e interfaces", páginas 109-128. São Carlos: Pedro & João Editores. Maria
Cristina Piumbato Innocentini Hayashi e Jacqueline Leta (Orgs.), 2013.
e profissionais de pesquisadores cadastrados na plataforma (AMORIN, 2003). Os
currículos Lattes foram projetados para mostrar informação pública, individual, de cada
usuário cadastrado na plataforma. Nesse contexto, muitas vezes, realizar uma
compilação ou sumarização de produções bibliográficas para um grupo de usuários
cadastrados de médio ou grande porte (e.g. grupo de professores, departamento de pós-
graduação) realmente requer um grande esforço manual suscetível a falhas. Assim, o
scriptLattes (MENA-CHALCO; CESAR-JR, 2009), uma ferramenta de software livre,
foi projetado para a extração e compilação automática de produções bibliográficas,
técnicas e artísticas, orientações, projetos de pesquisa, prêmios e títulos, grafo de
colaborações, e mapa de geolocalização de um conjunto de pesquisadores cadastrados
na plataforma Lattes.
O scriptLattes3 baixa automaticamente os currículos Lattes (em formato HTML) de um
grupo de pessoas de interesse, compila as listas de produções, tratando apropriadamente
as produções duplicadas e similares. Em seguida, são gerados relatórios, em formato
HTML, com listas de produções e orientações separadas por tipo e colocadas em ordem
cronológica invertida. Adicionalmente, a ferramenta permite a criação automática de
grafos (redes) de coautoria entre os membros do grupo e um mapa de geolocalização
dos membros e alunos (de pós-doutorado, doutorado e mestrado) com orientação
concluída.
No nosso entendimento, essa ferramenta de software livre é a pioneira na prospecção de
extensos conjuntos de dados acadêmicos provenientes de Currículos Lattes em formato
HTML, e atualmente está sendo útil para extrair e representar conhecimento de grupos
de pessoas cadastradas na plataforma Lattes, de forma simples. Esse conhecimento pode
ser usado para explorar, identificar ou validar padrões de atividades científicas, trazendo
assim informação bibliométrica e/ou cientométrica sobre um grupo de interesses
(NICHOLSON, 2006) (PENG; MCCALLUM, 2006) . A relevância deste trabalho recai
sobre as vantagens decorrentes da utilização do processo considerado na ferramenta
para a realização de análises consolidadas das produções científicas e das relações entre
os atores da academia (KLINK et al., 2006) (KOUZES et al., 2009).
2 Descrição da ferramenta
3 O scriptLattes está disponível em http://scriptlattes.sourceforge.net
Atualmente, o scriptLattes é um programa desenvolvido na linguagem de programação
Python e está composto de seis módulos. Veja em (MENA-CHALCO; CESAR-JR,
2009) uma descrição detalhada de todos os módulos. Na Figura 1 mostra-se a interação
entre os dados de entrada e saída, e das duas plataformas consideradas para a consulta
de informações: Plataforma Lattes e Plataforma de geolocalização (Google Maps). Nas
seguintes subseções descrevemos as principais características dos módulos projetados.
Figura 1: Diagrama de fluxo de informações considerado no scriptLattes.
2.1 Dados de entrada
A entrada para o programa está composta por uma lista ASCII de IDs de currículos
Lattes (código de 16 dígitos que o CNPq utiliza como identificador de cada currículo
Lattes), conjuntamente com o período de permanência no grupo, i.e., os anos em que
cada membro foi associado ao grupo (e.g. grupo de pesquisa, departamento de pós-
graduação), e um rótulo/etiqueta que é utilizado na visualização do grafo de
colaborações (cada rótulo diferente é representado por uma cor diferente).
Através de um parser4 HTML (determinístico), são automaticamente extraídos de cada
currículo Lattes, indicado no arquivo de entrada para o programa, os dados
correspondentes ao: nome completo do membro, nome em citações bibliográficas,
endereço profissional, tipo de bolsa de produtividade, foto, sexo e data de atualização do
currículo. Adicionalmente, são extraídas as listas completas de produções acadêmicas
(veja Tabela 1) pertencentes ao período de permanência.
É importante destacar que um desafio computacional para o programa é o tratamento
dos dados em formato HTML, onde as partes constituintes das produções acadêmicas
(e.g. nomes dos autores, título da publicação, título do projeto, nome do meio da
publicação, número de páginas, volume, páginas, ano) são apresentadas sem alguma
4 Um parser é um programa, baseado em análise textual, que permite identificar e extrair regiões ou trechos
específicos de texto (TOMITA, 1991).
indicação de separação. Assim, o parser desenvolvido identifica, na grande maioria dos
casos, todas as partes constituintes das produções acadêmicas.
Tabela 1: Tipos de produção acadêmica extraídos dos currículos Lattes. As listas de
todos as produções acadêmicas são limitadas pelo período de permanência.
A. Produção bibliográfica
Artigos completos publicados em periódicos
Livros publicados/organizados ou edições
Capítulos de livros publicados
Textos em jornais de notícias/revistas
Trabalhos completos publicados em anais de congressos
Resumos expandidos publicados em anais de congressos
Resumos publicados em anais de congressos
Artigos aceitos para publicação
Apresentações de trabalho
Demais tipos de produção bibliográfica
B. Produção técnica
Softwares com registro de patente
Softwares sem registro de patente
Produtos tecnológicos
Processos ou técnicas
Trabalhos técnicos
Demais tipos de produção técnica
Total de produção técnica
C. Produção artística
D. Supervisões e orientações em andamento ou concluídas
Supervisão de pós-doutorado
Tese de doutorado
Dissertação de mestrado
Trabalho de conclusão de curso de graduação
Iniciação científica
Orientações de outra natureza
E. Projetos de pesquisa
F. Prêmios e títulos
G. Eventos (participação e organização)
2.2 Tratamento de redundâncias
Varias produções acadêmicas são frequentemente elaboradas em colaboração com um
ou mais pesquisadores do mesmo grupo. Uma produção (e.g. artigo completo publicado
em periódico) pode aparecer duplicada nos relatórios, dado que ambos colaboradores
são coautores. O programa desenvolvido mantém um módulo de tratamento de
redundâncias que permite a detecção de produções acadêmicas iguais ou similares.
Assim, as produções duplicadas são usadas para detetar colaboração entre os membros
do grupo: dois ou mais membros são considerados como colaboradores se existe uma
produção comum entre eles.
A detecção de produções similares é realizada através de comparações dois a dois entre
todas as produções de conjuntos de dados separados por ano e tipo de produção (por ex.,
artigo publicado em periódico ou capítulo de livro), de tal forma que produções com
anos de publicação diferentes não sejam utilizadas em nenhuma comparação,
permitindo assim uma diminuição substancial de tempo de processamento do módulo de
tratamento de redundâncias.
Devido a inconsistências (erros de digitação ou falta de padronização na escrita dos
nomes dos coautores (KANG et al., 2009)) no preenchimento das informações nos
currículos Lattes, a comparação de duas produções quaisquer é realizada através de um
casamento aproximado entre os títulos associados a cada cadastro. Atualmente, duas
publicações são consideradas iguais se a porcentagem de similaridade entre os títulos
for maior a uma determinada porcentagem. A similaridade entre duas cadeias baseia-se
na distância proposta por Levenshtein (NAVARRO, 2001). A distância Levenshtein é
obtida através do número mínimo de inserções, eliminações ou substituições de
caracteres necessários para transformar um texto em outro (a distância Levenshtein 0
indicará que dois títulos analisados são exatamente iguais).
Para nossos testes, consideramos dois títulos equivalentes se ambos são pelo menos
80% similares. Esse valor pode ser facilmente configurado no programa para limitar a
porcentagem de similaridade entre as produções acadêmicas.
Uma das características importantes desse módulo é a conjunção de dados nas
produções iguais ou similares, de tal forma que as informações faltantes de um cadastro
possam ser combinadas/complementadas com as informações do outro. Atualmente, a
complementação refere-se apenas à utilização exclusiva do campo com maior tamanho
ou comprimento textual. Com este módulo, o scriptLattes é capaz de manter um registro
de todos os coautores (pertences ao grupo em análise) associados a uma determinada
produção acadêmica. Note que esta informação será importante na ponderação numérica
de produções acadêmicas, como por exemplo, a normalização dos pesos nas arestas dos
grafos de colaboração.
2.3 Grafos de colaboração
Geralmente, um grafo de colaborações/coautoria mostra atividades acadêmicas que são
realizadas de forma conjunta por membros de um grupo (KLINK et al., 2006) (MAIA;
CAREGNATO, 2008). O programa desenvolvido usa um grafo (ou rede) para
representar a colaboração entre membros de um grupo baseados exclusivamente na sua
produção bibliográfica, técnica ou artística (orientações acadêmicas, prêmios e/ou
títulos, e projetos de pesquisa não são considerados nos grafos de colaboração)5.
Cada membro é representado por um nó se e somente se uma produção acadêmica em
comum dos membros é detectada como produção redundante no módulo de tratamento
de redundâncias.
Nos relatórios gerados, são mostrados três tipos de grafos referentes a: (i) grafos de
colaboração (não direcionado) sem pesos, em que as arestas representam apenas as
ligações de trabalho colaborativo; (ii) grafos de colaboração (não direcionado) com
pesos, em que o peso de uma aresta representa o número de produções acadêmicas
elaboradas em coautoria entre dois nós, e (iii) grafos de colaboração (direcionado) com
pesos normalizados, em que os pesos das arestas salientes de um dado nó (membro) são
normalizados pela quantidade total de produções acadêmicas feitas em colaboração,
como sugerido por Liu et al. (2005). Veja, na Figura 2, um exemplo de grafos de
colaborações criados a partir de três publicações elaboradas por quatro autores.
A normalização permite atribuir maior peso para autores que coproduziram mais
publicações em conjunto. Os pesos normalizados intuitivamente dão uma ideia da
'importância' de um coautor na produção realizada em colaboração com outro. Por
exemplo, para M2 o colaborador M1 participa em 75% da sua produção feita em
colaboração, i.e. M2 é 75% importante para M1. Já para M1, M2 é apenas 50%
importante para sua produção feita em colaboração. Por outro lado, para M4, M1 é
100% importante na sua produção (colaborativa) acadêmica, entretanto para M1, M4 é
importante apenas 33%. Note que este último comportamento é típico nas relações
orientador–orientado (M1–M4).
Os pesos do grafo direcionado, além de mostrar a importância de colaboração e sua
reciprocidade, também são utilizados no scriptLattes como base para o cálculo dos
5 Nos últimos anos, as características de: (1) alto coeficiente de clusterização, (2) comportamento de
um mundo pequeno e (3) distribuição scale-free foram associadas aos grafos de colaborações próprias
de redes sociais (BARABASI; ALBERT, 1999).
graus de colaboração (LIU et al., 2005) dos membros do grupo. Entenda-se como grau
de colaboração, um valor numérico que representa o impacto de um membro no grafo
de colaborações (o algoritmo proposto por Liu et al. (2005), denominado AuthorRank.
Trata-se de uma adaptação do algoritmo PageRank utilizado no sistema de busca de
páginas relevantes no buscador Google). Dessa forma, os membros de maior impacto
colaborativo no próprio grupo terão os maiores graus de colaboração, i.e. quanto maior
grau de colaboração, mais participativo o membro será no grupo em análise.
Figura 2: Exemplo de grafos de colaboração criados a partir da deteção de 3 artigos
elaborados por 4 autores (membros): M1, M2, M3 e M4.
2.4 Mapa de geolocalização
Frequentemente, é desejável conhecer a localização geográfica atual dos membros de
um grupo. Nesse contexto, o programa desenvolvido permite gerar mapas de
geolocalização dos Endereços Profissionais tanto dos membros do grupo, quanto dos
alunos formados pelo grupo, i.e., alunos com orientação concluída de pós-doutorado,
doutorado e mestrado. No mapa, cada tipo de orientação é representado por uma cor
diferente, sendo utilizado comumente para mostrar a influência/impacto do grupo na
formação de profissionais. O endereço profissional de um aluno orientado é extraído
desde que o orientador (membro do grupo) tenha cadastrado o ID Lattes do aluno no
próprio currículo Lattes.
A plataforma on-line do Google Maps é utilizada para obter, de forma automática, as
coordenadas de geolocalização em termos de latitude e longitude, considerando como
parâmetros de consulta o CEP, UF e o nome do pais. Veja em (ENKHSAIKHAN; LIU;
REYNOLDS, 2008) uma abordagem similar, utilizada na visualização geográfica e
temporal para grafos de coautoria. Uma geolocalização de uma pessoa não terá
representação no mapa caso o endereço tratado seja incorreto ou este não estiver
cadastrado na plataforma Lattes.
No Brasil, em casos específicos a agência de Correios define CEPs especiais que a
plataforma do Google Maps não os interpreta corretamente. Nesse sentido, no
scriptLattes é definido um procedimento que permite trocar, através de um dicionario,
CEPs especiais por CEPs especificados no Google Maps. Esta correção de CEPs ajuda
em refinar a localização geográfica para alguns endereços profissionais.
2.5 Geração de relatórios
A saída do sistema é um conjunto de relatórios, em formato HTML, referentes à
compilação de dados em termos de produção científica. O formato HTML foi escolhido
para todos os relatórios por ser um formato padrão para visualização de informação na
internet.
Os relatórios são separados por tipos e mostram uma informação quantitativa
classificada por ano em ordem cronológica invertida correspondente a: (i) Produções
bibliográficas, técnicas e artísticas, (ii) Orientações em andamento e concluídas, (iii)
Projetos de pesquisa, e (iv) Prêmios e títulos. Todos os relatórios mostram um gráfico
de barras com o número de produções discretizados por ano. Os tamanhos das barras
são proporcionais aos valores de produção acadêmica do grupo. Também são
mostrados, para cada produção acadêmica, links diretos para buscas em alguns dos
principais buscadores de citações disponíveis na internet (e.g. Google Scholar e
Microsoft Acadêmico).
Um item importante nos relatórios é a lista de membros do grupo onde são mostradas
informações individuais como o nível de bolsa de produtividade outorgada pelo CNPq,
período de permanência do membro no grupo, e a última data de atualização do
currículo Lattes. Veja, na Figura 3, algumas telas de exemplo de relatórios gerados
automaticamente pelo scriptLattes.
Para fins de uma análise complementar mais apurada, todas as produções bibliográficas
compiladas são armazenadas em um formato flexível denominado RIS. Um arquivo em
formato RIS refere-se a um arquivo de texto ASCII onde todos os campos constituintes
de um determinado artigo são indicados por duas letras6. As produções bibliográficas
nesse formato padrão facilitam (i) o intercambio de dados com diferentes bibliotecas
digitais tais como IEEE Xplore, Scopus, Portal do ACM, ScienceDirect e SpringerLink,
e (ii) a população de bancos de dados externos com dados relativos a produções
bibliográficas de um determinado grupo.
Adicionalmente, os três tipos de grafos de colaborações computados pelo scriptLattes
são armazenados em arquivos de texto ASCII, que representam as três matrizes de
adjacência (MENA-CHALCO; CESAR-JR, 2009) onde, para cada linha e cada coluna,
associa-se exclusivamente um membro do grupo (membros sem alguma colaboração
são definidos com valor zero na matriz de adjacência).
Salientamos que todos os tipos de relatórios são gerenciados por meio de um conjunto
de parâmetros configurados na execução do programa. Isto permite manter controle
exato sobre os tipos de dados a serem compilados. Por exemplo, para um determinado
grupo, usualmente deseja-se: (i) a lista completa de produções bibliográficas, e (ii) o
grafo de coautoria associado apenas a artigos completos publicados em periódicos.
Finalmente, destaca-se que todos os relatórios gerados são estáticos, i.e., os relatórios
mantém apenas informações obtidas durante a execução do programa (analogamente a
uma fotografia da produção acadêmica no momento da execução do programa). Para
um determinado grupo, as futuras atualizações nos currículos Lattes dos membros serão
compiladas na frequência de re-execução do programa.
6 Uma especificação completa do formato RIS está disponível em
http://www.refman.com/support/risformat_intro.asp
Figura 3: Exemplo de relatórios obtidos com o scriptLattes para o grupo de Visão e
Processamento de Imagens do Departamento de Ciências da Computação – USP. Os
relatórios estão disponíveis em
http://www.vision.ime.usp.br/creativision/publications_vision
Figura 3: (continuação) Exemplo de relatórios obtidos com o scriptLattes para o grupo
de Visão e Processamento de Imagens do Departamento de Ciências da Computação –
USP. Os relatórios estão disponíveis em
http://www.vision.ime.usp.br/creativision/publications_vision
Figura 3: (continuação) Exemplo de relatórios obtidos com o scriptLattes para o grupo
de Visão e Processamento de Imagens do Departamento de Ciências da Computação –
USP. Os relatórios estão disponíveis em
http://www.vision.ime.usp.br/creativision/publications_vision
3 Experiências de utilização da ferramenta
O scriptLattes foi adotado recentemente por diversas instituições de ensino e pesquisa
no Brasil e a sua utilização está motivada pela necessidade de exploração automática de
uma grande quantidade de currículos cadastrados na Plataforma Lattes (veja uma lista
atualizada com as organizações e instituições de ensino e pesquisa que usaram ou estão
usando o scriptLattes em http://scriptlattes.sourceforge.net/links.html). A seguir
descrevemos quatro dos principais usos da ferramenta:
3.1 Criação de relatórios de produção acadêmica
Para alguns grupos de pesquisa, frequentemente é necessária a criação de relatórios de
produção bibliográfica referida a alguns períodos (por ex., anual, trienal). Esses
relatórios, além de detalhar as atividades acadêmicas realizadas no período, também
apresentam alguns indicadores de produção em que são associadas informações como,
por exemplo, o Qualis ou o fator de impacto da publicação. Nesse sentido, o
scriptLattes pode ser usado como ponto de partida na criação das listas de produções
acadêmicas de um grupo de pessoas cadastradas na plataforma Lattes. Embora o
scriptLattes faça uma detecção de publicações iguais e/ou similares, é recomendada uma
verificação cuidadosa nos relatórios automaticamente gerados, de tal forma que os
possíveis erros no preenchimento dos dados nos currículos Lattes sejam corrigidos ou
complementados manualmente com informações exatas.
Por outro lado, uma prática comum da ferramenta é a população de bancos de dados
com as informações de produção acadêmica. Esses dados podem ser utilizados em
intranets ou na internet para difundir o estado atual da produção acadêmica, e ajudar na
toma de decisões sobre a avaliação bibliométrica de um determinado grupo de pesquisa.
Atualmente, a principal utilização da ferramenta é a geração automática de relatórios em
formato HTML para difusão da produção acadêmica de grupos de pesquisa (por ex.,
departamentos de pós-graduação).
3.2 Criação de grafos de colaboração acadêmica
O resultado correspondente à geração automática do grafo de colaboração é um dos
mais importantes dentre os relatórios gerados pelo scriptLattes. O grafo ou rede de
colaboração mostra a interação de coautoria entre membros de um determinado grupo
de interesse. A interação com pesquisadores não considerados no grupo em análise não
é representada no grafo de colaborações, dado que o scriptLattes lida apenas com
informações extraídas dos próprios currículos Lattes do grupo de interesse. Sendo
assim, as colaborações com outros pesquisadores, ainda com cadastro na plataforma
Lattes, que não formem parte do grupo, não serão diagramadas no grafo de
colaborações.
Salientamos que as matrizes de adjacência (geradas automaticamente), correspondentes
aos grafos de colaboração, podem ser examinados através de ferramentas
complementares de análise de redes de interação social como o Pajek7, UCInet8 ou R9.
Desse modo, podem ser facilmente exploradas as medidas de indicadores de redes
como: densidade, grau de centralidade, índice de centralização, e grau de intermediação
e de proximidade (SCOTT, 2000) (WASSERMAN; FAUST, 1994). Essas medidas são
amplamente estudadas para: (i) caracterizar redes sociais e identificar automaticamente
sub-comunidades de colaboração em grupos de pesquisa (NEWMAN; GIRVAN,
2004), (ii) estudar e caracterizar a evolução temporal das coautorias entre os membros
do grupo, i.e., analisar a dinâmica de colaboração dos membros do grupo por meio de
diferentes períodos de tempo (WU et al., 2009), ou (iii) correlacionar dados
quantitativos de colaboração com dados qualitativos, sobre o grupo, provenientes de
outras fontes de informação, a fim de examinar a tendência de atuação dos grupos sobre
determinados eixos (LEYDESDORFF, 2006) (LEYDESDORFF, 2007).
Finalmente, é importante ressaltar que também podem ser aplicadas técnicas de
reconhecimento de padrões para que, através de algumas características métricas,
diferentes grafos de colaboração correspondentes a distintos grupos de pesquisa possam
ser comparados a fim de ter, por exemplo, uma classificação de comportamento de
perfil de publicação bibliográfica (MENA-CHALCO; CESAR-JR, 2009). Com essa
formulação, grupos com produção acadêmica similar estarão próximos em um eventual
espaço de características.
7 Disponível em http://vlado.fmf.uni-lj.si/pub/networks/pajek
8 Disponível em http://www.analytictech.com/ucinet
9 Disponível em http://www.r-project.org
3.3 Criação de árvores de genealogia acadêmica
Uma extensão da utilização da ferramenta é a geração automática de árvores
genealógicas individuais para cientistas/acadêmicos, cadastrados na Plataforma Lattes,
através de suas relações de orientação ou supervisão concluída.
Para cada membro do grupo de interesse, pode ser gerada automaticamente a
ascendência (pais) e descendência (filhos) de orientação acadêmica. Caso o
identificador Lattes do orientador/co-orientador ou do aluno seja identificado no
currículo Lattes, o nó é expandido por mais um nível (a quantidade de níveis pode ser
limitada por um valor informado pelo usuário).
Essa estratégia de elaboração de árvores de genealogia acadêmica pode ser explorada
recursivamente para manter um banco de dados com as relações de orientação
acadêmica Lattes, similar ao do projeto de genealogia matemática10 da Sociedade
Americana de Matemática. Acreditamos que trabalhos nesta linha têm um grande
potencial para análises automáticas de inter-relações de orientação associadas para todas
as áreas de pesquisa no Brasil.
De maneira similar à criação automática de árvores de genealogia acadêmica Lattes,
podem ser criadas redes de colaboração entre todos os coautores de um determinado
grupo. Assim, o número de nós, no grafo criado não seria limitado pela quantidade de
membros e sim pela quantidade real de colaboradores cadastrados na Plataforma Lattes.
Essa abordagem, embora requeira diversas consultas de currículos à plataforma Lattes,
apresentaria um panorama macro da influência de colaboração entre pesquisadores.
Como resultado dessa compilação de inter-relações, pode ser definido um valor
numérico que represente a “Distância Lattes” entre dois pesquisadores, i.e., o número
mínimo de arestas que tem que ser percorridas para ligar esses 2 pesquisadores, análogo
ao Número Erdos que representa a distância de coautoria entre um qualquer pesquisador
e Paul Erdos (BATAGELJ; MRVAR, 2000).
3.4 Análise da distribuição geográfica de pesquisadores
O impacto da formação acadêmica de um determinado grupo, através da localização
espacial ou geográfica, também é outra prática comum da utilização do scriptLattes. As
10 Disponível em http://www.genealogy.ams.org
relações de orientação podem ser examinadas geograficamente, tendo assim uma noção
de distribuição espacial do membros do grupo e dos alunos formados.
A distribuição geográfica de um grupo de interesse pode ser analisada para obter
informações como, por exemplo, o estado ou região que atrai mais os alunos formados
(i.e. a influência de um estado ou região sobre outras). Essas informações
potencialmente podem produzir estatísticas relevantes, desde que se mantenha uma
adequada normalização nos dados de geolocalização.
Certamente, existe um grande desafio em compreender como a distribuição geográfica é
conceitualizada, medida e normalizada (PITBLADO; PONG, 1999). Acreditamos que o
tratamento dos dados, como o realizado pelo scriptLattes, é uma abordagem plausível a
ser considerada para investigar indicadores demográficos tanto de orientação quanto de
formação acadêmica no Brasil.
Por fim, a ferramenta pode ser modificada para manter uma representação (i) do grafo
de colaboração e (ii) das árvores de genealogia acadêmica, conjuntamente com as
localizações geográficas dos pesquisadores, de maneira que as informações tanto de
produção acadêmica, quanto de geolocalização sejam fusionadas, permitindo assim uma
possível descoberta de informação de produção de membros do grupo através de suas
inter-relações (ENKHSAIKHAN; LIU; REYNOLDS, 2008).
4 Aspectos de implementação computacional
Inicialmente, o scriptLattes foi desenvolvido em 2005 na linguagem de programação
Perl. Entretanto, a versão de 2011 foi reprogramada inteiramente na linguagem Python.
O código fonte de ambas as versões são distribuídas na modalidade de software livre
sob a licença GNU-GPL que, entre outras liberdades, permite executar o programa para
qualquer propósito, estudar seu funcionamento e realizar possíveis adaptações para
determinadas necessidades. A nova versão do scriptLattes em Python permite uma
rápida adaptação/modificação dos procedimentos para diversas finalidades (sugeridas
principalmente para atividades acadêmicas ou de pesquisa), pois foi criada com
estruturas de dados simples, módulos padrão da linguagem de programação, e seguindo
o paradigma da Programação Orientada a Objetos. É importante frisar que a distribuição
do código fonte permite também a execução do programa sob diferentes sistemas
operacionais (e.g. Windows, Linux e MacOS) desde que os módulos requeridos sejam
corretamente instalados no próprio sistema operacional.
Finalmente, o tempo de execução do programa depende, além do tempo de conexão
com as plataformas Lattes e Google Maps, do número total de produções acadêmicas
produzidas e cadastradas pelo grupo, e não do número de membros considerados no
grupo. Nesse sentido, compilar os dados acadêmicos de um grupo pequeno com muitas
produções bibliográficas será mais demorado do que compilar os dados acadêmicos de
um grupo médio ou grande com pouquíssimas produções bibliográficas.
5 Considerações finais
O scriptLattes é um programa, ainda em desenvolvimento, que auxilia principalmente
na compilação ou coleta de dados de currículos Lattes que, tipicamente, é difícil de
obter de forma manual para grupos de médio ou grande porte. O objetivo deste
manuscrito foi descrever as principais características da ferramenta, assim como
apresentar algumas experiências de sua utilização sobre um conjunto de dados
extremamente valioso, entretanto pouco explorado, como é a Plataforma Lattes.
Salientamos que a utilização de ferramentas automáticas similares à apresentada (e.g.
DBLP, CiteSeer, Google Scholar, Microsoft Academic Search, e ArnetMiner (TANG et
al., 2008)) vêm sendo cada vez mais necessária, pois existe um volume crescente de
dados de produção acadêmica e científica que devem ser corretamente computados e
explorados visualmente de forma efetiva por meio de métodos computacionais (KEIM,
2002).
Embora seja louvável a tarefa de compilação automática de dados acadêmicos para
grupos de pesquisa, deve-se perceber que os resultados apenas refletem os dados
cadastrados na Plataforma Lattes. Consequentemente, dados cadastrados de forma
incorreta e/ou incompleta nos currículos Lattes também permanecerão incorretos e/ou
incompletos nos relatórios de compilação gerados pelo scriptLattes.
Como trabalhos futuros, pretende-se explorar outros dados disponíveis nos currículos
Lattes como, por exemplo, a formação acadêmica/titulação e a identificação das áreas
de atuação. Essas informações são importantes para a avaliação acadêmica de grupos,
possibilitando identificar uma correspondência com o grau de internacionalização do
grupo (e.g. quais foram os países em que os membros do grupo se titularam).
Adicionalmente, pretende-se implementar uma estratégia de atualização incremental de
todos os relatórios gerados para currículos Lattes correspondentes a novos membros do
grupo. Com isto, a nova informação será acrescentada aos relatórios, sem ter a
necessidade de processar os currículos Lattes de todos os membros do grupo.
Finalmente, pretende-se investir tanto na adoção de sistemas de visualização eficiente
de grafos complexos que lidam com quantidades grandes de nós, quanto na utilização de
novas medidas para representação de grafos de colaborações como, por exemplo, a
influência na colaboração (TANG; YANG, 2009).
Referências
AMORIN, C. V. Curriculum vitae organization: The Lattes software platform. Pesquisa
Odonlógica Brasileira, v. 17, n. 1, p. 18–22, 2003.
BARABASI, A. L.; ALBERT, R. Emergence of scaling in random networks. Science,
v. 286, n. 5439, p. 509–512, 1999.
BATAGELJ, V.; MRVAR, A. Some analyses of Erdos collaboration graph. Social
Networks, v. 22, n. 2, p. 173–186, 2000.
ENKHSAIKHAN, M.; LIU, W.; REYNOLDS, M. Geographical and temporal
visualisation of social relationships. In: Pacific Asia Conference on Information
Systems, p. 1-11, 2008
KANG, I. S. et al. On co-authorship for author disambiguation. Information
Processing and Management, v. 45, n. 1, p. 84–97, 2009.
KEIM, D. A. Information visualization and visual data mining. IEEE Transactions on
Visualization and Computer Graphics, v. 7, n. 1, p. 100-107, 2002.
KLINK, S. et al. Analysing social networks within bibliographical data. 7th
International Conference on Database and Expert Systems Applications. Lecture Notes
in Computer Science, v. 4080, p. 234–243, 2006.
KOUZES, R. T. et al. The changing paradigm of dataintensive computing. Computer,
v. 42, n. 1, p. 26–34, 2009.
LEYDESDORFF, L. Can Scientific Journals be Classified in terms of Aggregated
Journal-Journal Citation Relations using the Journal Citation Reports?. Journal of
the American Society for Information Science & Technology, v. 57, n. 5, p. 601-613,
2006.
LEYDESDORFF, L. Betweenness centrality as an indicator of the interdisciplinarity of
scientific journals. Journal of the American Society for Information Science and
Technology, v. 58, p. 1303–1319, 2007.
LIU, X. et al. Co-authorship networks in the digital library research community.
Information Processing and Management, v. 41, n. 6, p. 1462-1480, 2005.
MAIA, M. F.; CAREGNATO, S. E. Co-autoria como indicador de redes de colaboração
científica. Perspectivas em Ciência da Informação, v. 13, n. 2, p. 18–31, 2008.
MENA-CHALCO, J. P.; CESAR-JR, R. M. scriptLattes: An open-source knowledge
extraction system from the lattes platform. Journal of the Brazilian Computer
Society, v. 15, n. 4, p. 31–39, 2009.
NAVARRO, G. A guided tour to approximate string matching. ACM Computing
Surveys, v. 33, n. 1, p. 31–88, 2001.
NEWMAN, M. E. J.; GIRVAN, M. Finding and evaluating community structure in
networks, Physical Review E, v. 69, n. 2, p. 026113(15), 2004.
NICHOLSON, S. The basis for bibliomining: frameworks for bringing together usage-
based data mining and bibliometrics through data warehousing in digital library
services. Informations Processing and Management, v. 42, n. 3, p. 785–804, 2006.
PENG, F.; MCCALLUM, A. Information extraction from research papers using
conditional random fields. Information Processing and Management, v. 42, n. 4, p.
963-979, 2006.
PITBLADO, J. R.; PONG, R. W. Geographic distribution of physicians in Canada.
Sudbury, Laurentian University Centre for Rural and Northern Health Research, 1999.
SCOTT, J. Social network analysis: a handbook. Sage, London, 2 ed., 2000.
TANG, J. et al. Arnetminer: Extraction and mining of academic social networks. In
International Conference on Knowledge Discovery and Data Mining, 2008.
Proceedings of the 14th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, p. 990–998.
TANG, J.; YANG, Z. Social influence analysis in large-scale social networks. In
International Conference on Knowledge Discovery and Data Mining, 2009.
Proceedings of the 15th ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, p. 807–816.
TOMITA, M. Current issues in parsing technology. Kluwer Academic Publishers,
Boston, 1991.
WASSERMAN, S.; FAUST, K. Social network analysis. Cambridge University Press,
Cambridge, 1994.
WU, B. et al. Characterizing the evolution of collaboration network. In 2nd ACM
Workshop on Social Web Search and Mining, 2009. Proceeding of the 2nd ACM
workshop on Social web search and mining, p. 33–40.
YE, N. The Handbook of data mining. Lawrence Erlbaum Associates Publishers.
Mahwah, New Jersey, 2003.
Nota:
O scriptLattes não está vinculado ao CNPq. A ferramenta é o resultado de um esforço
independente realizado com o único intuito de auxiliar as tarefas mecânicas de
compilação ou coleta de informações publicamente cadastradas nos Currículos Lattes.
Portanto, o CNPq não é responsável por nenhuma assessoria técnica sobre esta
ferramenta. Sugestões de melhora e dúvidas técnicas devem ser encaminhadas a
jesus.mena@ufabc.edu.br.
... Cañibano e Bozeman (2009) destacam que os currículos acadêmicos são fontes de informação potenciais e extremamente abrangentes, bem como foco de investigações recentes que estudam grupos de pesquisadores. Inquirições que se valem de currículos no exame de redes sociais são ainda menos frequentes, porém, deve-se considerar a gama de trabalhos sobre análise de coautoria e os efeitos das colaborações científicas na carreira do pesquisador (DIGIAMPIETRI; SANTIAGO; ALVES, 2013;LIMA et al., 2013;MENA-CHALCO;CESAR-JUNIOR, 2013). Perez-Cervantes et al. (2013) introduzem novas medidas para estimar a influência da colaboração em redes científicas. ...
Article
Full-text available
In a scientific collaboration network, a connection is formed when two or more scientists publish a work together, in which case, the works represent the edges, and the scientists represent the nodes of the network. Using concepts from the analysis of social networks, it is possible to better understand the relationship between nodes. The work in question aims to make the prediction of connections in co-authorship networks formed by PhDs with curricula registered in the Lattes Platform, and whose area of activity is Information Sciences. Currently, the Lattes Platform has 6.6 million curricula of individuals and represents one of the most relevant and recognized scientific repositories worldwide. With this, it is possible to understand the behavior of the network and monitor its evolution over time. For that, some steps are necessary, they are: data extraction, creation of co-authorship networks, definition of the attributes to be used, creation of a data set, and finally, use them as input in a machine learning algorithm. Through the results it is possible to establish, with precision, the evolution of the network of scientific collaborations of the researchers at national level, thus assisting the funding agencies in the choice of future outstanding researchers.
Book
Full-text available
Esta obra é um exemplo de experiências desenvolvidas durante o período pandêmico em programas de pós-graduação brasileiros. A iniciativa reúne o trabalho de estudantes que participaram da disciplina “Educação superior no mundo pós-pandemia: tendências e desafios”, no âmbito do Programa de Pós-Graduação em Educação da Unicamp, e foi acrescida da participação de autores convidados. A disciplina foi realizada inteiramente na modalidade do ensino remoto emergencial e, pela conjuntura na qual foi desenvolvida, possibilitou a instauração de um observatório das respostas dadas pelas diferentes instituições de ensino superior para dirimir os problemas enfrentados em razão da crise sanitária imposta pelo novo coronavírus.
Chapter
Full-text available
Este texto tem como objetivo analisar as ações institucionais referentes à assistência estudantil destinadas aos estudantes de graduação adotadas pela UNILA nos anos de 2020 e 2021. Foi realizada uma pesquisa de cunho qualitativo e documental, e, para a construção dos dados, recorreu-se a editais e portarias disponibilizadas no site institucional desta universidade. O texto é construído em cinco seções. À esta primeira, que constitui a Introdução, segue a segunda seção, em que se contextualizam a UNILA e suas políticas para a permanência estudantil. Na terceira, são apontados alguns dos impactos provocados pela pandemia da Covid-19 na Educação Superior. Na quarta seção, são apresentadas as principais ações desenvolvidas no âmbito da assistência estudantil na UNILA nos anos de 2020 e 2021, e a última seção dedica-se a apresentar as considerações finais do estudo.
Chapter
Full-text available
Este estudio propuso analizar la colaboración científica de Psicología de una universidad pública brasileña y, a partir de la coautoría en la producción de artículos, identificar las relaciones establecidas y las redes formadas en la colaboración en el contexto internacional.
Article
Full-text available
A difusão da excelência científica dos centros de pesquisa do Sudeste do Brasil para regiões menos favorecidas e a internacionalização são apontadas como desafio. O presente estudo bibliométrico analisa regionalmente as redes de colaboração científica formadas na publicação de artigos em coautoria pelos Egressos stricto sensu da Psicologia da Universidade Federal de Minas Gerais, sua configuração no Brasil e no exterior. O software ScriptLattes extraiu os artigos do Currículo Lattes, para a geração de grafos de colaboração e mapas de geolocalização propiciando análise espacial quantitativa e avaliativa pela visualização das redes. Os 469 artigos publicados formaram uma rede com 390 coautores e total de 1438 conexões pela coautoria conjunta. Na colaboração nacional Minas Gerais é a região da maioria dos vínculos, embora considerável colaboração com outros 13 Estados, sendo 07 destes fora da região Sul/Sudeste. Dentro do Estado houve acentuada concentração na capital Belo Horizonte, todavia, ocorreram conexões com 17 municípios do interior. Um espalhamento da atividade colaborativa foi identificado a partir da presença de Egressos como docentes nas Instituições com maior quantidade de conexões contribuindo para redução das assimetrias regionais. A rede dentro da Universidade se caracterizou por alta endogenia, com pouca interação com outros Programas. A colaboração internacional foi fraca com poucas Instituições estrangeiras, prevalecendo a influência pela similaridade linguística com maior peso que a proximidade geográfica. É demonstrada a importância dos estudos de Egressos e da Cientometria Espacial para tomadas de decisão pelos Programas e órgãos governamentais.
Article
Full-text available
Scientometrics is a study that provides indicators and analyses to measure the technical-scientific contribution of the most diverse areas, identifying potentialities and opportunities. This study proved especially relevant for the Universidade Federal Oeste do Pará (UFOPA). It was observed great difficulty consulting and analyzing data on its technical-scientific productions; knowing these data is vital for any institution because several decisions can be made from them. Thus, this work aims to use scientometrics to improve research management at UFOPA through software that consolidates and disseminates the Institution's production data quickly and centrally. This software collects and analyzes data directly from the Lattes Platform and Google Scholar, generating results that help in the management of research and innovation and the evaluation of techno-scientific policies, providing greater transparency, social inclusion, and data-oriented decision-making capacity. This work aims to generate local impacts in the UFOPA environment where the software was developed and implemented; the idea is that it allows managers to evaluate and make decisions and that researchers and society, in general, can interact and obtain the knowledge produced by the Institution.
Preprint
Full-text available
Empirical studies have pointed out that academic mobility can increase social capital, contribute to collaborations, and directly influence overall career success (Dueñas-Fernández, Iglesias-Fernández & Llorente-Heras, 2013). However, it is also known that both academic mobility and international scientific collaborations can be negatively impacted by gender inequality. Regarding international mobility, women are underrepresented in all areas of knowledge (Momeni et al., 2022). In science, immobility or low mobility is commonly associated with slower career progression; scarce opportunities to hold coordination and management positions ("glass ceiling"); less insertion in international collaboration networks; and even abandonment of science (Delicado & Alves, 2013; van der Wal, 2021). The overload of family functions and the partnering effect (Ackers, 2004) are among the obstacles that women may face, which can limit researchers' displacement opportunities (Momeni et al., 2022). This scenario justifies the importance of exploring the international mobility undertaken by Brazilian researchers to analyze, among other aspects, the possible gender imbalances in academic mobility. The population investigated in this research will be comprised of Brazilians who have done postdoctoral studies abroad. This selection is because they are more advanced in their professional and training trajectories. The phase after the doctorate makes the researcher more independent and responsible for their research agenda, which would leave them better able to conduct high-impact studies (Nerad et al., 2022). The work aims to design research that evaluates the effect of postdoctoral mobility abroad on employment in the academic career, considering gender inequality and institutional and systemic aspects (such as area of knowledge, academic productivity, and career position) (Aksnes et al., 2019). For this, a consolidated database will be built based on former postdoctoral fellows of the São Paulo Research Foundation (FAPESP) and the triangulation of a set of data sources since there is no consolidated database on mobility and employment ties in the Brazilian case. Next, a comparative study with a descriptive and exploratory design will be carried out between those who had postdoctoral fellowships abroad and those who had postdoctoral fellowships in Brazil without an internship abroad, and which aims, in the future, to enable the carrying out of a quasi-experiment. DESIGN/METHODOLOGY/APPROACH: The research design is descriptive and exploratory, in which a consolidated database is built with information about employment, academic production and curriculum, as well as the completion of internships abroad. Thus, possible patterns and differentiations between the academic trajectories and the characteristics of the individuals will be investigated. The consolidated database is constructed by exploring, collecting and cross-referencing information from various data sources with quality control of the selected variables. First, we will explore the databases made available by FAPESP regarding former postdoctoral fellows to obtain information about the individuals funded between 2012 and 2017, such as name, institutional affiliation and area of knowledge. Such information is necessary for cross-referencing with other databases. In addition, other information from the researchers' records will be checked regarding the percentage of missing values such as gender, race/color, sexual orientation, and age, among others. The time frame will allow the verification of scientific production and insertion in the labor market in the post-doctorate conclusion years. Subsequently, the FAPESP database will be used for triangulation with three other data sources: (i) formal employment records from the Annual Social Information Report (RAIS) of the Ministry of Labor and Social Security; (ii) the résumés available on the Lattes platform of the National Council for Scientific and Technological Development (CNPq); and (iii) the institutional affiliation in the scientific production of a bibliometric study. FINDINGS OR EXPECTED OUTCOMES: The results found so far show a discrepant distribution of completed fellowships by knowledge area and a high concentration of destination countries in the Global North. The expected outcomes are the obtaining of different patterns between the effects of mobility of postdoctoral fellows abroad and the effects of the characteristics of individuals (gender) in scientific production and in employment. Thus, enabling the generation and substantiation of hypotheses for future work. ORIGINALITY/VALUE: The originality of this research is grounded on three factors. Firstly, the increase in knowledge on international mobility, emphasizing the impacts of mobility on the careers of Brazilian scientists and academics and on gender inequality, which is still little explored. Secondly, the increase in the knowledge areas studied and in the number of destination countries. Previous studies usually focused on a few areas, favoring those with low female presence (exact and biological sciences and engineering) and a small group of destination countries (mainly countries of the Global North). Thus, comprehensiveness is one of the innovations of this research, without the prior selection of areas of knowledge or countries of destination. Thirdly, the results will be based on a triangulation of four sets of information, which will complement different types of academic links, validation of research data, and greater reliability. PRACTICAL/SOCIAL IMPLICATIONS: Gender asymmetries in access to academic mobility highlight the disparities between men and women in career advancement possibilities, considering the relevance of international experiences in the researchers' curriculum. Along with the discussions of Responsible Research Assessment (RRA), global initiatives from groups such as the Research on Research Institute (RoRI) and the Global Research Council (GRC) are bringing the need to consider Equity, Diversity and Inclusion (EDI) in research practices and activities to the debate. Thus, it is essential to expand the understanding of gender inequalities in international mobility and academic careers, especially in the Brazilian context. This will contribute to implement EDI plans and policies and create mechanisms aimed at gender equity in the generation of academic mobility opportunities in funding agencies. DIRECTIONS FOR FURTHER RESEARCH/LIMITATIONS: It is anticipated that there will be two main limitations in the research. The first is the difficulty in obtaining information on the characteristics of individuals. Even with the triangulation of several data sources, the information is often low quality or non-existent. The second limitation stems from the need for more robust methodologies that allow greater inferences about the results, which demands future research advances, where methodologies such as the Generalized Propensity Score (GPS) are implemented.
Article
Full-text available
Considerando que as Universidades têm como base os pilares de ensino, pesquisa e extensão, faz-se imperativo o uso de métodos para avaliação de sua produção técnico-científica. Por meio da cientometria, mensura-se a contribuição técnico-científica em determinadas áreas, identificando potencialidades e oportunidades institucionais. Com o estudo de caso à Universidade Federal do Oeste do Pará (UFOPA), observou-se os seguintes problemas na gestão de suas pesquisas: dificuldade de coleta e organização dos dados de pesquisa da instituição, integração com sistemas institucionais e transparência das produções técnico-científicas. Tais fatos impactam na eficiência da gestão da pesquisa. Visando resolver os problemas supracitados, o presente trabalho compreende na análise inteligente de dados para auxiliar na tomada de decisão referente aos editais de pesquisa da instituição. Os resultados obtidos possibilitam uma maior transparência, inserção social da universidade e capacidade de tomada de decisão orientada a dados, fornecendo auxílio à gestão da pesquisa e inovação e avaliação de políticas tecnocientíficas. O presente trabalho foi conduzido sob a ótica do Design Science Research. Espera-se que o produto possibilite uma maior eficiência na gestão de recursos públicos, fomentando parcerias inter e intra institucional e aumento do impacto das pesquisas. A abordagem adotada é escalável, podendo ser utilizada por outras Instituições de Ciência e Tecnologia.
Article
Full-text available
Objetivo: o objetivo deste artigo é analisar a produção acadêmica relativa aos temas/constructos: inovação, representações sociais e mindset. Design⏐Metodologia⏐Abordagem: esta pesquisa é caracterizada como exploratória, descritiva, realizada por meio de uma revisão sistemática de literatura e uma análise bibliométrica. Resultados: os resultados apontam que a abordagem metodológica mais utilizada nos artigos selecionados é a quantitativa e a maioria dos artigos são escritos por 2 autores. Os autores com maior número de citações de acordo com o tema são, a saber: (i) Dweck, C. S., mindset e inovação; (ii) Mocovici, S., representações sociais e (iii) Amabile, T. M., inovação. No Brasil, a unidade da federação com o maior número de publicações sobre os temas/constructo é São Paulo e a Universidade Nove de Julho (UNINOVE) é a Instituição de Ensino Superior – IES e com maior frequência de publicações. Originalidade⏐Valor: a originalidade do estudo é confirmada pela carência de produções acadêmicas relacionadas aos temas/constructos. Referências Almeida, M. (2002) Uma introdução ao XML, sua utilização na Internet e alguns conceitos complementares. Ciência da Informação, v. 31, n. 2, p. 5-13. CAPES, Portal de periódicos. (2020). http://www.periodicos.capes.gov.br/. Recuperado em 20 janeiro de 2020. Collis, J. & Hussey, R. (2005). Pesquisa em administração: um guia prático para alunos de graduação e pós-graduação. 2. ed. Porto Alegre: Bookman. Edwordle. http://www.edwordle.net/ Recuperado em 20 abril de 2021. Gil, A. C. (2002). Como elaborar projetos de pesquisa. 4. ed., São Paulo: Atlas. Guedes, V. L. S. (2012). A bibliometria e a gestão da informação e do conhecimento científico e tecnológico: uma revisão da literatura. PontodeAcesso, v. 6, n. 2, p. 74-109. JABREF. https://www.jabref.org/. Recuperado em 25 março de 2021. Machado, S. M. (2019). Desconstruindo o mindset e construindo inovação: Usando a neurociência para alavancar resultados. São Paulo: Évora. Marconi, M. A. & Lakatos, E. M. (2010). Técnicas de Pesquisa. São Paulo: Atlas. Mena-Chalco, J. P. & Cesar Junior, R. M. S. (2013). Prospecção de dados acadêmicos de currículos Lattes através de Scriptlattes. In: Hayashi, M. C. P. I. & Leta, J. L. (Org). Bibliometria e Cientometria: reflexões teóricas e interfaces. São Carlos: Pedro & João, p. 109-128. MIAR. Information Matrix for the Analysis of Journals. http://miar.ub.edu/about-icds. Recuperado em 01 julho de 2021. Murphy, M. C. & Dweck, C. S. (2010). A culture of genius: How an organization's lay theory shapes people's cognition, affect and behavior. Personality and Social Psychology Bulletin, v. 36, p. 283–296. OECD. (2018). Organization for Economic Co-operation and Development. Oslo Manual 2018: guidelines for collecting, reporting and using data on innovation. 4. ed. [S. l.]. 258 p. Reis, S. L. A. & Bellini, M. (2011). Representações sociais: teoria, procedimentos metodológicos e educação ambiental. Acta Scientarum. Human and Social Sciences, v. 33, n. 2, p. 149-159. Silva, E. L. & Menezes, E. M. (2005). Metodologia da pesquisa e elaboração de dissertação. 4. Ed. Florianópolis: UFSC. Subramanyam, K. (1983). Bibliometric studies of research collaboration: a review. Journal of Information Science, CILIP, v.6, n. 1, p. 33. The Economist. (2021). The Word in 2021. Reino Unido. 2020. https://imgcdn.larepublica.co/cms/2020/12/30122522/The-Economist-The-World-in-2021_compressed-1.pdf. Recuperado em 22 março de 2021. Tidd, J., Bessant, J. & Pavitt, K. (2008). Gestão da Inovação. 3. ed. Porto Alegre: Bookman. Vergara, S. C. (2009). Métodos de coleta de dados de campo. São Paulo: Atlas. Vieira, M. M. F. & Zouain, D. M. (2004). Pesquisa qualitativa em administração. Rio de Janeiro: Editora FGV.
Article
Full-text available
O presente artigo discute, no espectro das metodologias quantitativas, as abordagens cientométricas orientadas e aplicadas ao campo científico da Sociologia no Brasil. A partir da análise da produção bibliográfica e da trajetória acadêmica da coorte dos docentes vinculados aos Programas de Pós-graduação avaliados na área de Sociologia pela CAPES – docentes ativos em 2020 –, o artigo expõe limites e oportunidades dos caminhos analíticos referentes aos estudos métricos da ciência, destacando as “boas práticas” da cientometria e a função instrumental dessa metodologia. Os materiais utilizados foram os registros bibliográficos coletados nos bancos de dados Scopus e Plataforma Lattes da população acadêmica selecionada. Os resultados alcançados discutem o próprio fazer cientométrico e a construção de alguns indicadores que podem ser mais adequados à compreensão da dinâmica do campo científico da Sociologia.
Article
Full-text available
Estudo bibliométrico sobre redes de colaboração científica entre os professores do Programa de Pós-Graduação em Epidemiologia da Universidade Federal de Pelotas (PPGE/UFPel). As características de colaboração foram estudadas através das co-autorias dos artigos publicados em periódicos, no período entre 1991 e 2002. As análises revelaram que os professores publicam mais artigos em autoria compartilhada do que individual. Não foi encontrada relação entre o aumento da produtividade e um número maior de colaboradores, pois a taxa de produtividade e a taxa de autores por artigo não apresentam a mesma tendência; ou seja, o número de artigos publicados cresceu enquanto que o número de colaboradores permaneceu constante no período estudado. As análises de redes sociais revelaram uma configuração em torno dos professores mais produtivos.
Article
Systems as diverse as genetic networks or the World Wide Web are best described as networks with complex topology. A common property of many large networks is that the vertex connectivities follow a scale-free power-law distribution. This feature was found to be a consequence of two generic mech-anisms: (i) networks expand continuously by the addition of new vertices, and (ii) new vertices attach preferentially to sites that are already well connected. A model based on these two ingredients reproduces the observed stationary scale-free distributions, which indicates that the development of large networks is governed by robust self-organizing phenomena that go beyond the particulars of the individual systems.
Chapter
2-Dimensional Context Free Grammar (2D-CFG) for 2-dimensional input text is introduced and efficient parsing algorithms for 2D-CFG are presented. In 2D-CFG, a grammar rule’s right hand side symbols can be placed not only horizontally but also vertically. Terminal symbols in a 2-dimensional input text are combined to form a rectangular region, and regions are combined to form a larger region using a 2-dimensional phrase structure rule. The parsing algorithms presented in this chapter are 2D-Earley algorithm and 2D-LR algorithm, which are a 2-dimensionally extended version of Earley’s algorithm and the Generalized LR algorithm, respectively.
Article
Patrick Ion (Mathematical Reviews) and Jerry Grossman (Oakland University) maintain a collection of data on Paul Erdős, his co-authors and their co-authors. These data can be represented by a graph, also called the Erdős collaboration graph.In this paper, some techniques for analysis of large networks (different approaches to identify ‘interesting’ individuals and groups, analysis of internal structure of the main core using pre-specified blockmodeling and hierarchical clustering) and visualizations of their parts, are presented on the case of Erdős collaboration graph, using the program Pajek.
Article
Data intensive computing facilitates human understanding of complex problems that must process massive amounts of data. Through the development of new classes of software, algorithms and hardware, data intensive applications provide timely and meaningful analytical results in response to exponentially growing data complexity and associated analysis requirements. This paper considers some of the application drivers for the evolution of data intensive computing from storage centric to analysis centric requirements.
Article
With the increasing use of research paper search engines, such as CiteSeer, for both literature search and hiring decisions, the accuracy of such systems is of paramount importance. This article employs conditional random fields (CRFs) for the task of extracting various common fields from the headers and citation of research papers. CRFs provide a principled way for incorporating various local features, external lexicon features and globle layout features. The basic theory of CRFs is becoming well-understood, but best-practices for applying them to real-world data requires additional exploration. We make an empirical exploration of several factors, including variations on Gaussian, Laplace and hyperbolic-L1 priors for improved regularization, and several classes of features. Based on CRFs, we further present a novel approach for constraint co-reference information extraction; i.e., improving extraction performance given that we know some citations refer to the same publication. On a standard benchmark dataset, we achieve new state-of-the-art performance, reducing error in average F1 by 36%, and word error rate by 78% in comparison with the previous best SVM results. Accuracy compares even more favorably against HMMs. On four co-reference IE datasets, our system significantly improves extraction performance, with an error rate reduction of 6–14%.
Article
Over the past few years, data mining has moved from corporations to other organizations. This paper looks at the integration of data mining in digital library services. First, bibliomining, or the combination of bibliometrics and data mining techniques to understand library services, is defined and the concept explored. Second, the conceptual frameworks for bibliomining from the viewpoint of the library decision-maker and the library researcher are presented and compared. Finally, a research agenda to resolve many of the common bibliomining issues and to move the field forward in a mindful manner is developed. The result is not only a roadmap for understanding the integration of data mining in digital library services, but also a template for other cross-discipline data mining researchers to follow for systematic exploration in their own subject domains.