Content uploaded by V. Torres-Zuniga
Author content
All content in this area was uploaded by V. Torres-Zuniga on Dec 10, 2024
Content may be subject to copyright.
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 1 de 16
Hoja de cálculo de la ley de Newcomb-Benford con datos científicos,
ChatGTP, censo y Covid-19 en México
Vicente Torres-Zúñiga
Escuela Nacional de Ciencias Forenses, Universidad Nacional Autónoma de México.
Circuito de la Investigación Científica s/n. Alcaldía Coyoacán, C.P. 04510, México,
Cd. Mx.
RESUMEN
Presentamos y ponemos a disposición un material didáctico sobre la ley de Newcomb-
Benford en formato de hoja de cálculo, que contiene siete conjuntos de datos: la serie de
Fibonacci, números aleatorios, una distribución gaussiana, datos generados con ChatGTP,
constantes fundamentales de física, el conteo poblacional de municipios en México y el
conteo de defunciones por Covid-19 en México. La interfaz es cómoda y estética,
permitiendo seleccionar los datos de entrada, revisar los cálculos de frecuencia de los
primeros y los dos primeros dígitos; además de evaluar los resultados estadísticos como
criterios de concordancia entre los datos de entrada y el modelo teórico. La hoja de cálculo
es un medio eficiente para aprender el tema, pudiéndose utilizar de manera expositiva o
como parte de actividades de un taller o laboratorio. La ley de Newcomb-Benford es
utilizada por especialistas forenses para detectar fraudes en la contabilidad financiera,
votaciones, entre otras aplicaciones. Lamentablemente, es poco conocida entre estudiantes
preuniversitarios y de licenciaturas relacionadas con la auditoría. Este material y las
sugerencias didácticas presentadas pueden aprovecharse para desarrollar una actividad de
aprendizaje sobre las ventajas y alcances de esta técnica estadística en la investigación de
manipulación de datos.
PALABRAS CLAVE: inteligencia artificial, índices estadísticos, Excel, hoja de cálculo.
INTRODUCCIÓN
A pesar de ser una poderosa herramienta de auditoría, la ley de Newcomb-Benford es poco
conocida entre las comunidades de profesionales forenses, contadores, ciencia de datos y el
público general. Nuestros sistema de contabilidad por dígitos produce patrones de
repetibilidad en los primeros dígitos de las cifras en grupos de datos. Es decir, se observa
que en los catálogos numéricos el digito 1 aparece con mayor frecuencia que el digito 2, y
éste más que el 3, y así sucesivamente hasta el 9, Este comportamiento se ha documentado
en interacciones de redes sociales (Bhosale y Di Troia, 2022), tamaños de población, conteo
de votos, relaciones epidemiológicas, series matemáticas, estadísticas deportivas,
compilaciones de mediciones químicas o físicas, y muchas otras clases de listas numéricas
(Jiménez-Sánchez, 2020). Por tal rasgo, la literatura especializada contiene varias
propuestas sobre la conveniencia de aprovechar este patrón matemático para verificar la
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 2 de 16
credibilidad técnica en procesos de compilación de datos, como los económicos en un libro
de contabilidad, declaraciones de impuestos, comportamiento de acciones en la bolsa de
valores (Nigrini, 2012), así también de reportes científicos, médicos, productividad, e
incluso en el resultado de encuestas masivas y de elecciones de estado (Capalbo et al.,
2023). Sin embargo, la aplicación de tal técnica es poco conocida por grupos de estudiantes
y algunos profesionales.
Por ejemplo, en la Red Mexicana de Repositorios Institucionales, que incluye
135 repositorios de 80 instituciones, a la fecha, solo se encontró el registro de una tesis que
incluyen el término “Benford” aplicado a este tema (Red Mexicana de Repositorios
Institucionlaes , 2024). Tampoco se encontraron documentos institucionales que
respondieran a la consulta en el buscador Google con los caracteres “‘Benford’ ‘plan de
estudios’”. De hecho, en el plan de estudios de la Licenciatura en Ciencia Forense de la
Universidad Nacional Autónoma de México LCF-UNAM, no incluye una materia de
auditoría contable, aunque sí con las asignaturas obligatorias de Estadística Forense I y II,
ninguna de las cuales aborda la ley de Newcomb-Benford en sus índices temáticos
(UNAM, 2013; UNAM, 2013). Esta ausencia también se observa en el Plan de estudios de
Contaduría 2023 (UNAM, 2024) y en el plan de estudios de la misma carrera 2012 –
actualizado 2016–, que incluye a la materia de Auditoría Forense, pero tampoco es explicito
el tema de la ley de Benford en su temario (UNAM, 2024). Estas omisiones sugieren que se
requiere mayor difusión de la ley de Benford y sus aplicaciones.
Una estrategia eficiente de aprendizaje del tema es mediante una demostración, que
después evolucione a la exploración por los estudiantes mediante una actividad de
evaluación formativa o sumativa (Chavez et al., 2021). Esto implica utilizar un sistema de
cálculo familiar para los estudiantes y bases de datos significativas. Una hoja de cálculo,
como Excel o Google Sheets, puede ser la mejor opción para que las personas con poca
experiencia en programación conozcan y ensayen con el tópico (Campos et al., 2022). Por
ello, construimos y ponemos a disposición un archivo .XLSX que realiza un análisis de la
similitud entre la ley de Newcomb-Benford y siete sendos listados numéricos: 1) secuencia
de Fibonacci (5000 datos), 2) números aleatorios entre 1 y 1000 (5000 datos), 3) una
distribución gaussiana (1000 datos), 4) Constantes físicas fundamentales (353 datos), 5)
cifras generadas por ChatGTP 4.0 (1000 datos), 6) conteo poblacional por municipio en
México (2457 datos) y 7) conteo de defunciones por Covid-19 en México (1194 datos).
Hasta nuestro conocimiento, esta es la primera vez que se propone y brinda una actividad
didáctica sobre ley de Newcomb-Benford y auditoría de listados numéricos atractivos,
significativos y asequibles mediante hoja de cálculo.
La exposición del documento está dividida en secciones. Primero, explicamos el contexto
histórico del desarrollo de la ley de Benford, en la siguiente sección se expone la
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 3 de 16
matemática de la ley de Newcomb-Benford, además de cómo se puede afirmar que un
conjunto de datos es coherente con tal distribución. Después justificamos la metodología
para obtener los datos y la conveniencia de utilizar la hoja de cálculo para la didáctica del
tema, explicaremos su estructura y cómo se puede escalar el contenido de la hoja de cálculo
o el análisis matemático.
Explicamos los resultados que se obtienen de los análisis en la hoja de cálculo y sus
implicaciones en la evaluación de otras bases de datos. Comentaremos su utilización frente
a un grupo de estudiantes y finalizamos la exposición de este trabajo con conclusiones y
prospectiva de investigación.
Sucinto contexto histórico de la ley de Newcomb-Benford.
Alrededor de 1881, Simon Newcomb observó que, independientemente del campo de
conocimiento, las páginas iniciales de los libros de tablas logarítmicas mostraban un mayor
deterioro en comparación con las últimas. Es decir, las hojas relacionadas con los primeros
dígitos, como el 1, estaban más desgastadas que las correspondientes a los dígitos más
grandes, como el 9. Newcomb infirió que los valores con dígitos pequeños se consultaban
con mayor frecuencia porque aparecían más comúnmente en la primera posición de las
cifras (Berger y Hill, An introduction to Benford's law, 2015).
En 1938, Frank Albert Benford Jr. también notó el patrón de desgaste en los libros de tablas
logarítmicas y realizó observaciones empíricas sobre la frecuencia del primer dígito en
diversas listas numéricas, tales como magnitudes químicas y físicas, estadísticas de béisbol
y áreas fluviales. Estas observaciones le permitieron describir una relación, aunque sin
profundizar en una explicación del comportamiento.
A partir de 1960, se publicaron las primeras explicaciones formales sobre el
comportamiento de la frecuencia del primer dígito en los listados. Desde mediados de los
años 90, Mark Nigrini ha promovido la ley de Benford como una técnica para identificar
irregularidades en reportes contables (Nigrini, 2012). Por su parte, Walter R. Mebane Jr. la
ha utilizado para analizar resultados electorales (Mebane, 2024). Hoy en día, se considera
que si una lista contable se desvía significativamente de la ley de Benford, esto es un
indicio de anomalías que merece una revisión más detallada, aunque no necesariamente
implica fraude, ya que este término jurídico abarca más elementos que las que aporta un
solo análisis técnico estadístico (European Commission for Democracy through Law,
2018).
Explicación elemental de la ley de Benford
La ley de Benford es una consecuencia de nuestro modo de contar objetos. Imaginemos que
realizamos un conteo prolongado. Al inicio, los dígitos de las unidades se distribuyen
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 4 de 16
uniformemente entre las unidades. Sin embargo, al avanzar a las decenas, los dígitos
pequeños aparecen encabezando las cifras, por lo que los dígitos grandes tardarán en lograr
la misma frecuencia que el resto. Cuando completamos las decenas y la distribución es
nuevamente uniforme, aparecen las centenas con un periodo más largo, iniciado
nuevamente con dígitos pequeños enfrente de las cifras. Este patrón puede detenerse antes
de que los dígitos grandes se muestren al principio de las cifras. Si se alcanza una
distribución uniforme, se entra en otro periodo, aún más largo, con los dígitos pequeños
predominando al inicio.
En un conteo extenso e interrumpido, es improbable que los dígitos grandes encabecen la
primera cifra. La frecuencia de aparición de dígitos grandes no supera a la de los pequeños
y, cuando la iguala, el cambio de periodo fomenta nuevamente el predominio de los dígitos
pequeños a la izquierda de la cantidad. Al repetir este conteo varias veces, se obtiene una
colección de números donde las cifras están encabezadas mayoritariamente por dígitos
pequeños. Esta es la esencia de la ley de Newcomb-Benford. Para demostraciones o
explicaciones más formales, se pueden consultar las referencias (Berger y Hill, The
mathematics of Benford’s law: a primer, 2021). No obstante, para los objetivos de este
documento, esta explicación resulta adecuada.
Ley de Newcomb-Benford y matemáticas
La ley de Newcomb-Benford afirma que en muchos conjuntos de datos numéricos, la
distribución del primer dígito no es uniforme; en lugar de eso, los dígitos más pequeños
ocurren con mayor frecuencia. De hecho, la probabilidad p de que una cifra comience con
el digito d (entre 1 y 9) es:
(1)
Así la función es monótona decreciente y acotada en su dominio (de 1 a 9) y en su
codominio (0 a 1). La tabla 1 muestra las probabilidades de que aparezca cada digito
encabezado una cifra.
Tabla 1. Probabilidades de que los dígitos aparezcan en el extremo izquierdo de una
cantidad.
Dígito
1
2
3
4
5
6
7
8
9
Probabilidad %
30.1
17.6
12.5
9.7
7.9
6.7
5.8
5.1
4.6
Existen modificaciones a la ley de Newcomb-Benford que consideran la frecuencia de
aparición de los dígitos en otras ubicaciones de una cifra. Por ejemplo, en la posición del
quinto lugar de una cantidad la distribución de los dígitos es casi uniforme. También se
puede adecuar la ecuación 1 para considerar más dígitos. Por ejemplo, la probabilidad de
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 5 de 16
que el número comience con los dígitos d1 y d2 (donde la combinación d1 y d2 es parte del
conjunto 11 a 99) es:
(2)
Así, para el caso de la combinación de dígitos 10 la esta probabilidad es 4.14%, mientras
que para 99 la probabilidad disminuye a 0.44%.
Es importante reafirmar que se requiere que la lista numérica a analizar sea grande de modo
que se considere que las frecuencias de aparición de los dígitos sean representativas. A
pesar de que solo cuenta con 9 datos de comparación, utilizar la ecuación 1 brinda mayor
contraste entre las frecuencias que otras ecuaciones, como la 2. Por ello en la literatura se
suelen presentar estudios con la ecuación 1 y algún otro complemento.
Ahora bien, para afirmar que un conjunto de datos numéricos es coherente con la ley de
Newcomb-Benford se requiere algún criterio estadístico que compare a los conjuntos de
datos. Entre tales criterios se encuentran: La desviación media absoluta, la suma de las
desviaciones cuadráticas, el ajuste de bondad por 2 y el ajuste lineal por mínimos
cuadrados. Expondremos brevemente sus características.
1) La desviación media absoluta, por sus siglas en inglés MAD, se puede escribir como:
(3)
donde k es la cantidad de datos de comparación, 9 al considerar el primer digito y 90 para
dos dígitos. Por su parte, bi representa la proporción del primer digito en la muestra y pi es
la probabilidad de Benford acuerdo con la ecuación 1 o 2, según sea el caso. Este índice
esta acotado con un valor inferior a cero, pero carece de cota máxima, tiene la ventaja de
ser simple de calcular e interpretar. Sin embargo, su utilización es criticada porque no se
trata de un índice optimizado estadísticamente, por lo que es poco usado para modelos de
comparación más sofisticados. Con todo, es la medición que Nigrini ha recomendado para
afirmar si un grupo de datos es coherente con la ley de Benford. Por ejemplo, después de
varias experiencias, Nigrini ha propuesto intervalos de valores umbrales fijos. Tales como
considerar estrecha conformidad para valores ≤6∙10-3 para un digito y ≤12∙10-3 para dos
dígitos. En contraste, se afirma que no existe conformidad para valores de >15∙10-3 para un
digito y > 22∙10-3 para dos dígitos. Estos dos umbrales son los que nos resultan útiles para
nuestra actividad pedagógica.
2) Suma de desviaciones cuadráticas SSD.
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 6 de 16
La suma de las desviaciones cuadráticas, por sus siglas en inglés SSD, se puede escribir
como:
(4)
Para un digito, se consideran valores aceptables los menores de 25, y que no se pueden
considerar adecuados los mayores de 100. Mientras que para los dos primeros dígitos el
umbral de valores aceptables es 10, pero serán inadecuados los mayores de 50.
Es insuficiente solo contar con las desviaciones del valor esperado para establecer un
criterio adecuado de concordancia entre observaciones y modelo teórico. Elevar al
cuadrado, igual que el valor absoluto, permite simplificar cálculos subsecuentes al solo
contar con cantidades positivas. Más aún, la operación de potencia amplifica el efecto de
las desviaciones más grandes, por lo serán más relevantes en el análisis general.
Finalmente, el SSD permite una relación popular con la varianza y la desviación estándar.
Algunos autores consideran este índice estadístico el mejor para realizar un análisis libre de
paradojas o errores por interpretación (Kossovsky, 2021).
3) La bondad de ajuste por 2. Entre los profesionales de la estadística es popular el uso
de 2 para establecer si los datos observados concuerdan con una distribución determinada,
como es la de Newcomb-Benford. La ecuación correspondiente a 2 es:
(5)
Este índice es más sofisticado que el MAD y SSD. Por ejemplo, se puede estandarizar su
interpretación, para lo cual se debe establecer un nivel de significancia, pero en este caso no
es específico, así que se utiliza el más común (5% de incertidumbre relativa). Los
grados de libertad (k-1) serán 8 para un digito y 98 para dos dígitos. De modo que el valor
crítico es 15.507 para un digito y 110.873 para dos dígitos.
4) Ajuste lineal por mínimos cuadrados. Muchas ramas de ciencias naturales utilizan el
ajuste lineal como parte de sus criterios para establecer si un conjunto de datos empíricos es
coherente con una predicción teórica. El emparejamiento estadístico entre un dato predicho,
como puede ser p, contra uno observado, como b, permite obtener por el método de
mínimos cuadrados el ajuste lineal que satisfaga la ecuación:
(6)
donde m es la pendiente de la recta y n es la ordenada al origen. El índice R2 representa la
proporción de la varianza de la recta entre la varianza del promedio. Es decir, compara si el
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 7 de 16
ajuste de datos es mejor a una ajuste por simple promedio. Otra forma de interpretarlo es si
el ajuste de la variable dependiente es explicable por la variable independiente (Triola,
2018). R2 está acotado entre 1 y 0, valores cercanos a 1 implican excelentes ajustes,
mientras que cercanos a cero denotan poca diferencia con el promedio de los datos y no son
considerados buenos ajustes. En campos como la física valores de R2 inferiores a 0.8 son
considerados como malos ajustes que invalidan los resultados de los otros dos valores m y
n. De modo similar se espera que el valor absoluto de m presente un valor cercano a 1; de
otra forma no se le puede considerar un buen ajuste. Mientras que n sea cercano a 0. El
análisis de ajustes lineales permite realizar otro tipos de pruebas, como la diferencia de los
residuos, pero para los objetivos de este trabajo, es suficiente el reporte de R2, m y n para
realizar la comparación con suficientes evidencias para decidir la coherencia entre los datos
observados y la ley de Newcomb-Benford.
METODOLOGÍA
Datos propuestos, estructura de la hoja de cálculo y utilización
Los datos propuestos para la actividad didáctica provienen de diferentes fuentes. A
continuación se describen sus características principales.
1) La sucesión de Fibonacci. Se trata de una serie infinita de números naturales, su primer
y segundo término son 1, los siguientes se calculan sumando los dos anteriores términos de
sucesión. De modo que su regla de recurrencia se puede escribir como:
(n>2)
(7)
Varios fenómenos de la naturaleza se relacionan con la sucesión. Tales como la modelación
de la reproducción sucesiva de conejos a partir de una pareja primigenia, la estructura
espiral de algunos moluscos y la disposición de las hojas y ramas de algunas plantas
(Vargas Contreras, 2004). Además es una sucesión muy utilizada para probar algoritmos en
teoría de juegos y otras aplicaciones computacionales. Para valores grandes de la sucesión,
su conjunto de datos presenta buena concordancia con la ley de Newcomb-Benford, por lo
que se utiliza mucho en trabajos académicos que tratan el tema (Perez, 2021). En nuestro
caso utilizamos 5000 datos, que son más que suficientes para mostrar nuestro punto de
interés.
2) Números aleatorios. La generación de números aleatorios es una herramienta de
cómputo muy popular entre profesionales de ciencias de datos y estadística. Incorporando
estratégicamente donde se produce un número aleatorio dentro de un cálculo o proceso es
posible resolver múltiples problemas. Tal perspectiva de trabajo es llamada método
Montecarlo (Holman & Hacherl, 2023). En nuestro caso, por medio de la hoja de cálculo
obtuvimos 5000 números aleatorios entre 1 y 1000 por lo que obtenemos una distribución
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 8 de 16
uniforme. Calcular números aleatorios superiores a 100 asegura que dispongamos con una
muestra amplia de números con más de dos dígitos. No se espera que la distribución
aleatoria concuerde con la ley de Newcomb-Benford por no provenir de un proceso de
conteo, entre otras razones.
3) Distribución Gaussiana. Calculamos 1000 datos mediante una función gaussiana
centrada en = 500 y con una variancia de = 100. Los valores los obtuvimos del 1 al
1000 mediante la ecuación:
(8)
La distribución gaussiana es ampliamente utilizada en aplicaciones estadísticas, aunque no
se espera que su distribución de dígitos concuerde con la ley de Benford al no provenir
tampoco de un proceso de conteo o adición de datos.
4) Constantes físicas fundamentales. El National Institute of Standards and Technology,
NIST, publica datos de mediciones diversas, entre las que se encuentran los valores de
constantes físicas fundamentales, uno de los archivos del NIST lo utilizamos para obtener
353 datos que se acondicionaron (NIST, 2022). Por ejemplo, de requerirse se borró el signo
negativo, el carácter de cero y el punto, de modo que se tenía solo los caracteres para el
estudio de concordancia con la ley de Newcomb-Benford.
5) Cifras generadas por ChaGTP 4.0. Desde noviembre del 2022, nuestra sociedad
experimenta una popularización en el uso de inteligencias artificiales tipo large language
model, por sus siglas en inglés LLM, accesibles por Internet. Mediante solicitudes en
lenguaje natural la máquina hace cálculos probabilísticos para responder de un modo que
también percibimos natural (Ozdemir, 2023). Si la solicitud lo requiere, las respuestas
pueden ser técnicas, de modo que estos softwares responden a cálculos, como puede ser:
“Sin considerar ninguna conversación previa, tengamos un juego de rol. Elabora un libro de
contabilidad de 1000 entradas donde se registren los ingresos y egresos de un negocio
pequeño. Construye un archivo con formato CSV donde la primera columna es la fecha, la
segunda columna las siglas del concepto, la tercera es la cantidad que recibió o se entregó.
La condición principal es que sean verosímiles, apegadas a la realidad, las cantidades de la
tercera columna.” Mediante tal promt el programa ChatGTP 4.0 generó los datos, de los
cuales la lista numérica se incorporó a la hoja de cálculo para el análisis de concordancia a
la ley de Newcomb-Bedford. Nuevamente, la obtención de los datos por este medio no
implica una operación de adición o sustracción, por lo cual no esperamos un resultado
positivo de la comparación entre los datos observados y los esperados (Azaria, 2022). Sin
embargo, es interesante observar la conformación de la lista.
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 9 de 16
Probamos otros programas de inteligencia artificial; tales como Microsoft Copilot, Gemini
de Google y Llama 3 de Meta. Ninguna de ellas generó el archivo descargable, sí
escribieron alrededor de cinco datos y luego respondieron que podíamos continuar a mano
con el proceso. Es excitante observar este tipo de limitaciones en estos softwares que en el
imaginario colectivo pueden responder satisfactoriamente estas y otras preguntas, pero en el
estado actual tecnológico, son insuficientes para contestar correctamente.
6) Conteo de población por municipio en México. Muchas agencias públicas, como el
Instituto Nacional de Estadística y Geografía INEGI, permiten el acceso a bases de datos
con el número de pobladores por regiones. Uno de esos archivos, cuenta con el censo
poblacional en municipios mexicanos (Gobierno de México, 2023). El que se espera que
presente una concordancia aceptable con la ley de Newcomb-Benford.
7) Conteo de defunciones por Covid-19 en México. En general, los datos
epidemiológicos que incluyen conteos de casos sospechosos, confirmados y defunciones
son también de interés público. Por un lado, permiten a las autoridades decidir mediante
evidencia las acciones para salvaguardar la salud de su comunidad, mientras que a la gente
le permite evaluar el actuar de sus representantes. Tal fue el caso de la pandemia mundial
de Covid-19. Por medio de Internet están disponibles datos regionales de muchos países,
incluyendo México. Uno de los rubros de mayor interés de auditoría es el relacionado con
el de defunciones por esta enfermedad cardiorrespiratoria (Gobierno de México, 2023). La
polémica alrededor de estos datos se centra en su interpretación e implicaciones. Es
adecuado incorporar este tipo de datos reales a las actividades de aprendizaje, pues
fomentan el pensamiento crítico alrededor de temas técnicos y como se presenta la
información (Perez, 2021).
Así, después de explicar los fundamentos teóricos, además de la naturaleza y fuente de los
datos a analizar, corresponde seleccionar la herramienta de análisis.
Hoja de cálculo
Hoy en día, realizar cálculos estadísticos en conjuntos grandes de datos es incómodo sin la
ayuda de un dispositivo electrónico como un ordenador personal, una tableta o incluso en
algunos modelos de smartphones. Por otro lado, la mayoría de la gente le resulta más
familiar la utilización de una hoja de cálculo que la programación estructurada, por ello es
una herramienta aprovechada con frecuencia en áreas como las finanzas, contabilidad y
también en el quehacer forense.
La estructura de celdas dispuestas en filas y columnas es características de las hojas de
cálculo, cada celda permite insertar texto, datos numéricos o funciones de operación para
realizar los cálculos basados en contenidos de otras celdas. Este formato de tabla lo hace
intuitivo al usuario.
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 10 de 16
Estos programas de cómputo permiten la gestión de grandes cantidades de datos y realizar
cálculos eficientemente. De tal modo, utilizar una hoja de cálculo es una buena
aproximación a un tema de estadística como es la concordancia de una lista de números y
una distribución teórica. Existen diferentes opciones en el mercado de hojas de cálculo,
entre las más conocidas se encuentra Microsoft Excel, Google Sheets, y LibreOffice Calc.
Microsoft Excel puede ser la opción más popular. Y entre estos productos existe suficiente
compatibilidad para exportar datos y funciones gráficas.
Es innecesario tener conocimientos profundos de estos programas para enfocar la atención
en los cálculos. Las interfaces de las hojas de cálculo, incluyendo el área de trabajo, pueden
ser intuitivas utilizando orden en los datos, colores y etiquetas, además de las funciones de
visibilidad que permiten comprender cómo se actualizan los cálculos en tiempo real. Las
limitaciones de las hojas de cálculo son notorias cuando la cantidad de los datos son
demasiado grandes para las capacidades de procesamiento de la computadora, pero a un
nivel didáctico los datos a trabajar pueden ser suficientes, como es nuestro caso.
PROPUESTA INTEGRAL.
Elaboramos una hoja de cálculo para guiar la actividad didáctica del tema. Consta de
siete pestañas, de izquierda a derecha, con las características siguientes:
1) Pestaña de datos de entrada. La primera columna, la A, es la referencia a los cálculos
del resto de pestañas. Se pueden copiar y pegar los datos a estudiar, o bien hacer la
referencia a las otras columnas para utilizar los datos, acción conocida como “fórmula
desbordada”. La columna B se utiliza como separador visual. Las siguientes columnas
cuentan con colores distintivos y encabezados que explican el tipo de datos contenidos:
la secuencia de Fibonacci, los datos aleatorios, la distribución gaussiana, la lista de
constantes de física, los datos de ChatGTP, la población por municipio en México y el
número de defunciones por Covid-19. Ver pantalla izquierda de la figura 1.
2) Pestaña de cálculos. En esta pestaña se exhiben las operaciones y sus resultados
utilizando colores indicativos y encabezados descriptivos. De izquierda a derecha, en la
primer columna se extrae el primer digito de la columna A de la primera pestaña, en la
siguiente columna se marcan los primeros nueve dígitos, en la columna contigua se
cuentan las coincidencias de primer digito, en la columna consecutiva se obtiene la
frecuencia, en la columna vecina se calcula la frecuencia teórica, en las sucesivas se
obtiene los índices estadísticos de MAD, SSD, 2 y el ajuste lineal, con sus
10 parámetros. Después de una columna de separación, se presentan los cálculos para el
segundo digito siguiendo el mismo orden que el anterior. Ver pantalla izquierda de la
figura 1.
3) Pestaña de resultados. En esta sección se muestra el resumen de los resultados más
significativos en una tabla que obtiene sus datos de la segunda pestaña. Los resultados
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 11 de 16
presentados son el MAD, SSD, 2 y después los de ajuste lineal: R2, m y b. Mediante
funciones de condición las celdas se marcan en color verde si los valores son
satisfactorios para conformidad entre los datos observados y los esperados, o bien, la
celda es roja si no es aceptable el resultado para afirmar la conformidad.
4) Pestaña de gráfica de primer digito. Se presentan las gráficas de las frecuencias en
función del primer digito (del 1 al 9) con los datos observados (puntos cerrados) y
esperados (anillos de rombos).
5) Pestaña de gráfica de los dos primeros dígitos (del 10 al 99), utilizando marcas claras
como en la gráfica del primer digito.
6) Gráfica de ajuste lineal de los datos del primer digito. Se grafican los puntos del
primer digito (del 1 al 9) con los datos observados y esperados a los que, mediante
mínimos cuadrados, se ajusta una línea recta, de la cual se presenta la ecuación y el
índice R2.
7) Gráfica del ajuste lineal de los datos del segundo digito. Se grafican los puntos de
los dos primeros dígitos (del 10 al 99) con los datos observados y esperados a los que,
mediante mínimos cuadrados, se ajusta una línea recta, de la cual se presenta la
ecuación y el índice R2.
Las características de esta hoja son adecuadas para presentar a estudiantes de diferente
perfil. La hoja es accesible mediante la dirección electrónica:
https://www.enacif.unam.mx/wp-content/uploads/2024/08/Benford_total.xlsx
Figura 1. Capturas de pantalla de las dos primeras pestañas del archivo Excel de la práctica
de Newcomb-Benford. Del lado izquierdo se presenta la pestaña de datos, del lado derecho
la pestaña de cálculos.
RESULTADOS
Con la finalidad de presentar La información más representativa de la actividad didáctica,
mostramos los resultados con los datos ChatGTP 4.0 y la distribución aleatoria. Invitamos
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 12 de 16
encarecidamente probar la hoja de cálculo y revisar los resultados de las otras listas
numéricas.
En la figura 2 se muestran dos gráficos que comparan la ley de Newcomb-Benford del
primer digito con los datos generados por ChatGTP 4.0 y datos aleatorios entre 1 y 1000.
Se observa que algunos dígitos de la lista de ChatGTP tienden a la distribución ideal, pero
los números aleatorios muestran su característica tendencia uniforme y distan de la de
Newcomb-Benford. En la figura 3. Se confirman estas observaciones con los gráficos de las
dos listas comparadas con la ley de Newcomb-Benford para dos dígitos para el mismo tipo
de datos: inteligencia artificial y al azar, respectivamente.
Figura 2. Gráficas comparativas de la distribución de datos observados y de la ley de
Newcomb-Benford para el primer digito. A) muestra la tendencia con datos obtenidos con
ChatGTP 4.0 y B) presenta la tendencia con datos de números aleatorios entre 1 y 1000.
Figura 3. Gráficas comparativas de la distribución de datos observados y de la ley de
Newcomb-Benford para los dos primeros dígitos. A) muestra la tendencia con datos
obtenidos con ChatGTP 4.0 y B) presenta la tendencia con datos de números aleatorios
entre 1 y 1000.
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 13 de 16
Las gráficas son útiles para observar la tendencia de los datos, pero numéricamente es
mejor utilizar un cuadro comparativo, como el presentado en la tabla 2. Los datos de
ChatGTP 4.0 solo obtuvieron concordancia para uno y dos dígitos según la prueba de 2.
Por su parte, los datos aleatorios solo lograron que concordancia para dos dígitos en la
prueba de 2. Tales resultados son los esperados.
Tabla 2. Resultados numéricos de comparar la distribución de ley de Benford con las
distribuciones de ChatGTP 4.0 y una de números aleatorios.
ChatGTP 4.0
Números aleatorios
RESULTADOS
1er
digito
primeros 2 dígitos
1er
digito
primeros 2 dígitos
MAD
3.6012
0.3941
6.1836
0.6272
SSD
268.3079
32.7650
587.5552
64.5038
2
14.7883
18.1248
42.8578
45.5051
AJUSTE
LINEAL
R2
0.5135
0.4410
0.4777
0.0350
m
0.4525
1.0982
-0.0390
-0.0340
b
6.0831
-0.1091
11.5446
1.1489
CONCLUSIONES
Se han presentado los fundamentos de la ley de Newcomb-Benford y, a través de la
descripción y publicación de un archivo en Excel, proponemos su utilización como material
didáctico para complementar temas de estadística y su aplicación en la investigación de
auditoría forense y materias afines. El archivo utiliza pestañas para ordenar las secciones de
datos de entrada, cálculos, resultados numéricos y visualización de gráficas.
En la sección de datos, se presentan siete conjuntos de datos significativos, incluyendo tres
de naturaleza puramente matemática (serie de Fibonacci, datos aleatorios y distribución
gaussiana), uno generado mediante la inteligencia artificial ChatGTP 4.0 y tres
recopilaciones (constantes de física, censo poblacional y defunciones por Covid-19 en
México). En la sección de cálculos, se operan el primer y los dos primeros dígitos de cada
cifra de los respectivos conjuntos de datos. Además, se muestran los cálculos estadísticos
para obtener los índices MAD, SSD, 2 y de ajuste lineal (R2, m y b). En la pestaña de
resultados, se ordenan los valores significativos de los índices estadísticos. Las siguientes
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 14 de 16
pestañas presentan gráficas que permiten visualizar los datos de entrada junto con el
modelo teórico, complementando el estudio.
La hoja de cálculo es versátil para utilizar otras series de datos, facilitando exposiciones
críticas, prácticas y ensayos que permitan a los estudiantes aprender el tema con fluidez. De
este modo, puede ser comprendido uno de los temas más importantes en nuestra sociedad
del conocimiento: la auditoría de datos numéricos. Este material es apto para diferentes
perfiles de estudiantes y profesionales, especialmente aquellos afines a la contaduría,
ciencia de datos y ciencias forenses.
Referencias
Azaria, A. (2022). ChatGPT usage and limitations.
Berger, A., & Hill, T. P. (2015). An introduction to Benford's law. Princeton University
Press.
Berger, A., & Hill, T. P. (2021). The mathematics of Benford’s law: a primer. Statistical
Methods & Applications, 30(3), 779-795.
Bhosale, S., & Di Troia. (2022). Twitter Bots’ Detection with Benford’s Law and Machine
Learning. Silicon Valley Cybersecurity Conference. SVCC 2022. 1683.
Communications in Computer and Information Science.
https://doi.org/https://doi.org/10.1007/978-3-031-24049-2_3
Campos, V. S., Cepeda, J. F., & Centeno, L. V. (2022). Excel como estrategia de enseñanza-
aprendizaje de los estados financieros en la especialidad de Contabilidad.
Horizontes Revista de Investigación en Ciencias de la Educación, 6(22), 291-296.
https://doi.org/https://doi.org/10.33996/revistahorizontes.v6i22.336
Capalbo, F., Galati, L., Lupi, C., & Smarra, M. (2023). Local elections and the quality of
financial statements in municipally owned entities: A Benford analysis. Chaos,
Solitons & Fractals, 173, 113752.
https://doi.org/https://doi.org/10.1016/j.chaos.2023.113752
Chavez, L. A., Peña, C. A., Gomez, S. Y., & Huayta-Franco, Y. (2021). Evaluación
formativa: un reto en la educación. Cuadernos de desarrollo aplicados a las TIC,
10(3), 41-63. https://doi.org/https://doi.org/10.17993/3ctic.2021.103.41-63
European Commission for Democracy through Law. (2018, 3 16-17). Report Identification
of Electoral Irregularities by Statistical Methods. (C. o. Europe, Ed.) Retrieved 6
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 15 de 16
16, 2024, from Venice Commission:
https://www.te.gob.mx/vota_elections/media/files/a7e0762080646f5.pdf
Gobierno de México. (2023, 6 25). Covid-19 México. Retrieved 7 16, 2024, from Zona de
Descargas, Archivos en CSV: https://datos.covid-19.conacyt.mx/#DownZCSV
Holman, J. O., & Hacherl, A. (2023). Teaching Monte Carlo Simulation with Python.
Journal of Statistics and Data Science Education, 21(1), 33-44.
Jiménez-Sánchez, O. (2020). Propuesta metodológica para utilizar la ley de Benford en la
investigación forense en resultados electorales. Tesis que para obtener el título de
Licenciado en Actuaría, UNAM.
Kossovsky, A. E. (2021). On the mistaken use of the chi-square test in Benford’s law. Stats,
4(2), 419-453.
Mebane, W. (2024, 6 16). Sitio personal de W Mebane. Inappropriate applications of
Benford’s law regularities to some data from the 2020 Presidential election in the
United States: https://www.icasinc.org/2020/2020l/2020lwm2.pdf
Nigrini, M. J. (2012). Benford's Law: Applications for forensic accounting, auditing, and
fraud detection. John Wiley & Sons. https://doi.org/978-1-118-15285-0
NIST. (2022). Fundamental Physical Constants --- Complete Listing. Retrieved 7 16, 2024,
from 2022 CODATA adjustment:
https://physics.nist.gov/cuu/Constants/Table/allascii.txt
Ozdemir, S. (2023). Quick start guide to large language models: strategies and best
practices for using ChatGPT and other LLMs. Addison-Wesley Professional.
https://doi.org/978-0-13-819919-7
Perez, J. C. (2021). The BFP (Benford-Fibonacci-Perez) method validates the consistency
of COVID-19 epidemiological data in France and Italy.
Red Mexicana de Repositorios Institucionlaes . (2024, 6 16). Remeri.
https://www.remeri.org.mx/
Triola, M. F. (2018). Estádistica (12 ed.). Pearson.
UNAM. (2013). Plan de estudios de la Licenciatura en Ciencia Forense. Retrieved 6 16,
2024, from http://www.cienciaforense.facmed.unam.mx/wp-
content/uploads/2015/03/Segundo_Sem_Plan_LCF_UNAM.pdf
Preprint del Manuscrito: "Hoja de cálculo de la ley de Newcomb-Benford con datos científicos, ChatGPT, censo y
COVID-19 en México" Páginas: 370-385 Incluido en el libro: Argumentos y usos tecnopedagógicos de la
inteligencia artificial SOMECE, 2024
ISBN: 978-607-59406-3-2
Página 16 de 16
UNAM. (2013). Plan de estudios de la Licenciatura en Ciencia Forense. Retrieved 6 16,
2024, from http://www.cienciaforense.facmed.unam.mx/wp-
content/uploads/2015/03/Quinto_Sem_Plan_LCF_UNAM.pdf
UNAM. (2024, 6 16). Licenciatura en Contaduría Plan 2023:
http://licenciaturas.fca.unam.mx/plan_contaduria_2023.php
UNAM. (2024, 6 16). Licenciatura en Contaduría Plan 2012 (actualizado 2016). Plan de
estudios de la Licenciatura en Contaduría:
http://licenciaturas.fca.unam.mx/docs/contaduria/plan_2012-
2016/profesionalizantes/opp_audi_taller_audi_forense.pdf
Vargas Contreras, M. (2004). Aplicaciones de la Sucesión de Fibonacci y la razón Áurea.
Rev. Inst. Mat Fís., 7(11), 24-36. https://matesup.cl/portal/revista/2004/3.pdf