PosterPDF Available

ChatGPT als KI-Assistent in der Forschung zu sexuellem Kindesmissbrauch: Wie hoch ist die Übereinstimmung zwischen Mensch und Künstlicher Intelligenz?

Authors:

Abstract

ChatGPT as an AI assistant in research on sexual child abuse: How high is the agreement between human and artificial intelligence? In child protection, the processing of reports on sexual abuse of children can lead to secondary trauma among researchers (Williamson et al., 2020). As a solution, the research report utilizes ChatGPT, an artificial intelligence (AI) tool, for data preparation (van Manen, 2023). Selected variables are coded by both human raters and ChatGPT (OpenAI, 2023). The inter-rater reliability between the two was investigated. Statistical analysis, following Gwet (2008), shows significant agreement ranging from low to very high. Consequently, ChatGPT often produces results comparable to those of human raters and is thus frequently reliable. Precise input prompts mostly led to the correct extraction of information and coding for statistical analysis through the AI tool (van Manen, 2023). The use of ChatGPT allows for the processing of sensitive data. Ethical and methodological limitations of AI tools such as ChatGPT are considered, to derive implications for their use in child protection in medicine. Further research into AI tools is necessary to utilize results for network analytic studies (Naranjos Velazquez, forthcoming). Overall, the research report highlights that ChatGPT represents a method to address challenges in data preparation of reports on sexual abuse of children.
Berlin, 03./04.05.2024
Prof. Dr. phil.
Noreen Naranjos Velazquez
IU Internationale Hochschule GmbH
Fachbereich Soziale Arbeit
Lübecker Str. 32
18057 Rostock
www.iu.de
E-Mail: noreen.naranjos-velazquez@iu.org
CHATGPT ALS KI-ASSISTENT IN DER
FORSCHUNG ZU SEXUELLEM
KINDESMISSBRAUCH
Literatur
Gwet, K. L. (2008). Computing inter-rater reliability and its variance in the presence of high agreement. The British journal of mathematical and statistical psychology, 61(1), 2948.
Naranjos Velazquez, N. (in Druck). ChatGPT als KI-Assistent in der Aufbereitung von emotional belastenden Inhalten: Ein Forschungsbericht.
OpenAI (2023). OpenAI Playground. https://playground.openai.com/
UKASK (2024). Geschichten, die zählen. https://www.geschichten-die-zaehlen.de/
van Manen, M. (2023). What Does ChatGPT Mean for Qualitative Health Research? Qualitative health research, 33(13), 11351139.
Williamson, E., Gregory, A., Abrahams, H., Aghtaie, N., Walker, S.-J. & Hester, M. (2020). Secondary Trauma: Emotional Safety in Sensitive Research. Journal of academic ethics, 18(1), 5570.
Wie hoch ist Übereinstimmung zwischen Mensch und Künstlicher Intelligenz?
Einsatz von KI-Tools wie ChatGPT für systematische Verarbeitung von Fallberichten sexuellen
Missbrauchs unterstützt Fachkräfte und Forschende im Kinderschutz.
Zur Umsetzung der vorgeschlagenen Analyse wird der IU-interne Playground-Zugang von
OpenAI (2023) benötigt. Die Analyse mit dem freizugänglichen Tool ist nicht möglich.
Verbesserung der Identifikation von Mustern und Risikofaktoren durch KI-Analyse, was
angesichts verzögerter Offenlegung von Missbrauchsfällen bedeutsam ist.
Im Kinderschutz kann die Verarbeitung von Berichten über sexuellen Kindesmissbrauch zu sekundärem Trauma bei Forschenden führen (Williamson et al., 2020). Als Lösung wird im Forschungsbericht
ChatGPT - ein KI-Tool (Künstliche Intelligenz) - zur Datenaufbereitung genutzt (OpenAI, 2023; van Manen, 2023). Ausgewählte Variablen wurden von menschlichem Rater und ChatGPT codiert. Inter-Rater-
Reliabilität, das heißt die Übereinstimmungsrate zwischen beiden wurde nach Gwet (2008) berechnet.
KI-Tool ChatGPT 4.0 unterstützt bei der Verarbeitung belastender Inhalte. Dies dient dem
Schutz Forschender vor potenziellen Sekundärtraumata (Williamson et al., 2020).
Bedarf an weiterer Forschung und Feinabstimmung von KI-Modellen zur verbesserten Analyse
sensibler Daten im Kontext sexuellen Kindesmissbrauchs.
Datenschutzkonformität und ethische Standards sind zu gewährleisten durch Nutzung
anonymisierter Berichte (USASK, 2024) und Einhaltung der Richtlinien in der KI-Analyse
(OpenAI, 2023).
Berichte von Opfern
sexuellen Kindesmissbrauchs (N=49)
(UKASK, 2024)
Extraktion von Variablen
(Naranjos Velazquez, in Druck)
statistische Analyse der
Übereinstimmung mit SPSS
(Gwet, 2008)
Täter/-in
aktive Person
sonstiger Gewaltkontext
(physische Gewalt, psychische Gewalt)
Alter während Missbrauch
schweigende Person
(inaktive Mitwissende)
Diskussion
Methodik
Stichprobengröße: N=49
Berechnung: Inter-Rater-Reliabilität zwischen menschlichem Rater und ChatGPT 4.0
Übereinstimmungsraten berechnet mit Cohens Kappa-Wert (Gwet, 2008)
Täter: sehr gut = 0.88,p< .001,SE = .05)
aktive Person: mäßig = 0.53,p< .001,SE = .16)
sonstiger Gewaltkontext: mäßig = 0.44,p= .002,SE = .14)
Alter während Missbrauch: ausreichend (κ= 0.29,p= .010,SE = .16)
schweigende Person: ausreichend = 0.26,p= .006,SE = .10)
Anmerkungen:
κ: Cohens Kappa-Wert (α= .05), SE: Standardfehler
Übereinstimmungsrate
Abb.1:Beispiel für Prompting Few-Shot-Learning (OpenAI, 2023)Abb.2:Von ChatGPT 4.0 generierte Antworten zum Bericht von Nadine (UKASK, 2024)
Beispiel: Playground - ChatGPT 4.0
Kontaktinformation
PDF
Ergebnisse
Implikationen
schlecht
ausreichend
mäßig
gut
sehr gut
ausgezeichnet
κ
< 0.20
0.21 ≤
κ ≤ 0.40
0.41 ≤
κ ≤ 0.60
0.61 ≤
κ ≤ 0.80
0.81 ≤
κ ≤ 0.99
κ
= 1.00
... This approach not only aids in statistical analysis but also reduces the emotional burden on researchers (van Manen, 2023). The inter-coder reliability of this method has been evaluated and largely confirmed in various forms (Naranjos Velazquez, 2024; in press). In a comparative study, the results of AI models ChatGPT 3.5, ChatGPT 4 and ChatGPT 4o were analysed. ...
... All reports were anonymized to protect the identities of the survivors, and their publication was approved with explicit consent. These self-reports provide a valuable qualitative dataset for analyzing relational dynamics and contextual variables in CSA narratives (Naranjos Velazquez, 2024;2023 b ). ...
... Particularly in few-shot learning, there is a risk that the examples may not capture the full variability of the dataset, leading to systematic over-or underestimation of certain variables (OpenAI, 2023;van Manen, 2023). Moreover, discrepancies observed between models (e.g., GPT 3.5, GPT 4, and GPT 4.o) highlight inconsistencies in AI-assisted analyses, even within the same technological framework (Naranjos Velazquez, 2024). Additionally, the dataset, composed of 113 self-reports available on the UKASK platform (UKASK, 2024), while valuable, poses limitations in generalizability due to its reliance on survivor narratives and the specific context in which they were collected. ...
Conference Paper
Full-text available
In the context of research on childhood sexual abuse (CSA), researchers face significant challenges due to the emotionally distressing nature of sensitive data (Williamson et al., 2020). The use of ChatGPT (OpenAI, 2023) offers valuable support in this area. This artificial intelligence (AI) tool facilitates efficient data processing while maintaining emotional distance by converting qualitative content into quantifiable formats. This approach not only aids in statistical analysis but also reduces the emotional burden on researchers (van Manen, 2023). The inter-coder reliability of this method has been evaluated and largely confirmed in various forms (Naranjos Velazquez, 2024; in press). In a comparative study, the results of AI models ChatGPT 3.5, ChatGPT 4 and ChatGPT 4o were analysed. Increased consistency was observed beginning with the ChatGPT 4 model, further highlighting the reliability of ChatGPT in processing sensitive information. This presentation explores the ethical and practical implications of AI use in research and discusses the limitations of this AI tool (Naranjos Velazquez, 2023 a ; in press).
ResearchGate has not been able to resolve any references for this publication.