Content uploaded by Anna Baczkowska
Author content
All content in this area was uploaded by Anna Baczkowska on Jul 19, 2023
Content may be subject to copyright.
https://doi.org/10.36575/2353-2912/2(8)2020.07 Forum Filologiczne Ateneum 2(8)2020
pp. 7-35
7
Leksykalna analiza zrozumiałości tekstów
medycznych na podstawie opisów
badań obrazowych i wypisów ze szpitala
Lexical analysis of readability of medical texts:
the case of image reports and hospital discharge summaries
Anna BĄCZKOWSKA1
Uniwersytet Gdański
Ewa KOŚCIAŁKOWSKA-OKOŃSKA2
Uniwersytet Mikołaja Kopernika w Toruniu
Streszczenie
Artykuł przedstawia analizę cech leksykalnych dwóch typów tekstów medycznych: wypisów
ze szpitali i opisów badań obrazowych. Celem analizy jest ocena stopnia zrozumiałości
(tj. czytelności) ww. tekstów medycznych oraz jej znaczenia w procesie przekładu.
Z przeprowadzonego badania pilotażowego wynika, że wypisy ze szpitala, wbrew założeniom,
okazały się być nieznacznie trudniejsze w odbiorze dla przeciętnego czytelnika (pacjenta) niż
opisy badań obrazowych. W analizie zauważono też pewne problemy metodologiczne, które
powinny być uwzględnione w korpusowych badaniach czytelności, zwłaszcza w przypadku
dyskursu medycznego.
Słowa kluczowe: czytelność, korpus, dyskurs medyczny, wypisy ze szpitala, opisy badań
obrazowych, przekład tekstów medycznych
1 https://orcid.org/0000-0002-0147-2718
Uniwersytet Gdański
anna.k.baczkowska@gmail.com
2 https://orcid.org/0000-0001-5232-1373
Uniwersytet Mikołaja Kopernika w Toruniu
ewako@umk.pl
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
8
Abstract
This article presents a lexical analysis of two types of medical texts written in Polish: hospital
discharge summaries and image reports. The aim of the analysis is to assess the readability
of the medical texts under investigation and its importance in the process of translation. It was
assumed that the language of discharge summaries should be relatively comprehensible for
a layman (patient), so that he or she could understand the description of the diagnosis and follow
the instructions provided by doctors regarding post-hospital measures (such as adherence to
medication regime and recommended further medical examinations). Image reports are written
by experts for experts, so it can be expected that the language used in image reports is highly
specialized and barely comprehensible for a patient. The pilot study has demonstrated that
the discharge summaries, contrary to our assumptions, turned out to be slightly less readable for
an average reader (patient) than the image reports.
Keywords: readability, corpus, medical discourse, hospital discharge summaries, image reports,
translation of medical texts
Wstęp
Podstawowym celem języka tekstów medycznych jest komunikacja; przebiega
ona zarówno na płaszczyźnie profesjonalnej (np. na podstawie opisów badań
obrazowych, gdzie mamy do czynienia z komunikacją lekarz–lekarz / ekspert–
ekspert / specjalista–specjalista), oraz na płaszczyźnie, którą możemy nazwać
codzienną (np. wypisy ze szpitala, obrazujące komunikację między lekarzem
a pacjentem). Ponieważ teksty siłą rzeczy są zróżnicowane ze względu na ich
odbiorców (specjalista vs. niespecjalista), dla tłumacza zajmującego się ich
przekładem istotne jest znalezienie efektywnego sposobu komunikacji
z odbiorcami przy uwzględnieniu ich oczekiwań, potrzeb, wymagań, ale także
szeroko pojętych kompetencji. Przed tłumaczem stoi zatem nie tylko mierzenie
się z trudnościami związanymi z tekstem per se (np. terminologią, wiedzą
specjalistyczną etc.), ale także z komunikacyjną skutecznością takiego
przekładu, czyli właściwym zrozumieniem tekstu przez odbiorcę. Aby odbiorca
tekst zrozumiał, musi on być czytelny, czyli w podstawowym rozumieniu tego
pojęcia napisany w sposób jasny i zrozumiały. W tym miejscu można
powtórzyć za Pieńkosem (2003, s. 275), że czytelność jest jedną
z najistotniejszych zalet przekładu tekstów naukowych lub technicznych
(a takimi tekstami są bez wątpienia teksty medyczne).
Kwestia czytelności została – w kontekście przekładu tekstów
medycznych – dosyć szeroko opracowana przez ustawodawcę w odniesieniu na
przykład do ulotek lekowych, ponieważ efektywność przekazu treści zależy tu
od zdolności czytania i rozumienia tekstów pisanych jej odbiorców. Z tej
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
9
przyczyny ulotka, przed zatwierdzeniem przez Urząd Rejestracji Produktów
Leczniczych, Wyrobów Medycznych i Produktów Biobójczych, musi przejść
tzw. badanie czytelności, zgodnie z rozporządzeniem Ministra Zdrowia z dnia
26 kwietnia 2010 r. w sprawie badania czytelności ulotki (zob. Kościałkowska-
Okońska, 2017). To jedyny w zasadzie rodzaj tekstów medycznych, w którym
potrzeba czytelności została ustawowo podkreślona i wyeksplikowana.
Niewątpliwie warto byłoby również podjąć próbę pewnej ramifikacji tekstów
medycznych w kontekście ich czytelności w ogóle, w tym będących celem
analizy w niniejszym artykule wypisów szpitalnych oraz wyników badań
obrazowych.
Spojrzenie na czytelność nie tylko z perspektywy językoznawczej, ale
również przekładoznawczej może stanowić interesujący przyczynek do
stworzenia nowej przestrzeni badawczej. Należy zaznaczyć, że same badania
nad czytelnością w przekładzie są relatywnie niezbyt częste, ale można
rozpatrywać je dwojako: z jednej strony mają na celu poprawienie tłumaczenia
poprzez zastosowanie wskaźnika i kryteriów czytelności, z drugiej zaś służą
porównaniu tekstu źródłowego z tekstem docelowym. Związek pomiędzy
problemami w przekładzie a czytelnością omawiają na przykład Wang, Miller,
Schmidt i Wen (2012), którzy twierdzą, że może ona być wskazówką dla
tłumaczy przy dokonywaniu wyboru strategii tłumaczeniowych czy stylu
tekstu.
W kontekście przekładu można rzecz jasna zastanowić się, jakie
znaczenie ma czytelność dla ekwiwalencji tłumaczeniowej; w klasycznym
ujęciu Toury’ego (1995) adekwatność i akceptowalność przekładu są kluczowe.
Warto natomiast zauważyć, że czytelność w kontekście przekładu tekstów
medycznych ma znaczenie priorytetowe: tekst ekwiwalentny, co rozumiemy
jako tekst adekwatnie przekazujący treść i funkcję tekstu źródłowego, jest
tekstem akceptowalnym dla odbiorcy docelowego, ale przede wszystkim musi
on być czytelny. A zatem czytelność stanowi warunek sine qua non
adekwatności i akceptowalności tłumaczenia, a tym samym realizuje cel
komunikacyjny, jakim jest przekazanie treści odbiorcy.
1. Czytelność a spójność tekstu
Poziom trudności tekstu bywa określany w wieloraki sposób. Jedna
z prostszych i popularniejszych definicji czytelności tekstu (ang. readability)
określa ją jako cechy tekstu pozwalające na jego bezwysiłkowe czytanie
i rozumienie (Nielsen-Bohlman, Panzer, Kinding 2004, Bailin, Grafstein 2016:
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
10
177). Zwykle określa się dolny pułap poziomu edukacji potencjalnego
czytelnika, dla którego dany tekst ma być zrozumiały w sposób bezwysiłkowy.
W Polsce nie określono takiego poziomu granicznego, w przeciwieństwie na
przykład do USA, gdzie za minimalny etap wykształcenia przyjęto szóstą klasę
szkoły podstawowej (USDDH 2010).
Definiując czytelność, należy odróżnić angielskie słowo legibility od
readability. Oba terminy mogą być przetłumaczone na język polski jako
czytelność, jednak legibility dotyczy technicznych aspektów tekstu
(typograficznych) pozwalających na jego prawidłowe odczytanie, np. wielkości,
koloru i typu czcionki, układu tekstu na stronie, możliwości odczytania pisma
odręcznego itp., natomiast readability odwołuje się do parametrów
lingwistycznych i jego znaczenia i/lub stopnia zrozumienia tekstu przez
czytelnika (zob. Wolfer 2015: 34-37).
Oprócz terminu czytelność (Pisarek 2007) można się też spotkać
z wieloma innymi, np. zrozumiałość tekstu (comprehensibility, Garner, Ning,
Francis, 2012, Pisarek 2007, Gruszczyński, Ogrodniczuk 2015, Zarzeczny,
Piekot 2017: 10), niezrozumiałość (Gruszczyński, Ogrodniczuk 2015), trudność
(Broda i in. 2010, Gruszczyński, Ogrodniczuk 2015), łatwość (easibility
McNamara i in. 2014), przystępność i prostota języka (Zarzeczny, Piekot 2017),
a także klarowność, jasność czy dostępność (Charzyńska i in. 2015).
W niniejszym artykule określenia te będą używane wymiennie.
Wyżej wymienione pojęcia nie są jednak równoważne. Dla przykładu
łatwość rozumiana jest szeroko i dotyczy parametrów tekstu wynikających
zwłaszcza z analizy warstwy leksykalnej, syntaktycznej i stylistycznej
(McNamara i in. 2014: 84). Podobnie czytelność definiują Allan Bailin i Ann
Grafstein (2016: 2), dla których jest to pojęcie odwołujące się do składni,
semantyki, morfologii i cech dyskursu. Mark Garner, Zhenye Ning i Jill Francis
(2012) natomiast oddzielają pojęcie czytelności, które przypisują cechom tekstu,
od pojęcia zrozumiałości, które ma ściśły związek ze zdolnościami
poznawczymi czytelnika umożliwiającymi mu rozumienie tekstu. Dla
psychologa George’a Klare’go (1963, rozdz. I) czytelność związana jest przede
wszystkim z czytelnikiem (np. umiejętnością i szybkością czytania, zdolnością
zapamiętywania itp.), a nie z parametrami tekstu. Ocena klarowności tekstu
przez czytelnika jest u niego kluczowym elementem definicji czytelności,
bowiem według tego badacza bez istnienia czytelnika, dla którego tekst jest
możliwy do zrozumienia, nie można w ogóle mówić o jego czytelności, nawet
jeśli testy szacujące przystępność języka na podstawie formuł czytelności
określają dany tekst jako zrozumiały. Innymi słowy, według Klare’go
warunkiem koniecznym oceny czytelności tekstu jest istnienie jego czytelnika.
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
11
Podobne psycholingwistyczne aspekty czytelności porusza Sascha Wolfer
(2015), który termin comprehensibility (zrozumiałość) kontrastuje z terminem
comprehension (zrozumienie). Proces rozumienia tekstu przez czytelnika
dzięki konstruowaniu przez niego reprezentacji mentalnych to dla Wolfera
comprehension, natomiast stopień łatwości zrozumienia tekstu to
comprehensibility (Wolfer 2015: 34). Danielle McNamara i in. (2014) używają
zbliżonej terminologii, bowiem przez text comprehension easability rozumieją
stopień zrozumiałości tekstu przez potencjalnego czytelnika, natomiast aspekty
związane z cechami tekstu nazywają text complexity (złożonością tekstu) albo
cohesion (spójnością).
Już na podstawie tych kilku przytoczonych powyżej definicji widać
wyraźnie, że dyskusja dotycząca pojęcia czytelności toczy się pomiędzy dwoma
biegunami: albo jest zorientowana na tekst i jego parametry leksykalno-
syntaktyczno-stylistyczne, albo na czytelnika i jego zdolności poznawcze.
Ta dychotomia pojęciowa nie zawsze jest jednak binarna i wykluczająca się;
te dwie orientacje częściej postrzegane są jako aspekty przenikające się
i dopełniające. Badania pokazują, że istnieje znacząca korelacja między
wynikami testów na ocenę złożoności tekstu i tych dotyczących procesów jego
rozumienia (McNamara i in. 2014: 13), tj. teksty, które są łatwe do zrozumienia,
zawierają na przykład dużą liczbę słów o wysokiej frekwencji i stosunkowo
krótkie zdania.
Według niektórych autorów anglojęzycznych (McNamara i in. 2014:
18-39, Bailin, Grafstein 2016: 177), czytelność zdeterminowana jest w dużej
mierze przez spójność tekstu. Generalnie rzecz biorąc, spójność
w językoznawstwie rozumiana jest dwojako, albo jako cecha „globalna” tekstu,
co w języku angielskim określa się coherence (koherencja), albo jako jego cecha
„lokalna”, znana w literaturze anglojęzycznej jako cohesion (kohezja).
Koherencja tworzy spójność logiczną całego tekstu, zależy od kontekstu3
i interpretacji czytelnika, kohezja natomiast polega na połączeniu
poszczególnych fragmentów tekstu w spójną całość (Bublitz 2011). Na przykład
można łączyć wyrazy w zdania za pomocą wykładników relacji syntaktycznych
(konektorów4 dlatego, o ile itp.), zdania czy paragrafy za pomocą operatorów
3 Przez kontekst rozumiemy tutaj konkretnie konsytuację i kotekst (więcej o różnicy pomiędzy
kontekstem, konsytuacją i kotekstem zob. Boniecka 1994).
4Konektory to termin używany przez Jerzego Bartmińskiego i Stanisławę Niebrzegowską-
Bartmińską (2009) dla określenia wyrazów typu dlatego, o ile itp. Dla Stanisława Gajdy (1982:
135) z kolei są to przykłady konektywów, a konkretnie spójników pierwotnych i wtórnych oraz
tranzycji (np. z kolei, z drugiej strony itp.), bowiem pojęcie konektorów u Gajdy zarezerwowane
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
12
wewnątrztekstowych (jak międzyzdaniowe lub międzyakapitowe wykładniki
segmentacji, sygnałów porządku logicznego, następstwa itp. typu jak wynika
z powyższego, w związku z tym, z tego powodu, podsumowując, przejdę teraz
do, przy okazji, jeśli chodzi o), a także poprzez użycie anafory5. Pojęcie
koherencji wydaje się zatem bliskie pojęciu czytelności zorientowanej na
czytelnika, natomiast termin kohezja jest pochodną czytelności zorientowanej
na tekst.
Na marginesie warto wspomnieć, gwoli uściślenia definicji, że
w językoznawstwie polonistycznym używa się też określeń spójność linearna
(dla określenia angielskiego terminu cohesion) i spójność semantyczna (dla
określenia angielskiego terminu coherence) (Dobrzyńska 2009: 20). Znane są
też określenia spoistość czy spójność powierzchniowa, tj. angielskie cohesion,
oraz spójność pojęciowa, tj. angielskie coherence (Bartmiński, Niebrzegowska-
Bartmińska 2009). Autorzy Jasnopisu z kolei używają terminów spójność
tematyczna lub treściowa dla określenia koherencji i spójność formalna lub
znaczeniowa w wypadku kohezji (Gruszczyński, Hadryan 2015: 43).
Wróćmy do pojęcia spójności. Otóż możliwa jest sytuacja, w której tekst
jest koherentny, tj. zawiera wiele fraz łączących i odwołań do wcześniej
użytych wyrazów (jest zatem spójny linearnie), jednak jako całość nie jest
spójny (semantycznie); jak również sytuacja odwrotna, w której brak łączników
zdań (np. w takim razie, jak wynika itp.) oraz odniesień anaforycznych, jednak
mimo to tekst (również krótki, np. sekwencja dwóch zdań) wydaje się spójny,
tj. logicznie powiązany (van Dijk 2008: 45–49). Na pojęcie spójności trzeba
zatem spojrzeć całościowo, uwzględniwszy zarówno kohezję, jak i koherencję.
Kohezja jednak, choć nie jest elementem niezbędnym, jest zwykle warunkiem
koherencji (Bublitz 2011: 42). Kohezja lub koherencja między poszczególnymi
zdaniami to bardzo ważne czynniki sprzyjające czytelności (por. np. Halliday,
Hasan 1976, McNamara i in. 1996).
McNamara i in. (2014: 1-2, 11, 56) definiują w swoich badaniach pojęcia
kohezji i koherencji w następujący sposób. Przez kohezję rozumieją cechy tekstu
świadczące o jego spójności na poziomie konceptualnym, a więc elementy
wiążące i wyjaśniające zdarzenia, osoby, cele itd. Koherencja zaś miałaby być
konsekwencjami kohezji, które powstają w umyśle czytelnika, tj. spójnością
reprezentacji mentalnych, które czytelnik może skonstruować (liczbą skojarzeń
są dla zaimków względnych (np. który), które są podgrupą konektywów. W języku angielskim
używa się najczęściej określenia discourse markers.
5 Więcej na temat spójności wewnątrztekstowej zob. Bartmiński, Niebrzegowska-Barmińska
2012: 282-292.
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
13
i połączeń między reprezentacjami). Spójność w projekcie McNamary i in. (2014)
utożsamiana jest przede wszystkim z kohezją, jednak pojęcie to, bardzo
rozbudowane i analizowane na pięciu poziomach dotyczących użycia leksyki,
składni, relacji wewnątrztekstowych, modelu sytuacyjnego oraz struktury
retorycznej i gatunku, nie jest ściśle oddzielone od koherencji. Spójność badana
jest na przykład poprzez analizę okurencji różnych części mowy czy różnych
typów czasowników (kauzatywnych i wyrażających intencję), liczbę wyrazów
w prepozycji do frazy nominalnej, gęstość leksykalną i wystąpienia negacji,
podobieństwa semantyczne między słowami, zdaniami i paragrafami (i inne dane
psycholingwistyczne) itp. (McNamara i in. 2014). Pojęcie spójności, które
utożsamiane jest z czytelnością, jest szerokie, a dychotomia kohezja–koherencja
opisywana przez wyżej wymienionych autorów wydaje się być pozorna, bowiem
jej elementy są ściśle ze sobą związane. Nawiązując do wcześniejszych
rozstrzygnięć definicyjnych, kohezja zespolona jest ze złożonością tekstu
(McNamara i in. 2014) czy jego zrozumiałością (comprehensibility, Wolfer 2015),
natomiast koherencja jest bliższa koncepcji zrozumienia (comprehension, Wolfer
2015).
Jedni z nielicznych badaczy czytelności w języku polskim, współautorzy
książki Jasnopis i aplikacji o takiej nazwie, na której opiera się część badań
przedstawionych w dalszej części artykułu, spójność uważają za cechę
przecenianą i w związku z tym deklarują, że nie uwzględnia jej Jasnopis
(Gruszczyński, Hadryan 2015: 44). Utożsamiają oni jednak pojęcie spójności
z użyciem spójników i zaimków anaforycznych (Gruszczyński, Hadryan 2015:
44), czyli zasadniczo z niektórymi przejawami kohezji. Michael Halliday
i Ruqaiya Hasan (1976) w książce pt. Cohesion in English analizują jednak aż
pięć typów kohezji (które nazywają ties): referencję, substytucję, spójnik, elipsę
i kohezję leksykalną. Jak wynika z powyższej dyskusji, spójności nie definiuje
się w literaturze anglojęzycznej jedynie jako używania spójników i anafory, ale
odsyła ona do całej gamy innych sposobów tworzenia w tekście kohezji oraz
spójności logicznej (zob. np. Halliday, Hasan 1976, McNamara i in. 2014, Bailin,
Grafstein 2016). Spójność rozumiana jest zatem przez twórców Jasnopisu
w wąskim sensie, w znaczeniu odnoszącym się do niektórych typów kohezji,
natomiast przez np. Hallidaya i Hasana (1976) czy McNamarę i in. (2014) – jako
znacznie szersze pojęcie. Niniejsze badanie ograniczone jest narzędziami
dostępnymi w aplikacji Jasnopis, zatem pewne elementy mierzące spójność
z konieczności nie zostaną uwzględnione.
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
14
2. Badania nad czytelnością tekstów medycznych
Badania nad czytelnością tekstów medycznych nie są zagadnieniem zupełnie
nowym. Autorzy wielu artykułów naukowych podejmują się analizy
zrozumiałości różnego rodzaju tekstów medycznych, por. np. Perbinder
Grewal, Swethan Alagaratnam 2013, Grace Huang i in. 2015, Thomas Dobbs i in.
2017. Są to jednak opracowania głównie badaczy anglojęzycznych, w Polsce
natomiast tematyka ta jest nowa i podejmowana przez nielicznych badaczy, por.
np. Mamet 2002, Bączkowska 2019, Bączkowska 2020a, Bączkowska 2020b.
Ponadto badania anglojęzyczne prowadzone są zasadniczo nie przez
językoznawców, lecz lekarzy o różnych specjalnościach.
W opracowaniach tych (np. Osborne 2004) często wymieniane są takie
testy czytelności jak Simplified Measure of Gobbledygook (SMOG), the Fry
Readability Scale (FRY) czy też Flesch-Kincaid Grade Level (FKGL). Część
z nich powstała przynajmniej kilka dekad temu i ocenia stopień złożoności
tekstu głównie na podstawie długości zdań i słów, tymczasem bliższe nam
czasowo badania (np. Kandula, Zeng-Treitler 2008) zwracają uwagę na
ograniczenia tych testów.
Ograniczenia te wynikają z faktu, że zdecydowana większość publikacji
anglojęzycznych dotyczących czytelności języka medycznego (autorstwa
specjalistów z medycyny) to opracowania oparte na tzw. klasycznych testach na
czytelność, które doczekały się już wielu głosów krytycznych (por. np.
Davidson, Kantor 1982, Clerehan, Buchbinder, Moodie 2005, Garner, Ning,
Francis 2012, McNamara i in. 2014, Gruszczyński, Ogrodniczuk 2015, Bailin,
Grafstein 2016, Bączkowska 2019, Bączkowska 2020a). Problem z tymi testami
polega na tym, że zrozumiałości tekstu nie można mierzyć jedynie w sposób
mechaniczny, przez szacowanie liczby sylab czy liter w wyrazie oraz liczby
wyrazów w zdaniu, bowiem niektóre wyrazy krótkie są trudne do zrozumienia
(np. apnoea, krwistek), a inne są łatwe, mimo iż są wielosylabowe (np.
informacja, krótkowzroczność). Z tego względu rosnące grono autorów (głównie
językoznawców i psychologów) mierzy czytelność nie tylko za pomocą testów
klasycznych (lub nawet w ogóle bez ich uwzględnienia), ale też stosując indeksy
leksykalne, gramatyczne i stylistyczne tekstów (m.in. Gruszczyński,
Ogrodniczuk 2015, Bailin, Grafstein 2016, Crossley, Kyle, McNamara 2016,
Crossley, Skalicky, Dascalu 2019, Bączkowska 2019, Bączkowska 2020a,
Bączkowska 2020b). Niniejsze badanie ilustruje nowe (tj. nieklasyczne) podejście
do czytelności, gdzie złożoność tekstu mierzy się przede wszystkim indeksami
leksykalnymi.
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
15
Kandula i Zeng-Treitler (2008) zauważają ponadto, że większość badań
nad czytelnością skupia się na samym tekście, tymczasem znaczenie ma
również organizacja treści, układ i projekt tekstu. Do oceny czytelności całego
materiału tekstowego służy np. Suitability Assessment of Materials (SAM)
opracowane przez Doak, Doak i Root (1996). Innym z kolei testem jest
PMOSE/KIRSCH stworzony przez Mosenthal i Kirsch (1998), który mierzy
czytelność tabel i wykresów (oba te narzędzia są dosyć skomplikowane i nie
można ich stosować w komputerowej analizie, co obecnie z pewnością
ogranicza ich wykorzystanie).
3. Materiał
Analizowane dokumenty (wypisy szpitalne oraz wyniki badań obrazowych)
pochodzą z zasobów tłumaczeniowych jednej z autorek (E. K.-O.);
z materiałów do analizy zostały usunięte wszystkie dane wrażliwe. Stanowią
one przykład tekstów skonwencjonalizowanych (por. Wojtak 2005), czyli na
poziomie struktury są niezbyt elastyczne oraz mają ustalony porządek
występowania pewnych elementów. Na poziomie pragmatycznym ich celem
jest osiągnięcie określonego celu komunikacyjnego (wspomniana już
komunikacja lekarz–lekarz lub lekarz–pacjent) typowego dla danego tekstu.
Z punktu widzenia stylistycznego występują w nich charakterystyczne związki
frazeologiczne, terminologia o wysokim stopniu złożoności i specjalizacji
inherentna dla tekstów medycznych (w tym wyrazy pochodzenia łacińskiego)
oraz ustalony uzusem wzorzec projektowania i sporządzania tekstu. Tym
samym użycie w przekładzie takiego tekstu związku czy zwrotu różniącego się
od tych zazwyczaj stosowanych może stanowić nieoczekiwany, zaskakujący
element czy nawet przeszkodę w zrozumieniu komunikatu w sposób właściwy.
Trudności w tłumaczeniu tekstów skonwencjonalizowanych mogą
wystąpić na różnych poziomach organizacyjnych. Wydawałoby się, że
w ramach obiegu naukowego w świecie zachodnim (myślimy tu np. o krajach
UE, Stanach Zjednoczonych, Kanadzie, Australii czy innych krajach
anglojęzycznych znajdujących się pod kulturowym wpływem wyżej
wymienionych) gatunki o podobnych nazwach/funkcjach będą miały podobny
układ strukturalny i treściowy oraz będą pełniły tę samą funkcję. Często jednak
analizy porównawcze pokazują, że trudno mówić o wielopoziomowej
ekwiwalencji tych tekstów (w tym na poziomie tekstowym) – problemy
tłumaczeniowe mogą być również rezultatem istnienia i funkcjonowania
gatunków tekstowych w różnych społecznościach (językowych czy
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
16
kulturowych; widać to wyraźnie między innymi na przykładzie różnic
struktury i treści ulotek dla pacjenta w układzie językowym polski–angielski,
zob. Kościałkowska-Okońska, 2019).
Gatunki tekstów nie funkcjonują oczywiście w próżni, ale w kontekście,
zachodzi pomiędzy nimi interakcja, nakładanie się na siebie, a tym samym
trudno jest dokonać ich precyzyjnego podziału. Tworzą raczej koncepty, które
Bhatia (2002) nazywa „koloniami gatunków” (ang. genre colonies), a Bazerman
(1994) „systemami gatunków” (ang. genre systems), wzajemnie ze sobą
powiązane i interaktywne w konkretnych układach (Bazerman 1994: 97),
a zatem występowanie (lub brak) jakiegoś gatunku pociąga za sobą konsekwencje
dotykające całości jakiejś rzeczywistości tekstowej właśnie z uwagi na te
wzajemnie powiązania.
W przypadku tekstów medycznych wspomniana przez Bhatię „kolonia
gatunków” składałaby się z różnych przykładów istniejących i zdefiniowanych
gatunków. Próby ich określenia podjęli się Montalt i Gonzalez Davies (2007),
którzy wyróżnili kilkanaście gatunków w zależności od celu, jakiemu służą
(choć granice pomiędzy tymi celami są nieco płynne, co zresztą potwierdza
ustalenie Bhatii). Są to na przykład ulotki i materiały informacyjne dla pacjenta,
formularze świadomej zgody, raporty z badań, protokoły badań klinicznych czy
wytyczne dotyczące badań klinicznych (Monalt, Gonzalez Davies, 2007,
s. 57-89). Interesujące nas wyniki badań oraz wypisy szpitalne znalazły się
w kategorii gatunków definiowanych ze względu na pełnione przez nie funkcje
społeczne, czyli w tym przypadku komunikowanie treści odbiorcy, który nie
jest specjalistą, oraz sprawozdanie z realizacji praktyki klinicznej w odniesieniu
do jednostki.
Gatunki tekstów medycznych służą wspomnianej już na początku
komunikacji lekarz–lekarz i lekarz–pacjent (Montalt i Gonzalez Davies
nazywają je „mostami komunikacyjnymi”; kwestia komunikacji w tekstach
medycznych została również omówiona przez Ezpeleta-Piorno, 2012, a analizy
porównawcze dotyczące różnych gatunków tekstów medycznych można
znaleźć w pracy Gonzalez Darriba, 2018). W badaniach grupy GENTT (zob.
Gonzalez Darriba, 2018) pojawiła się propozycja podziału gatunków tekstów
medycznych na sześć kategorii: 1) kliniczne; 2) informacyjne,
3) metagatunkowe; 4) edukacyjne; 5) promocyjne oraz 6) naukowe. W świetle
takiego podziału można zaliczyć wypisy szpitalne i wyniki badań obrazowych
do pierwszej kategorii gatunków klinicznych.
Należy podkreślić, że wypisy szpitalne i wyniki badań nie znajdowały się
do tej pory w spektrum zainteresowania badaczy. Ich cechami
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
17
charakterystycznymi są niewątpliwie precyzja, zwartość oraz styl narracji, duży
udział strony biernej, jednostki leksykalne w postaci terminologii fachowej,
stosowanie czasu przeszłego oraz równoważników zdań.
4. Metodologia
Niniejsze badanie koncentruje się jedynie na cechach tekstu, czyli
implementuje metodę analityczną, a zatem nie uwzględnia aspektów
psycholingwistycznych sprawdzających interakcję zachodzącą między tekstem
a czytelnikiem (bada złożoność tekstu, a nie jego rozumienie przez czytelnika-
pacjenta, gotowość czytelnika do przeczytania tekstu, jego zainteresowanie
tematem itp.).
Dla potrzeb analizy utworzono dwa korpusy danych: korpus opisów
badań obrazowych (KBO) i korpus wypisów ze szpitala (KWS). KBO zawiera
993 słowa, a KWS składa się z 1874 słów. W sumie cały materiał korpusowy
liczy 2867 słów. Dane analizowano według następujących 14 indeksów:
procent wyrazów trudnych, indeks mglistości, indeks Pisarka, słowa rzadkie
(hasłowe), procent wyrazów rzadkich, procent rzeczowników i czasowników
wraz z ich logarytmami, procent rzeczowników trudnych, procent
czasowników trudnych, procent przymiotników, procent przymiotników
trudnych, procent rzeczowników w stosunku do czasowników, gerundia oraz
rzeczowniki abstrakcyjne. Dodatkowo uwzględniono wskaźniki pomocnicze
zapożyczone z klasycznych testów na czytelność: liczbę sylab w wyrazie, liczbę
wyrazów w zdaniu i liczbę słów w tekście.
Do obliczenia powyższych parametrów użyto metod i narzędzi
z zakresu przetwarzania języka naturalnego dostępnych w komercyjnych
wersjach dwóch programów komputerowych: Jasnopisu (jasnopis.pl) oraz
systemu Sketch Engine (dalej: SK; sketchengine.eu). Jasnopis to stosunkowo
nowe (udostępnione w 2015 r.) i jeszcze mało znane narzędzie automatyzujące
obliczenia służące analizie czytelności tekstów w języku polskim. Jest to
aplikacja internetowa dostępna bez opłat w wersji demonstracyjnej (ma jednak
ograniczenia co do długości tekstu). Aplikacja ta analizuje kilka parametrów
leksykalnych oraz wykładników dotyczących długości wyrazów i zdań
typowych dla klasycznych testów czytelności; zawiera również predyktor
potencjalnego zrozumienia tekstu przez czytelnika określony jako klasa
trudności tekstu. Powstała ona w efekcie interesującego projektu, który oprócz
wskaźników leksykalnych włączał do analizy czytelności również badania
psycholingwistyczne, mierzące zarówno obiektywne cechy respondentów
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
18
(wykształcenie, wiek itp.), jak i ich subiektywne oceny tekstu, a także takie
cechy respondentów jak na przykład motywacja do przeczytania tekstu czy
zainteresowanie jego tematyką. Wyniki tych badań psycholingwistycznych
zostały zaimplementowane do aplikacji Jasnopis w taki sposób, aby mogła ona
określać przewidywaną klasę trudności tekstu. Tym samym twórcy tej aplikacji
odchodzą od określania czytelności w oparciu jedynie o wskaźniki używane
w testach klasycznych (liczba liter, sylab i wyrazów) i proponują połączenie
analizy złożoności tekstu z jego zrozumiałością.
Uznając istotny wkład twórców Jasnopisu w rozwój badań nad czytelnością
tekstów użytkowych pisanych w języku polskim, należy jednak zauważyć, że
w porównaniu z dostępnymi programami i aplikacjami analizującymi teksty
w języku angielskim aplikacja ta ma pewne ograniczenia. Wadą Jasnopisu jest
mała liczba parametrów obliczanych przez program (np. Coh-Metrix autorstwa
McNamary i in. (2014) generuje wyniki dla ponad 100 parametrów), stanowi to
jednak w pewnym stopniu efekt przyjętych założeń teoretycznych
i definicyjnych czytelności (która wyklucza niektóre formy kohezji). Warunkiem
uznania wyrazu za rzadki jest to, że jest to wyraz wielosylabowy (cztery sylaby
lub więcej), czyli że jest jednocześnie wyrazem trudnym. Taka implikacja budzi
uzasadnioną wątpliwość, bowiem nie wszystkie wyrazy rzadkie są jednocześnie
wielosylabowe. Informacje statystyczne dotyczące wyrazów rzadkich są zatem
ściśle uzależnione od założenia, które wyrazy uznawane są za trudne, zatem
parametr ‘wyraz rzadki’ niejako częściowo dubluje parametr ‘wyraz trudny’.
Problem wspomniany wcześniej, mianowicie że nie każdy wyraz wielosylabowy,
tzw. „trudny”, jest faktycznie trudny i nie każdy wyraz jedno-, dwu- czy
trzysylabowy jest wyrazem łatwym do zrozumienia, nie został całkowicie
rozwiązany w aktualnie dostępnej wersji aplikacji. Jasnopis definiuje bowiem
słowo „trudne”, uwzględniając jego charakterystykę frekwencyjną na podstawie
listy frekwencyjnej 5000 słów powstałej na bazie pięciu niewielkich słowników
(Gruszczyński, Hadryan 2015: 62, Charzyńska 2015: 106), ale redefinicja słów
trudnych zapowiadana jest dla kolejnej wersji aplikacji. Ponadto, jak przyznaje
autorka przytaczanego studium psycholingwistycznego, grupa respondentów,
która miała zweryfikować zmienne psychologiczne mogące mieć wpływ na
rozumienie tekstu, okazała się być niereprezentatywna (Charzyńska 2015: 106).
Mimo tych niedoskonałości aplikacja Jasnopis jest interesującym (i póki co
jedynym) narzędziem dostępnym online, które mierzy zrozumiałość tekstów
w języku polskim w obrębie parametrów porównywalnych do tych dostępnych
już w aplikacjach dla języka angielskiego.
Sketch Engine to szeroko znany komercyjny system do zarządzania
korpusami powstały w 2003 r. i oferujący szereg testów statystycznych
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
19
i narzędzi do wyszukiwania i analizy słów, a także wiele potencjalnych
korpusów referencyjnych, w tym korpusów języka polskiego, również tzw.
trzeciej generacji.
Przed dokonaniem analizy ze wszystkich tekstów usunięto metadane,
które mogłyby wpłynąć na wyniki i zniekształcić ostateczne wnioski analizy.
Usunięto także dane personalne mogące umożliwić zidentyfikowanie pacjenta,
zanim przystąpiono do czyszczenia dokumentów z metadanych, zatem
oryginalne dokumenty dostępne były tylko jednej autorce niniejszego artykułu.
Ponieważ niektóre wskaźniki nie spełniały warunku parametryczności,
poniższa analiza, będąca badaniem pilotażowym, sygnalizuje jedynie pewne
tendencje, które będzie można zweryfikować na większym korpusie danych.
Przy badaniu korelacji za wartość domyślną przyjęto p<0,5, a wartość
minimalną efektu wielkości ustalono na 0,1.
5. Analiza danych
Rysunek 1 przedstawia ogólny zarys wyników analizy ilościowej uzyskanej
w aplikacji Jasnopis i w programie Sketch Engine. W przeważającej większości
parametrów wypisy ze szpitala mają wyższe wartości niż te uzyskane dla
opisów badań obrazowych, co – uwzględniając wartości indeksu mglistości
(określającego liczbę lat edukacji potrzebnych do zrozumienia tekstu) i indeksu
zaproponowanego przez Walerego Pisarka (tzw. indeksu Pisarka) – już
wstępnie sygnalizuje możliwość większej trudności w zrozumieniu wypisów,
czyli ich mniejszą czytelność. Wynik indeksu mglistości nie jest statystycznie
znaczący, jednak zarówno indeks mglistości, jak i indeks Pisarka ujawniają
pewną tendencję, którą umocnią inne dane przedstawione w dalszej części
analizy.
Statystycznie istotne różnice między opisami badań obrazowych
i wypisami ze szpitala występują w obrębie 2 parametrów: procent wyrazów
trudnych i procent rzeczowników trudnych. W wypisach jest nieznacznie
więcej wyrazów wielosylabowych (t=1,91; <0,10; d=1,21), w szczególności
rzeczowników wielosylabowych (t=2,81; d=1,78). Powyższe dane sugerują
zatem, że wypisy wykazują mniejszą czytelność niż opisy, a różnicę między
nimi można sprowadzić do wyrazów wielosylabowych (głównie
rzeczowników), które przeważają w wypisach.
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
20
Rysunek 1. Indeksy uwzględnione w analizie wraz z procentami lub średnimi wyników
dla opisów badań obrazowych („O”) i wypisów ze szpitala („W”)
Kolejny parametr uwzględniony w niniejszej analizie to wyrazy rzadkie,
czyli takie, które cechują się niską charakterystyką frekwencyjną. W Jasnopisie
uznaje się za nie te, których wystąpienia nie przekraczają 5 na 100.000 słów
(Gruszczyński, Broda 2015: 7). Wyrazów tych jest więcej w wypisach, co
wpływa negatywnie na ich czytelność. Wskaźnik ten jednak silnie koreluje
z długością tekstów, dlatego należy go potraktować jako wskazujący jedynie
pewne tendencje.
Parametr ściśle związany z czytelnością w rozumieniu testów
klasycznych to średnia liczba sylab w wyrazie, która okazała się większa
w wypisach. Dłuższe wyrazy sugerują większą trudność w ich zrozumieniu,
podobnie jak zdania wielowyrazowe, ponieważ wymagają większego wysiłku
kognitywnego do ich przetworzenia. Zdania są średnio nieco dłuższe w opisach
badań obrazowych, natomiast średnia liczba sylab w wyrazach jest bardzo
zbliżona w opisach i wypisach.
Jak wcześniej wspomniano, wyrazy trudne w Jasnopisie to takie, które
mają 4 lub więcej sylab (Pisarek 2007: 261, Gąsiorek i in. 2014) oraz które nie
znajdują się na liście referencyjnej 5000 słów o najwyższej frekwencji
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
21
(Gruszczyński, Hadryan 2015: 62). Wyrazów trudnych jest ponownie więcej
w wypisach ze szpitali niż w opisach badań obrazowych.
Inny wskaźnik uwzględniony w badaniu to procent rzeczowników
i czasowników w tekście (oraz ich logarytmy). Warto zauważyć, że około
połowa tekstów zarówno w przypadku opisów, jak i wypisów składa się
z rzeczowników (z niewielką przewagą w opisach). Procent rzeczowników
trudnych (wielosylabowych) jest wyższy w przypadku wypisów ze szpitali,
podobnie jak procent czasowników i przymiotników. Indeks Rz/Cz, tj. procent
rzeczowników względem czasowników jest uważany według niektórych
autorów (Gruszczyński, Ogrodniczuk 2015) za wskaźnik trudności tekstu, tzn.
im więcej jest rzeczowników, tym tekst jest mniej zrozumiały. Inni autorzy
z kolei (Crossley, Skalicky, Dascalu, McNamara, Kyle, 2017: 15) zauważyli
odwrotną tendencję, mianowicie że wysoki procent czasowników jest
wskaźnikiem dużej trudności tekstu. Opisy badań obrazowych w naszym
badaniu zawierają więcej rzeczowników w stosunku do czasowników, co
wydaje się popierać tezę Scotta Crossley’a, Kristophera Kyle’a, Danielle
McNamary (2017).
Gerundia oraz rzeczowniki abstrakcyjne wyekstrahowano z korpusów za
pomocą narzędzi dostępnych w systemie Sketch Engine. Obydwu parametrom
przypisuje się zwiększanie trudności tekstu (Gruszczyński, Hadryan 2015: 48).
Rzeczowniki konkretne uznawane są za bardziej zrozumiałe, bowiem łatwiej
jest je zapamiętać z uwagi na fakt, że w umyśle odbiorcy komunikatu aktywują
one pamięć związaną ze zmysłami (percepcją) (Brysbaert, Warriner, Kuperman
2013). Desygnaty rzeczowników konkretnych istnieją w rzeczywistości, można
na nie wskazać, wziąć do ręki czy wykonać jakieś czynności za ich pomocą.
W naszych danych zarówno gerundia (KBO=2,4%, KWS=1,9%), jak
i rzeczowniki abstrakcyjne (KBO=2,6%, KWS=2,3%) występują częściej
w opisach.
Po tym ogólnym przeglądzie wartości poszczególnych indeksów wyłania
się wstępnie obraz czytelności przeciwny do oczekiwanych wyników,
mianowicie wypisy wykazują mniejszą czytelność niż opisy badań obrazowych.
Ponieważ wypisy ze szpitala sporządzane są przez lekarza dla pacjenta
i zawierają, oprócz przebiegu leczenia i rozpoznania również zalecenia
pohospitalizacyjne (dawkowanie leków, dalsze leczenie, zalecane kolejne
wizyty i badania oraz rekomendacje dotyczące wprowadzania zmian
żywieniowych, zachowań prozdrowotnych czy zmiany stylu życia), wydaje się,
że czytelność takiego tekstu powinna być stosunkowo duża, aby pacjent
rozumiał zalecenia lekarza i mógł się dowiedzieć, jakie było rozpoznanie.
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
22
Z tego względu wstępnie założono, że wypisy będą cechowały się większą
czytelnością. Z opisanej powyżej analizy wynika jednak, że wypisy ze szpitala
są mniej czytelne niż opisy badań obrazowych. W dalszej części artykułu
przedstawione zostaną bardziej szczegółowo zauważone tendencje oraz
korelacje.
5.1. Analiza tendencji i korelacji
Procent rzeczowników w stosunku do czasowników (Rz/Cz) pozytywnie
koreluje z procentem czasowników trudnych (r = 0,89), zatem w wypisach jest
nie tylko więcej rzeczowników względem czasowników, ale też jest więcej
czasowników trudnych. Czasowniki trudne (według tagsetu dostępnego w SK)
w wypisach stanowią 20,7%, a w opisach 14% wszystkich czasowników
w danym korpusie. Czasowniki trudne w opisach to m.in.: obejmować,
uwidocznić, odpowiadać, zróżnicować, sugerować, zobrazować, występować,
natomiast w wypisach to np.: konsultować, obserwować, hospitalizować,
uzyskiwać, zmodyfikować, utrzymywać, przeprowadzić, odpowiadać,
zaczerwienić, gorączkować.
Rzeczowniki trudne z kolei występują zarówno w opisach (11%
wszystkich rzeczowników w KBO), jak i wypisach (19,7% wszystkich
rzeczowników w KWS). Innymi słowy, w opisach co dziesiąty rzeczownik jest
wielosylabowy, a w wypisach co piąty. Jak wynika z przytoczonych poniżej
przykładów wyekscerpowanych z badanych korpusów (przy użyciu tagsetu
dostępnego w SK), rzeczowniki wielosylabowe zawierają terminy fachowe
(które są trudne), jednakże oprócz terminów medycznych są też rzeczowniki
ogólnie znane, które z pewnością nie są trudne nawet dla czytelnika
niewykształconego (np. pochodzenie, zapalenie, położenie). Rzeczowniki
trudne w opisach to np.: gruczolakorak, echogeniczność, torbielakogruczolak,
ovariorum, preeklampsja, zapłodnienie, podejrzenie, wodobrzusze,
diagnostyka, wykształcenie, wieloródka, intensywność, wypisy z kolei
zawierają takie wyrazy jak np.: hospitalizacja, dolegliwość, znieczulenie,
zapalenie, insuflacja, perystaltyka, nasilenie, dolegliwość, kolonoskopia,
epikryza, enzymopatia, biotynidazy, cytomegalia, przepuklina, profilaktyka,
ceroidolipofuscynoza, tachykardia, powikłanie.
Ponadto rzeczowniki wielosylabowe, które wystąpiły co najmniej 5 razy
w korpusie wypisów, mają średnią frekwencję zredukowaną (uwzględniającą
liczbę dokumentów względem liczby wystąpień) oscylującą wokół wartości 4
(np. morfologia – 3,4; diagnostyka – 4,2), natomiast w korpusie opisów wartości
te są niższe i oscylują wokół 1,5 (np. podejrzenie – 1,7; wodobrzusze – 1,5;
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
23
wieloródka – 1,3). Rzeczowniki trudne w wypisach są zatem dystrybuowane
bardziej równomiernie w całym korpusie, podczas gdy w korpusie opisów mają
tendencję do występowania w pojedynczym dokumencie, co potwierdza
wcześniejszą obserwację, że wypisy wydają się trudniejsze do zrozumienia niż
opisy, bowiem rzeczowniki wielosylabowe są w nich raczej normą niż
wyjątkiem.
Porównanie procentu rzeczowników, czasowników i przymiotników
w stosunku do wszystkich słów w korpusie można dobrze zaobserwować na
podstawie indeksów logarytmicznych (parametrów log %Rz, log %Cz,
log %Prz i %Rz/Cz), co ilustrują poniższe wykresy (rys. 2a–d). Wynika z nich,
że w opisach badań obrazowych rzeczowników jest procentowo więcej niż
w wypisach, natomiast czasowników jest procentowo więcej w wypisach.
Ponieważ ogólny poziom zrozumienia tekstu wydaje się być wyższy
w przypadku opisów, można wstępnie założyć, że większa liczba użytych
w tekście rzeczowników nie ma dużego wpływu negatywnego na jego
czytelność. W opisach istnieje nie tylko tendencja do stosowania większej
liczby rzeczowników w stosunku do wszystkich słów w tekście, ale też do ich
większej liczby w stosunku do czasowników niż to ma miejsce w przypadku
wypisów. Można zatem podejrzewać, że zarówno duża liczba rzeczowników,
jak i ich wysoka okurencja w stosunku do czasowników nie mają wpływu na
obniżenie klarowności tekstu. Liczba przymiotników względem wszystkich
słów w danym korpusie jest ponownie większa w wypisach niż w opisach, co
może przyczyniać się do zmniejszenia czytelności tekstów (mając na uwadze
indeksy mglistości i Pisarka dla obu korpusów).
Ponadto można też zaobserwować słabą korelację (statystycznie
nieznaczącą) między okurencją słów rzadkich a frekwencją rzeczowników
trudnych (rs=0,6, p=0,391), co sugeruje, że w opisach badań obrazowych słowa
rzadkie mogą często występować jako rzeczowniki wielosylabowe.
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
24
Rysunek 2a.
Logarytm procentu
rzeczowników
Rysunek 2b.
Logarytm
procentu
czasowników
Rysunek 2c.
Logarytm procentu
przymiotników
Rysunek 2d.
Logarytm ilorazu
rzeczowników
do czasowników
5.1.1. Rzeczowniki abstrakcyjne
Za typowe wyznaczniki rzeczowników abstrakcyjnych przyjęto, za
Włodzimierzem Gruszczyńskim i Mileną Hadryan (2015: 48), końcówki -ość, -
cja, -sja. Ponieważ w zastosowanym tagsecie (czyli zbiorze znaczników
morfosyntaktycznych, tj. tagów, które opisują części mowy w odniesieniu do
tokenów) nie ma specjalnych znaczników dla rzeczowników abstrakcyjnych,
ich ekstrakcja przeprowadzona była poprzez automatyczne wyszukiwanie
wyrazów (tj. bez analizy ich kontekstów) z zakończeniami wymienionymi
powyżej przy zastosowaniu składni języka zapytań wykorzystywanego w SK.
Jak już wcześniej wspomniano, rzeczowniki abstrakcyjne są zasadniczo
postrzegane jako źródło trudności tekstów (Gruszczyński, Ogrodniczuk 2015:
48, 73, 105), jednak należy zwrócić uwagę na fakt, że nie każdy taki rzeczownik
jest trudny w zrozumieniu. Tabela 1. poniżej przedstawia frekwencje absolutne
wystąpień po standaryzacji na milion słów (FS) rzeczowników abstrakcyjnych
w korpusie badań obrazowych oraz w korpusie wypisów ze szpitali
obliczonych na podstawie korpusu referencyjnego plTenTen12 (Jakubíček i in.
2013). Dane te zostały automatycznie ekstrahowane z korpusu.
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
25
Tabela 1. Frekwencja absolutna rzeczowników abstrakcyjnych po standaryzacji
na milion słów
Procentowo w tekstach opisów więcej jest rzeczowników abstrakcyjnych
niż w wypisach. Trudność w rozumieniu tych wyrazów nie zawsze jest jednak
znacząca, co wynika nie tyle z liczby sylab, które zawierają, ile z ich
charakterystyki frekwencyjnej. Wyrazy takie jak ilość, czynność czy obecność
KBO FS KWS FS
wysokość (4x) 150,62 ilość (3x) 243,82
racja (z racji) 132,13 funkcja 175,61
wielkość (4x) 81,72 wielkość (2x) 81,72
czynność 74,97 operacja (2x) 73,91
operacja 73,91 obecność (2x) 73,39
obecność 73,39 głębokość 62,07
długość (3x) 72,65 rejestracja (2x) 42,16
Lokalizacja 50,53 konsultacja 33,1
kość 37,43 interwencja 27,44
konsultacja 33,1 tendencja 26,97
dolegliwość 20,41 odporność 23,47
intensywność 7,85 kontynuacja 20,66
ruchomość 1,96 dolegliwość (5x) 20,41
echogeniczność (2x) 0,05 redukcja 18,67
rodność 0,01 proporcja 16,48
przezierność 0,24 stabilizacja 10,88
kwalifikacja 8,56
niewydolność 5,8
destrukcja 2,98
wydolność 2,67
hospitalizacja 2,29
senność 2,2
niedoczynność 2,15
detekcja 1,92
niedokrwistość 1,81
inhalacja 1,44
implantacja (2x) 0,9
inwersja 0,59
bladość 0,51
spoistość 0,42
niedomykalność
(zastawki mitralnej)
0,26
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
26
są łatwe do zrozumienia. Kolejną kwestią, którą trzeba rozważyć, jest rozkład
wyrazów trudnych w danym korpusie. Wyraz trudny, jakim jest
echogeniczność, wystąpił w dwóch dokumentach, a np. rodność
czy przezierność tylko w pojedynczych tekstach. Ponadto wyraz bladość
(F=0,51), który ma niską frekwencję absolutną, wydaje się być bardziej
zrozumiały dla osoby słabo wykształconej niż na przykład hospitalizacja,
z uwagi na fakt, że jest on derywowany od przymiotnika blady (F=10,27).
Hospitalizacja z kolei jest wyrazem pochodzenia obcego, zapożyczona
prawdopodobnie z angielskiego hospital (szpital) lub łacińskiego hospitium. Nie
jest zatem zachowana w języku polskim spójność nazewnicza między
określeniem okresu przebywania pacjenta w szpitalu czy samego aktu
umieszczenia go tamże (hospitalizacja), a nazwą budynku, którego opisany stan
lub czynność dotyczą (szpital). Z tego powodu hospitalizacja może być
niezrozumiała dla czytelnika. Z powyższych rozważań wynika, że nie tylko
klasyczne testy na czytelność nie spełniają swojej roli, ale i testy oparte na
wskaźnikach leksykalnych mogą nie być wystarczająco wiarygodne, o ile biorą
one pod uwagę jedynie pojedyncze aspekty leksemów. Wpływ rzeczowników
abstrakcyjnych na zrozumiałość tekstu powinien być rozważany przy
uwzględnieniu nie tylko ich sensów (nie)abstrakcyjnych i liczby sylab, które
zawierają, ale też innych aspektów, w szczególności ich frekwencji
i dystrybucji oraz spójności nazewniczej.
Nie bez znaczenia jest metoda ekstrakcji rzeczowników abstrakcyjnych.
Ponieważ ekstrakcja danych z korpusów zachodzi automatycznie, słowo układ,
mimo iż generalnie jest rzeczownikiem abstrakcyjnym, nie zostało
zidentyfikowane w analizie jako rzeczownik abstrakcyjny, dlatego że nie
kończy się na -ość czy -s/cja, natomiast słowo kość pojawiło się w kategorii
rzeczowników abstrakcyjnych, co jest kontrowersyjne, bowiem wydaje się, że
zdecydowanie częściej używane jest w sensie konkretnym (w abstrakcyjnym
może być użyte na przykład w zwrocie dać w kość). Ponadto -ość nie jest
w przypadku wyrazu kość końcówką. Trzeba pamiętać, że w języku zapytań w
SK nie ma możliwości automatycznej ekstrakcji rzeczowników abstrakcyjnych
(stąd brak rzeczownika układ). Język zapytań nie pozwala też odróżnić wyrazy,
do których tematu dodana jest końcówka -ość od tych, które po prostu kończą
się na -ość, stąd pojawienie się wyrazu kość w wyekstrahowanych danych.
Niezwykle istotny w analizie rzeczowników abstrakcyjnych jest kontekst
(a konkretnie kotekst) oraz sprawdzenie, czy dany wyraz nie jest elementem
jednostki wielowyrazowej albo bigramu (ogólnie rzecz biorąc n-gramu). Warto
przy okazji zauważyć, że słowo układ może mieć znaczenie abstrakcyjne lub
konkretne. W jednostce wielowyrazowej układ kielichowo-miedniczkowy,
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
27
która wystąpiła w analizowanym korpusie, ma sens konkretny, dotyczy
bowiem konkretnego, fizycznego miejsca i elementów, które współtworzą
(wraz z moczowodami) górne drogi moczowe w ciele określonego człowieka.
Pojawia się zatem kolejny problem metodologiczny, tj. możliwość zmiany
sensu abstrakcyjnego na konkretny pod wpływem kontekstu. Inną kwestią,
którą należałoby wziąć pod uwagę podczas analizy języka medycznego, jest
uwzględnienie frekwencji nie tylko pojedynczych wyrazów w korpusie, ale też
frekwencji n-gramów, a w szczególności tzw. wartości C, która odnosi się do
jednostek zagnieżdżonych (zob. Frantzi i in. 2000), zwłaszcza tych n-gramów,
które są terminami fachowymi. Nie bez znaczenia jest też fakt, że nie wszystkie
jednostki wielowyrazowe zawierające rzeczownik w badanych korpusach to
skomplikowane i niezrozumiałe medyczne terminy fachowe, np. utrata masy
ciała czy stan ogólny średni to n-gramy zawierające rzeczowniki abstrakcyjne,
jednak są one łatwe do zrozumienia, mimo iż na przykład rzeczownik utrata
(FS=42,42) ma dziesięciokrotnie niższą frekwencję absolutną w języku
ogólnym, niż stan (FS=459,12).
5.1.2. Gerundia
W polskim językoznawstwie korpusowym problem odróżnienia „odsłowników
od rzeczowników nie został satysfakcjonujaco rozwiązany”, dlatego przyjęto
kryteria, które mają jedynie przemawiać za interpretacją odsłownikową
(gerundium nazywane jest też odsłownikiem), to jest: występowanie
określonych argumentów po gerundium, np. zaimków (pomaganie mu),
okoliczników czasu (bieganie 2 godziny), przysłówków (robienie czegoś
szybko) lub agensa po przyimku przez (przejęcie władzy przez rebeliantów)
(Szałkiewicz, Przepiórkowski 2012: 76). W niniejszym badaniu gerundia
wyekstrahowano z korpusów automatycznie poprzez polecenie wyszukania
wyrazów z anotacją morfosyntaktyczną rzeczownika odczasownikowego
(tagset używany w Narodowym Korpusie Języka Polskiego). Wymienione
w tabeli 2 gerundia potencjalnie mogą wyrażać zarówno pojęcia abstrakcyjne,
jak i konkretne.
Rozróżnienie, czy dany wyraz ilustruje znaczenie abstrakcyjne czy
konkretne, nie zawsze jest jednak łatwym zadaniem. W zdaniu Umiarkowane
pływanie jest zdrową formą ruchu. wyraz pływanie można zinterpretować jako
rzeczownik abstrakcyjny, ale w zdaniu W lodówce jest twoje jedzenie na dziś.
wyraz jedzenie użyte jest w sensie konkretnym. Kwalifikacja ta zależy zatem
w dużej mierze od kontekstu. Na marginesie warto wspomnieć, że istnieją
wyrazy, w których odróżnienie to jest zwykle łatwiejsze z uwagi na dwie różne
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
28
formy, które mogą one przyjąć, np. ocena (rzeczownik abstrakcyjny
pochodzący od czasownika oceniać) vs. ocenianie (gerundium), weryfikacja vs.
weryfikowanie, śpiew vs. śpiewanie, chód vs. chodzenie, bieg vs. bieganie itp.
W tych przypadkach wydaje się, że przytoczone powyżej cztery kryteria nie są
niezbędne dla odróżnienia gerundium od rzeczownika, który nie jest odsłowny.
Tabela 2. Frekwencja absolutna gerundiów po standaryzacji na milion słów
Gruszczyński i Hadryan (2015: 48) utrzymują, że wyższa liczba okurencji
gerundiów niekorzystnie wpływa na zrozumiałość tekstu, a usunięcie
rzeczowników odsłownych z tekstu może zwiększyć jego czytelność nawet
trzykrotnie. Trzeba jednak pamiętać, że autorzy ci traktują gerundia jako
KBO FS KWS FS
badanie (3x) 293,36 badanie (4x) 293,36
zajęcie (przestrzeni
nadoponowej)
107,7 wykonanie (3x) 90,92
leczenie (2x) 83,06 leczenie (5x) 83,06
ustawienie 39,76 wydanie 54,99
pochodzenie 37,58 uszkodzenia (2x) 30,65
położenie 35,58 funkcjonowanie 27,43
podanie (4x) 17,23 uzyskanie 19,73
podejrzenie 14,95 opóźnienie 19,32
wzmocnienie (2x) 13,88 zmniejszenie 18,73
palenie 13,71 wzmocnienie 13,88
rozpoznanie (3x) 12,18 złamanie 8,74
nadciśnienie 7,12 podawanie 6,22
rozważenie 1,22 pobranie 5,42
zobrazowanie 0,5 poszerzenie 5,27
monitorowanie 4,9
zahamowanie 2,42
zwężenie (2x) 1,61
porażenie 1,61
zaciągnięcie
(międzyżebrzy)
1,14
uwięźnięcie 0,6
szarpnięcie 0,46
zwapnienie 0,24
furczenia (nad polami
płucnymi liczne świsty
i furczenia)
0,01
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
29
rzeczowniki abstrakcyjne. Z analizy kontekstów w badanych korpusach można
wywnioskować, że gerundia są w przeważającej większości pojęciami
nieabstrakcyjnymi, dotyczą bowiem opisu konkretnych przypadków
chorobowych. Takie wyrazy nie wydają się trudne w odbiorze. Większość
z nich jest ogólnie zrozumiała, choć w korpusie WS jest kilka słów, które mogą
być mniej zrozumiałe lub nieczytelne dla pacjenta w kontekście opisu stanu
chorobowego (np. uwięźnięcie, zaciągnięcie czy furczenie).
Podsumowując, można powiedzieć, że na podstawie analizy użycia
gerundiów w naszych korpusach nie można stanowczo stwierdzić, że
rzeczownik odsłowny jest źródłem trudności w zrozumieniu tekstu, bowiem
występujące w nich gerundia są wyrazami stosunkowo często używanymi
w języku codziennym i dotyczą raczej użyć nieabstrakcyjnych. Wynika z tego,
że – podobnie jak w przypadku rzeczowników abstrakcyjnych – przy ocenie
czytelności tekstu sam parametr długości wyrazu nie jest aż tak istotny jak jego
charakterystyka frekwencyjna i sens czy kontekst, w którym się pojawia.
Niewątpliwie jednak fakt, że więcej przypadków użycia gerundiów
zanotowano w wypisach ze szpitali oraz że niektóre z nich są raczej mało
znane, może przyczyniać się do obniżenia czytelności tekstu.
Problemy metodologiczne dotyczą jednak nie tylko kwestii natury
językoznawczej, np. opisanych powyżej klasyfikacji leksemów jako
abstrakcyjnych czy konkretnych, ale też aspektów natury bardziej „technicznej”,
tj. związanych z przyjętą metodą automatycznej ekstrakcji danych. Identyfikacja
rzeczowników odsłownych omówionych powyżej, jak już wspomniano,
przebiegała na podstawie znacznika morfosyntaktycznego gerundium
stosowanego w NKJP. Warto jednak podkreślić, że automatyczne wyszukiwanie
gerundiów za pomocą składni języka zapytań zawierającej końcówki gerundium
(-nie, -cie) dało nieco odmienne wyniki, które były mniej dokładne. Pozyskane
w ten sposób wyrazy różniły się od tych wyekstrahowanych za pomocą tagsetu
używanego w NKJP ilościowo (w przypadku wyszukiwania poprzez końcówki
było ich znacznie mniej) i jakościowo (np. ujście, położenie, wykształcenie itp.
nie pojawiły się w wyszukiwaniu poprzez tag gerundium, wyrazy te oznaczono
w NKJP tagiem rzeczownika). Różnice te były znaczące, dlatego warto pamiętać,
że przyjęta metoda ekstrakcji danych może mieć istotny wpływ na wynik
procesu ich wydobywania z korpusu, a tym samym na interpretację wyników.
Trzeba też pamiętać, że automatyczna anotacja tagów nie jest w 100%
nieomylna. Dla języka angielskiego poprawność tagerów sięga 97% (Kobyliński
2013), dla języka polskiego jedynie ok. 93% w NKJP (Szałkiewicz,
Przepiórkowski 2012). Łukasz Kobyliński i Witold Kieraś (2016) podają jednak
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
30
jedynie 91% w odniesieniu do ok. milionowego korpusu treningowego
utworzonego na potrzeby NKJP. Jest to niska wartość dla języka fleksyjnego
w porównaniu do innych słowiańskich języków fleksyjnych, np. czeskiego czy
słoweńskiego (Kobyliński, Kieraś 2016). Najnowsze tagery proponują
rozwiązania, które osiągają dokładność rzędu 94,5% (Kobylińśki, Wasiluk,
Wojdyga 2018), nie są one jednak zaimplementowane do tagera NKJP
dostępnego w SK, ponadto jest to nadal dość znaczący margines błędu.
Na kwestię problemów z poprawnością automatycznej anotacji
gerundiów w korpusie języka polskiego zwrócił już uwagę Kobyliński (2013),
który zauważył, że wyraz głosowanie był oznaczony albo jako gerundium albo
rzeczownik. W naszych danych tagset oparty na klasyfikacji NKJP oznaczył
(drobne) zwapnienie jako gerundium, ale znieczulenie (ogólne) już nie, mimo
iż oba rzeczowniki pochodzą od czasowników i są doprecyzowane
przymiotnikami. Teoretycznie rozbieżność ta mogłaby wynikać z analizy
kontekstu, w wyniku czego przydawka klasyfikująca (wyrażająca stałość)
zdecydowałaby o przypisaniu wyrazu do rzeczowników, a przydawka
charakteryzująca (wyrażająca temporalność) do klasy gerundium. Tagset NKJP
nie posiada jednak oddzielnych tagów takiej anotacji morfosyntaktycznej
fleksemów przymiotnikowych, zatem mogła ona wynikać z marginesu błędu
poprawności tagera morfoskładniowego zastosowanego w NKJP.
6. Dyskusja i wnioski
Mimo stosunkowo niewielkiej liczby analizowanych danych i ograniczeń
metodologicznych można zauważyć pewne tendencje i cechy analizowanych
tekstów. Różnice statystycznie znaczące między opisami i wypisami
zaobserwowano w obrębie procentu wyrazów trudnych oraz procentu
rzeczowników trudnych. W wypisach zidentyfikowano wyższe wartości dla
obu wskaźników. Ponadto w wypisach ze szpitali rzeczowniki wielosylabowe
mają bardziej równomierny rozkład w korpusie. Nie zaobserwowano natomiast,
aby rzeczowniki odsłowne miały wpływ na trudność tekstu, w większości są to
bowiem wyrazy ogólnie znane, tj. o wysokiej frekwencji użycia. W wypisach
liczniej niż w opisach występują czasowniki i przymiotniki. Okurencja
czasowników wielosylabowych jest też w nich wyższa. Rzeczowniki
abstrakcyjne oraz gerundia nieznacznie częściej występują w opisach.
Rzeczowniki stanowią około połowy wyrazów w tekście, zarówno w opisach,
jak i w wypisach, jednak w opisach, które wydają się być bardziej klarowne,
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
31
jest ich więcej, zatem ich wysoka liczba w tekście wskazuje na tendencję do
zwiększenia jego zrozumiałości.
Należy wspomnieć, że podczas analizy wyników badań pojawił się szereg
problemów natury metodologicznej. Niektóre kategorie okazały się
niejednoznaczne (np. sens abstrakcyjny vs. konkretny) i zależne od kontekstu,
a przyjęta metoda automatycznej ekstrakcji danych okazała się mieć istotne
znaczenie dla wyników analizy. Nie bez znaczenia jest też anotacja
morfosyntaktyczna oraz stopień jej poprawności. Ponadto leksykalne
wykładniki trudności tekstu wykorzystane w niniejszym studium nie powinny
być analizowane w izolacji, tylko w powiązaniu z szeregiem innych
parametrów. Na przykład sam wskaźnik rzeczownik abstrakcyjny może dać
mylne wyniki, jeśli nie uwzględni się równocześnie charakterystyki
frekwencyjnej danego rzeczownika, kontekstu, w którym występuje (np.
funkcji przydawek w związkach atrybutywnych czy sensu
abstrakcyjnego/konkretnego), jego dystrybucji w korpusie czy spójności
nazewniczej. Obciążona błędem jest też unigramowa analiza morfoskładniowa,
dlatego w analizie należy uwzględnić różne poziomy składniowe.
Patrząc na uzyskane dane w szerszym kontekście, należy też zauważyć,
że ogólnie rzecz biorąc, rzeczowników w opisach (jak również w wypisach),
jest bardzo dużo. Dla porównania procentowy stosunek rzeczowników do
czasowników w ulotkach leków wynosi ok. 2,5, co oznacza, że około
2,5 rzeczownika przypada na jeden czasownik (Bączkowska 2020a), tymczasem
w opisach niemal aż 25 rzeczowników, a w wypisach prawie 21 rzeczowników
przypada na jeden czasownik, tj. około dziesięć razy więcej. Zarówno wypisy,
jak i opisy mają indeks mglistości ok. 9, a ulotki we wspomnianym badaniu
ok. 7,5. Ogólna tendencja do większej trudności tekstu wraz ze zwiększającą się
liczbą rzeczowników oraz zmniejszającą się liczbą czasowników, którą
zauważyła Charzyńska (2015: 105), potwierdza się w analizowanych danych
jednak częściowo, bowiem to w opisach, które mają większą czytelność,
znajduje się jednocześnie więcej rzeczowników. Trzeba jednak pamiętać, że
tendencję tę zaobserwowano w badaniu pilotażowym, tj. na małej liczbie
tekstów, dlatego wymaga ona walidacji przy użyciu większych korpusów
danych. Ponadto analizie poddano teksty specjalistyczne, medyczne, w których
występuje szczególnie dużo terminów fachowych.
Powyższe obserwacje i wnioski pozwalają zdać sobie sprawę z wagi, jaką
należy przypisać czytelności tekstu, a tym samym zrozumieniu informacji
w nim zawartych – czyli warunkowi tak naprawdę podstawowemu dla
adekwatnego i dobrego jakościowego tłumaczenia. Przedstawiona w artykule
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
32
analiza przybliża pojęcie, zastosowanie i dane statystyczne dotyczące
czytelności na omawianych przykładach tekstów medycznych obfitujących
w terminy specjalistyczne, których użycie z zasady wpływa na poziom
zrozumienia tekstu. Pewnym ograniczeniem badania mogą być nie tylko
struktury powierzchniowe (jak leksyka czy składnia), ale również takie
determinanty kontekstu jak czynniki kulturowe czy tekstologiczne, które
również wpływają na rozumienie tekstu przez tłumacza. U tłumacza
z pewnością występuje przyjęty a priori wyższy poziom rozumienia tekstu niż
u pacjenta (laika). Należy również wziąć pod uwagę fakt, że zrozumienie tekstu
przyjmuje postać niejako subiektywnej interpretacji przez odbiorcę znaczenia
zawartego w przekazie, a zatem tłumacz buduje w procesie rozumienia jego
własną, indywidualną wersję, która jest pochodną również takiego czynnika jak
czytelność.
Rozumienie i przekład tekstów naukowych – w tym przypadku
medycznych – jest kwestią trudną i złożoną, bowiem wymaga od tłumacza
wiedzy specjalistycznej oraz umiejętności czytania i rozumienia tekstów z danej
dziedziny. Celem przekładu w tej sytuacji jest więc przybliżenie odbiorcy (który
jest specjalistą lub laikiem) tekstu w sposób wykraczający poza transfer znaczenia
na poziomie wyłącznie leksykalno-syntaktycznym. Z uwagi na znaczenie
przekładu tekstów medycznych dla ich potencjalnych użytkowników
i potencjalnych celów niezwykle istotna jest ich czytelność prowadząca do
zrozumienia ich treści, na co uwagę zwrócili już niemieccy teoretycy przekładu
kilka lat temu (Maksymski, Gutermuth, Hansen-Schirra 2015). Biorąc pod uwagę
rosnącą w tempie wykładniczym liczbę tekstów, których tłumaczenie służy
różnym grupom użytkowników, adekwatne tłumaczenie tekstów medycznych
jest niezwykle ważne. Istotny niedosyt prac badawczych w tej dziedzinie stanowi
asumpt do podjęcia dalszej debaty. Mamy nadzieję, że powyższy artykuł będzie
do niej przyczynkiem.
BIBLIOGRAFIA
Bartmiński, J., Niebrzegowska-Bartmińska, S. (2012). Tekstologia. Warszawa.
Bączkowska, A. (2019). Readability and lexical sophistication of colon cancer websites –
a corpus-assisted assessment of online educational materials for patients. Forum
Filologiczne Ateneum, 7(1), 9 -25. https://doi.org/10.36575/2353-2912/1(7)2019.009
Bączkowska, A. (2020a). Zrozumiałość przekładu tekstów użytkowych. Automatyczna analiza
tłumaczeń ulotek leków na cukrzycę, Studia Slavica, XXIV(1), 95-122.
Bączkowska, A. (2020b). Automatyczna analiza dyskursu medycznego. [W:] K. Pawlak-Osińska,
M. Śniegocki, M. Szpinda (red.) Nowoczesne trendy diagnostyki i terapii. Toruń, 551-567.
Bailin, A. & Grafstein, A. (2016). Readability: Text and context. Basingstoke.
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
33
Bazerman, C. (1994). Systems of genres and the enactment of social intentions. [w:] A. Freedman,
P. Medway (red.), Genre and the New Rhetoric. London: Taylor & Francis, 79-101.
Bhatia, V. K. (2002). Applied genre analysis. A multi-perspective model. Ibérica: Revista
de la Asociación Europea de Lenguas para Fines Específicos, t. 4, 3-19.
Boniecka, B. (1994). Tekst w kontekście (problemy metodologiczne), Polonica, 16, 43-67.
Broda, B., Maziarz, M., Piekot, T. & Radziszewski A. (2010). Trudność tekstów o funduszach
europejskich w świetle miar statystycznych, Rozprawy Komisji Językowej, 37, 23-40.
Brysbaert, M., Warriner, A. B. & Kuperman, V. (2013). Concretness ratings for 40 thousand
generally known English word lemmas, Behavior Research Methods, 46, 904-911.
Bublitz, W. (2011). Cohesion and coherence. [W:] J. Zienkowski, J.-O. Östman, J. Versschueren
(red). Discursive pragmatics. Amsterdam, 37–49.
Charzyńska, E. (2015). Badania ankietowe. [W:] W. Gruszczyński, M. Ogrodniczuk (red.),
Jasnopis, czyli mierzenie zrozumiałości polskich tekstów użytkowych. Warszawa,
77–108.
Charzyńska, E., Dębowski Ł., Gruszczyński, W. & Hadryan, M. (2015). Historia badań nad
zrozumiałością tekstu. [w:] W. Gruszczyński, M. Ogrodniczuk (red.). Jasnopis, czyli
mierzenie zrozumiałości polskich tekstów użytkowych. Warszawa, 11–38.
Clerehan, R., Buchbinder, R. & Moodie, J. (2005). A linguistic framework for assessing
the quality of written patient information: its use in assessing methotrexate information
for rheumatoid arthritis, Health Education Research, 20, 334–344.
Crossley, S. A., Kyle, K. & McNamara, D. S. (2016). The tool for the automatic analysis of text
cohesion (TAACO). Automatic assessment of local, global, and text cohesion, Behavior
Research Methods, 48(4), 1227–1237.
Crossley, S. A., Skalicky, S., Dascalu, M., McNamara, D. S. & Kyle, K. (2017). Predicting text
comprehension, processing, and familiarity in adult readers: New approaches to
readability formulas. Discourse Processes, 54(5-6), 340–359.
Crossley, S. A., Skalicky, S. & Dascalu, M. (2019). Moving beyond classic readability formulas.
New methods and new models, Journal of Research in Reading, 42(3-4), 541–561.
Davidson, A. & Kantor, R. N. (1982). On the failure of readability formulas to define readable
texts. A case study from adaptations. Reading Research Quarterly, 17(2), 187–209.
Doak, C. C., Doak, L. G. & Root J. H. (1996). Teaching patients with low literacy skills.
Philadelphia: J.B. Lippincott Company.
Dobrzyńska, T. (2009). Pojęcie tekstu. Tekst – całościowy komunikat. [W:] Z. Bilut-Homplewicz,
W. Czachura, M. Smykała (red.) Lingwistyka tekstu w Polsce i w Niemczech. Pojęcia,
problemy, perspektywy. (ss. 35–44). Wrocław.
Dobbs, T., Neal, G., Hutchings, H. A., Whitaker, I. S. & Milton J. (2017). The readability
of online patient resources for skin cancer treatment. Oncology and Therapy, 5, 149–160.
Ezpeleta-Piorno, P. (2012). An example of genre shift in the medicinal product information genre
system. Linguistica Antverpiensia, 11, 139–159.
Frantzi, K., Ananiadou, S., Mima, H. & Tsujii J. (2000). The C-value/NC-value method
of automatic recognition for multi-word terms. [W:] C. Nikolaou, C. Stephanidis (red.).
Research and advanced technology for digital libraries, Berlin, 585–604.
Gajda, S. (1982). Podstawy badań stylistycznych nad językiem naukowym. Warszawa.
Garner, M., Ning Z. & Francis J., 2012, A framework for the evaluation of patient information
leaflets. Health Expectations, 15(3), 283–294.
Gąsiorek, K., Hącia, A., Kłosińska, K., Krzyżyk, D., Nocoń J. & Synowiec, H. (2014). Kryteria
oceny podręcznika szkolnego w aspekcie językowym. https://www.gov.pl/web/edukacja/
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
34
wytyczne-edytorskie-i-jezykowe-do-opracowania-podrecznikow-oraz-wytyczne-do-
uniwersalnego-projektowania-graficznego-podrecznikow (dostęp: 30.11.2019).
Gonzalez Darriba, P. (2018). English to Spanish translated medical forms. A descriptive genre-
based corpus study. Translation & Interpreting, 10, 2, 122-141.
Grewal, P. & Alagaratnam, S. (2013). The quality and readability of colorectal cancer information
on the internet. International Journal of Surgery, 11(5), 410-413.
Gruszczyński, W. & Broda, B. (2015). Wprowadzenie. [W:] W. Gruszczyński, M. Ogrodniczuk
(red.). Jasnopis czyli mierzenie zrozumiałości polskich tekstów użytkowych. Warszawa,
1-9.
Gruszczyński, W. & Hadryan, M. (2015). Cechy tekstu trudnego. [W:] W. Gruszczyński,
M. Ogrodniczuk (red.). Jasnopis czyli mierzenie zrozumiałości polskich tekstów
użytkowych. Warszawa, 39-75.
Gruszczyński, W. & Ogrodniczuk, M. (red.) (2015). Jasnopis czyli mierzenie zrozumiałości
polskich tekstów użytkowych. Warszawa.
Halliday, M. A. & Hasan, R. (1976). Cohesion in English. London.
Huang, G., Fang, C. H., Agarwal, N., Bhagat N., Eloy J. A. & Langer P. D. (2015). Assessment
of online patient materials from major ophthalmologic associations, JAMA Ophthalmology,
133(4), 449-454.
Jakubíček, M., Kilgarriff, A., Kovář, V., Rychlý, P. & Suchomel, V. (2013). The Ten Ten corpus
family. [w:] 7th International Corpus Linguistics Conference CL 2013, Lancaster,
125-127.
Kandula, S. & Zeng-Treitler, Q. (2008). Creating a gold standard for the readability measurement
of health texts. AMIA Annual Symposium Proceedings Archive. 2008, 353–357.
Klare, G. R. (1963). The measurement of readability. Iowa.
Kobyliński, Ł. (2013). Improving the accuracy of Polish POS tagging by using voting ensembles.
[w:] Z. Vetulani (red.). Proceedings of the 6th Language and Technology Conference.
Human Language Technologies as a Challenge for Computer Science and Linguistics.
Poznań, 453–456.
Kobyliński, Ł. & Kieraś W. (2016). Part of speech tagging for Polish. State of the art and future
perspectives, [w:] Proceedings of the 17th International Conference on Intelligent Task
Processing and Computational Linguistics. http://nlp.ipipan.waw.pl/Bib/kob:kie:16.pdf
(dostęp: 16.04.2020).
Kobyliński, Ł., Wasiluk, M. & Wojdyga, G. (2018). Improving part-of-speech tagging by meta
learning, [w:] P. Sojka, A. Horák, I. Kopček, K. Pala (red.) Text, speech and dialogue.
Cham, 144–152.
Kościałkowska-Okońska, E. (2017). Tłumacz wobec wyzwań komunikacyjnych. Język tekstów
medycznych a oczekiwania odbiorcy. [W:] A. Knapik, A. Misior-Mroczkowska,
P. Chruszczewski, W. Chłopicki (red.), Język i komunikacja - Style komunikacyjne
(ss. 157-166). t. 39, Kraków: Tertium.
Kościałkowska-Okońska, E. (2019). Translating patient information leaflets. Expectations of users
and the realisty. [W:] W. Karwacka (red.), Towards understanding medical translation
and interpreting (ss. 137-159). Gdańsk: Wydawnictwo Uniwersytetu Gdańskiego.
Mamet, P. (2002). Kampania Plain English a angielski język specjalistyczny. [W:] J. Arabski
(red.). Z problematyki języków specjalistycznych. Katowice, 21-34.
McNamara, D. S., Kintsch, E., Songer, N. B. & Kintsch W. (1996). Are good texts always better?
Interactions of text coherence, background knowledge, and levels of understanding in
learning from text. Cognition and Instruction, 14, 1-43.
Leksykalna analiza zrozumiałości tekstów medycznych na podstawie opisów badań obrazowych...
35
McNamara, D. S., Graesser, A. C., McCarthy, P. M. & Cai, Z. (2014). Automated evaluation
of text and discourse with Coh-Metrix. Cambridge.
Maksymski, K., Gutermuth, S. & Hansen-Schirra, S. (red.) (2015). Translation
and comprehensibility. Berlin.
Montalt, V. & González Davies, M. (2007). Medical translation step by step. Learning by drafting.
Manchester: St Jerome Publishing.
Mosenthal, P. & Kirsch, I. (1998). A new measure of assessing document complexity.
The PMOSE/IKIRSCH document readability formula. Journal of Adolescent & Adult
Literacy, 8, 638-657.
Nielson-Bohlman, L., Panzer, A. & Kindig, D. (2004). Health literacy. A prescription
to end confusion. Washington.
Osborne, H. (2004). Health literacy from A To Z. Practical ways to communicate your health.
London.
Pieńkos, J. (2003). Podstawy przekładoznawstwa. Od teorii do praktyki. Kraków: Zakamycze.
Pisarek, W. (2007). O mediach i języku. Kraków.
Szałkiewicz, Ł. & Przepiórkowki, A. (2012). Anotacja morfoskładniowa. [W:] A. Przepiórkowski,
M. Bańko, R. L. Górski, B. Lewandowska-Tomaszczyk (red.) Narodowy Korpus Języka
Polskiego, Warszawa, 59–96.
Toury, G. (1995). Descriptive Translation Studies and beyond. Amsterdam: John Benjamins.
USDDH (2010). U.S. Department of Health and Human Services. Simply put: a guide for creating
easy-to-understand materials, Atlanta, G.A.
van Dijk, T. A. (2008). Text and context. Nowy Jork.
Wang, L. W., Miller M. J., Schmitt R. R. & Wen F. K. (2012). Assessing readability formula
differences with written health information materials. Application, results,
and recommendations. Research in Social & Administrative Pharmacy, 9, 5, 503–516.
Wojtak, M. (2005). Genologia tekstów użytkowych. [W:] M. Czermińska (red.), Polonistyka
w przebudowie (ss.132-148). t. 1. Kraków: Universitas.
Wolfer, S. (2015). Comprehension and comprehensibility. [W:], K. Maksymski, S. Gutermuth,
S. Hansen-Schirra (red.). Translation and comprehensibility. Berlin, 33-52.
Zarzeczny, G. & Piekot, T. (2017). Przystępność tekstów urzędowych w internecie. Wrocław.
Anna BĄCZKOWSKA, Ewa KOŚCIAŁKOWSKA-OKOŃSKA
36