Content uploaded by Piotr Potiopa
Author content
All content in this area was uploaded by Piotr Potiopa on Oct 21, 2017
Content may be subject to copyright.
AUTOMATYKA 2011 Tom 15 Zeszyt 2
* AGH Akademia Górniczo-Hutnicza, Wydzia³ Zarz¹dzania, Katedra Informatyki Stosowanej
409
Piotr Potiopa*
Metody i narzêdzia
automatycznego przetwarzania informacji tekstowej
i ich wykorzystanie w procesie zarz¹dzania wiedz¹
1. Wprowadzenie
Przewa¿aj¹ca wiêkszoæ informacji wykorzystywanych we wspó³czesnych firmach
i instytucjach przechowywana jest nadal w postaci informacji w jêzyku naturalnym. Stano-
wi on podstawowy nonik i rodek komunikacji w procesach dzielenia siê wiedz¹. Jedno-
czenie coraz wiêksze znaczenie maj¹ systemy i narzêdzia informatyczne, które umo¿liwia-
j¹ ³atwe i zautomatyzowane przetwarzanie danych i informacji przechowywanych w³anie
za pomoc¹ jêzyka naturalnego. Problematyka analizy tekstów, dokumentów od d³u¿szego
czasu w ró¿nych organizacjach nabieraj¹ coraz wiêkszego znaczenia. Zasadnie jest zatem,
aby zadania realizowane w zakresie zarz¹dzania wiedz¹, najbardziej w obszarze jej repre-
zentacji i ekstrakcji, spe³nia³y systemy przetwarzania jêzyka naturalnego.
Jednym z wa¿nych aspektów realizacji takich zadañ jest budowa odpowiednich onto-
logii dziedzinowych. S³u¿¹ one poprawnemu modelowaniu i reprezentacji struktur wiedzy
w sposób zarówno czytelny dla cz³owieka, jak i umo¿liwiaj¹cy jej przetwarzanie przez
komputer. Obecnie ontologie s¹ obiektem badañ w ro¿nych rodowiskach naukowych,
m.in. w in¿ynierii jêzyka naturalnego, w in¿ynierii systemów informatycznych, w in¿ynierii
wiedzy, a tak¿e w teorii zarz¹dzania wiedz¹ [1].
Drugim wa¿nym obszarem dzia³añ w zakresie zarz¹dzania wiedz¹ jest wyszukiwanie,
analiza i obróbka dokumentów zawieraj¹cych potrzebne nam informacje. Nierzadko infor-
macja zawarta w tych dokumentach stanowi bazê do rozwi¹zania aktualnych, nowych pro-
blemów wystepujacych w danym systemie wiedzy. Zdobywanie wiedzy i dzielenie siê prze-
sz³ymi dowiadczeniami do ponownego wykorzystania jest coraz bardziej istotne ze wzglê-
du na iloæ technicznych informacji, od których jestesmy uzale¿nieni obecnie. W systemach
zarz¹dzania wiedz¹ techniki te s¹ okrelane mianem wnioskowania na podstawie przypad-
ków (Case-Based Reasoning) [2].
410 Piotr Potiopa
Analizy tekstów w jêzyku naturalnym s¹ mo¿liwe dziêki, ju¿ dzi rozwiniêtym, meto-
dom jego przetwarzania. Wykorzystanie podejæ i metod takich jak: information retrieval,
information extraction, text mining czy natural language processing pozwala na budowanie
bazy wiedzy i na jej usystematyzowanie, a co za tym idzie na efektywne ni¹ zarz¹dzanie.
W tym artykule zostan¹ przedstawione metody analizy tekstów wykorzystuj¹ce znane
algorytmy wspomagaj¹ce ich przetwarzanie. Nacisk po³o¿ono na aspekty podobieñstwa do-
kumentów i technik zwi¹zanych z metodami jego okrelania. Przedstawiono te¿ przyk³ady
istniej¹cych narzêdzi obróbki i analizy dokumentów.
2. Metody wyszukiwania i analizy tekstu
W procesach wyszukiwania i analizy dokumentów tekstowych wyró¿nia siê m.in. na-
stêpuj¹ce metody:
Systemy wyszukiwania informacji (Information Retrieval, IR).
Rozumienie jêzyków naturalnych (Natural Language Processing).
Metody ekstrakcji informacji (Information Extraction, IE).
Metody eksploracji tekstu (Text Mining).
Poni¿ej zosta³y one wyjanione i opisane z uwzglêdnieniem technik jakie umo¿liwiaj¹
dzia³anie danej metody.
2.1. Information Retrieval
Information Retrieval, IR (wyszukiwanie informacji) jest okreleniem powszechnie
u¿ywanym, chocia¿ niezupe³nie trafnie. System wyszukiwania informacji nie tyle informu-
je u¿ytkownika na temat, który go interesuje, co informuje o istnieniu (lub jego braku) miej-
sca, gdzie dokument odpowiadaj¹cy wymaganiom u¿ytkownika siê znajduje [3]. W typo-
wym IR u¿ytkownik tworzy zapytanie, z³o¿one z jednego lub kilku wyrazów, na podstawie
którego system wyszukuje dokumenty. Wyró¿nia siê dwa g³ówne podejcia IR: model
boolowski (Boolean Logic Model, BLM) oraz rankingowy (ranked-output systems) [3, 8].
Zapytanie BML sk³ada siê ze s³ów lub fraz po³¹czonych logicznymi operatorami AND,
OR oraz NOT. Rezultatem zapytania jest zazwyczaj podzia³ zbioru dokumentów na dwie
czêci: jedn¹ zawieraj¹c¹ dopasowane dokumenty oraz drug¹ zawieraj¹c¹ dokumenty nie-
dopasowane. System rankingowy, stosuj¹c algebrê wektorów ocenia podobieñstwo treci
dokumentów z treci¹ zapytania i na tej podstawie dokonuje rankingu znalezionych doku-
mentow. Systemy rankingowe wykorzystuj¹ najczêciej nastêpuj¹ce modele do oceny po-
dobieñstwa dokumentów: model wektorowy (Vector Space Model, VSM), model probabili-
styczny (Probabilistic Model, PM), a tak¿e inne, m.in. Inference Network Model (INM).
Zalet¹ systemów IR jest dziedzinowa niezale¿noæ oraz elastycznoæ jêzykowa (zmiana
jêzyka nie wymaga zbyt wielu adaptacji). Natomiast do najwa¿niejszych ograniczeñ tych
Metody i narzêdzia automatycznego przetwarzania informacji tekstowej... 411
systemów nale¿y za³o¿enie niezale¿noci indeksów termów, co mo¿e prowadziæ do osza-
cowania zerowego podobieñstwa miêdzy dokumentami zawieraj¹cymi synonimiczne wy-
ra¿enia [3, 8].
2.2. Information Extraction
Zadaniem ekstrakcji informacji (Information Extraction, IE) jest zidentyfikowanie in-
stancji pewnej predefiniowanej klasy zdarzeñ, ich powi¹zañ oraz wyst¹pieñ w dokumen-
tach pisanych w jêzyku naturalnym [4]. W odró¿nieniu od systemów IR, systemy IE nie
wyszukuj¹ samych dokumentów, ale zgodnie z nazw¹ dokonuj¹ ekstrakcji informacji z ich
treci. Pozyskane informacje mog¹ zostaæ umieszczone w bazie danych. Informacja, jaka
bêdzie pozyskiwana z dokumentu, jest specyfikowana przez u¿ytkownika, który tworzy
wzorzec. Zawiera on okrelone sekcje – „dziury” (slots), ktore wype³niane s¹ fragmentami
tekstu. J¹dro systemu ekstrakcji informacji sk³ada siê z dwóch komponentów: procesora
tekstów (którym mo¿e byæ jedna z metod NLP) oraz generatora wzorców, które osadzone s¹
w wiedzy dziedzinowej. Zadaniem procesora tekstów jest analiza leksykalna tekstu (obec-
nie najczêciej stosuje siê p³ytk¹ analizê).
2.3. Text Mining
Text mining jest metodologi¹ wywodz¹c¹ siê z data mining, wyszukiwania informacji,
ekstrakcji danych, kategoryzacji tekstu, modelowania probabilistycznego, algebry liniowej,
uczenia maszynowego zastosowanych w celu wykrycia wiedzy z dokumentów tekstowych
[4]. Definicja wskazuje na podobieñstwo z technikami IE. Ekstrakcji informacji dokonuje
siê jednak zwykle w oparciu o znane wzorce, w przypadku text mining wzorce wychwyty-
wane s¹ dopiero w procesie przetwarzania dokumentu. Do typowych zadañ text mining
nale¿y: znajdowanie dokumentów najbardziej pasuj¹cych do zapytania u¿ytkownika, two-
rzenie rankingow dokumentów, grupowanie dokumentów (analiza skupieñ), klasyfikowa-
nie dokumentów (kategoryzacja), analiza powi¹zañ miêdzy jednostkami tekstu, dokonywa-
nie automatycznych streszczeñ dokumentów [4].
2.4. Natural Language Processing
Metody Natural Language Processing – NLP (rozumienie jêzyków naturalnych) za-
wieraj¹ mechanizmy próbuj¹ce dokonaæ „zrozumienia” kontekstu tekstu. W metodach tych
nie oblicza siê podobieñstwa termów, ale oznacza siê poszczególne czêci mowy (analiza
p³ytka) oraz szuka siê znaczenia danego wyra¿enia w kontekcie poprzez pe³n¹ analizê gra-
matyczn¹ (analiza g³êboka) [4].
Niektóre serwisy internetowe proponuj¹ u¿ytkownikom alternatywnie dla metod IR –
wyszukiwanie informacji poprzez systemy wzbogacone o NLP, co mo¿e daæ w wyniku le-
piej dopasowane do danego zapytania dokumenty. Metody NLP maj¹ jednak swoje wady,
nale¿¹ do nich: wiêksza z³o¿onoæ i czasoch³onnoæ (zw³aszcza g³êboka analiza), s¹ silnie
412 Piotr Potiopa
zwi¹zane z danym jêzykiem (adaptacja na inne jêzyki wymaga wiele pracy), trac¹ znacznie
swoj¹ skutecznoæ w przypadku wystêpowania w tekcie terminów spoza s³owników oraz
w przypadku analizy tekstów sporz¹dzonych jako krótkie notatki (doæ czêsto pozbawione
poprawnej struktury gramatycznej).
Analiza dokumentów tekstowych jest ³¹czona zwykle z metodami NLP (Natural Lan-
guage Processing). Skupia siê ona na pojedynczym dokumencie. Natomiast bazowy cha-
rakter ontologii z danego obszaru tematycznego wymaga dzia³añ szerszych, analizy du¿ych
wolumenów dokumentów (korpusu), na podstawie których bêdzie ona tworzona. Do tego
celu mo¿na zastosowaæ technikê wykorzystywan¹ przy analizie danych strukturalnych DM
(Data Mining). Czêsto okrela siê TM (Text Mining) jako DM dla dokumentów niestruktu-
ralnych (rys. 1) [5], w których szuka wzorców i szablonów.
Rys. 1. Techniki analizy danych strukturalnych i niestrukturalnych
Automatyczne przetwarzanie dokumentów jêzyka naturalnego obejmuje nastêpuj¹ce
zasadnicze fazy:
podzia³ tekstu wejciowego na zdania, tokeny, s³owa;
odrzucenie s³ów (tagów) nieistotnych (z tzw. stop-listy);
tematyzacja tzn. wybór s³ów istotnych i sprowadzenie ich do postaci podstawowe
(stemmer); s¹ stosowane dwie metody: regu³y gramatyki w algorytmie lub s³owniki;
automatyczne generowanie s³ów kluczowych, klasteryzacja dokumentów, ontologie,
tezaurusy itp.
Metody i narzêdzia automatycznego przetwarzania informacji tekstowej... 413
Z kolei sam proces analizy tekstu przebiega wg schematu przedstawionego na rysun-
ku 2 [5].
Rys. 2. Etapy analizy dokumentów
Tokeny pozwalaj¹ na podzia³ tekstu na proste elementy, czyli np.: liczby, punktacja,
s³owa. Proces ten jest uzalezniony od jêzyka, w jakim dany tekst zosta³ zbudowany i do
jakiego obszaru tematycznego siê odnosi. Dosyæ ³atwo go przeprowadziæ dla jêzyka nie-
mieckiego czy angielskiego, ale o wiele trudniej dla jêzyka polskiego, poniewa¿ gramatyka
jest tu bardziej z³o¿ona i wymaga z³o¿onej analizy tekstu wejciowego [5].
Wa¿nym aspektem jest równie¿ brak równowa¿noci miêdzy tekstami. Inny jest tekst
literacki, z publicznie dostêpnych gazet czy te¿ naukowy czêsto zawieraj¹cy obok termi-
nów naukowych rysunki wykresy, wzory matematyczne czy chemiczne, litery alfabetu
greckiego. Jak na razie brakuje idealnego programu, który by potrafi³ bezb³êdnie przetwo-
rzyæ ka¿dy dokument. Co prawda s¹ dostêpne narzêdzia zarówno komercyjne, jak i bezp³at-
ne umo¿liwiaj¹ce analizê tekstów, ale ich jakoæ jest ró¿na, od bardzo prostych po bardziej
zaawansowane. Wiele z nich dostosowana jest do jêzyków zachodnich, niektóre z nich po-
trafi¹ analizowaæ nawet teksty chiñskie czy te¿ japoñskie. Gorzej jest z jêzykiem polskim ze
wzglêdu na ma³y rynek dla takiego produktu. Aczkolwiek s¹ ju¿ dostêpne pewne rozwi¹za-
nia, które zostan¹ przedstawione w rozdziale 4.
Dokumenty
wejciowe
Analiza flexalna
i gramatyczna
Stop-lista
Stemmer
Dokumenty
przetworzone
414 Piotr Potiopa
Osobne zagadnienie to wymagany format wejciowy danych do systemu analizu-
j¹cego dokumenty. Na ogó³ jest to .txt, .html, rzadziej .doc czy .pdf. W przypadku innych
formatów ni¿ .txt systemy maj¹ wbudowane w³asne konwertery do wymaganego formatu.
A zatem czêsto trzeba dokonaæ konwersji dokumentu np. z formatu .pdf do .txt. Jednak
w przypadku dokumentów naukowych zawieraj¹cych wzory matematyczne, chemiczne,
specyficzne litery z ró¿nych jêzyków, otrzymuje siê postaæ wynikow¹ mocno zniekszta³co-
n¹ i bardzo odbiegaj¹c¹ od orygina³u.
Do analizy dokumentów testowych uzywa siê dedykowanych narzêdzi informatycz-
nych. Ogólnie mo¿na je podzieliæ na:
proste umo¿liwiaj¹ce uzyskanie podstawowych statystyk w dokumentach takich jak
czêstoæ wystêpowania, wspó³wystêpowania s³ów) (np.TextSTAT, AntConc);
silniki indeksowania i wyszukiwania informacji (np. Lucene, Windows Desktop
Search, Google, Yahoo);
zaawansowane pozwalaj¹ce na z³o¿on¹ analizê tekstów, z wykorzystaniem technik
klasteryzacji, wizualizacj¹ wyników i mo¿liwoci¹ budowania ontologii (np. SAS Text
Miner, Oracle Text, OntoGen Text Garden).
Wynikiem analizy fleksalnej i gramatycznej dokumentu jest zbiór s³ów. Tylko czêæ
z nich jest istotna dla treci. S³owa, które najczêciej wystêpuj¹ w wiêkszoci dokumentów
powinny zostaæ pominiête, poniewa¿ s¹ to zaimki, przyimki i spójniki. Nastêpny etap
stemming usuwa przyrostki i przedrostki oraz sprowadza s³owa do formy podstawowej
w oparciu o algorytmy rozpoznaj¹ce regu³y gramatyczne lub te¿ poprzez odwo³anie siê do
stosownych s³owników. Przyk³adem s³ownika dla jêzyka angielskiego mo¿e byæ WordNet.
Natomiast prace nad stworzeniem polskiego WordNetu s¹ prowadzone przez zespó³ kiero-
wany przez Politechnikê Wroc³awsk¹. Wiêcej informacji na ten temat jest dostêpnych pod
adresem [6]. Dokumenty s¹ przedstawiane jako zbiory s³ów (bag of words) z wyliczeniem,
jak czêsto ka¿de z nich wystêpuje w ka¿dym dokumencie (term-by-document frequency) [8].
3. Podobieñstwo dokumentów podstawy matematyczne
Przeszukiwanie danych niestrukturalnych (wyszukiwanie pe³notekstowe FTS) jest
technik¹ wydajnego przeszukiwania dokumentów o charakterze tekstowym, wykorzystuj¹-
c¹ specjalny rodzaj indeksów tzw. indeksy pe³notekstowe. FTS jest oparty na modelu
przestrzeni wielowymiarowej. Tworz¹ j¹ wszystkie s³owa zawarte w przetwarzanych doku-
mentach. Dokument mo¿na interpretowaæ jako wektor sk³adaj¹cy siê z n s³ów, gdzie ka¿da
wspó³rzêdna okrela czêstoæ wyst¹pieñ danego s³owa w danym dokumencie. Analizy
zbioru dokumentów mo¿na dokonaæ, buduj¹c macierz term-by-document frequency [78].
Dla przyk³adowych dwóch dokumentów mo¿e ona wygl¹daæ nastêpuj¹co (tab. 1):
D1 – The cat is black
D2 – Black cat is my cat
Metody i narzêdzia automatycznego przetwarzania informacji tekstowej... 415
Tabela 1
Przyk³adowa macierz term-by-document frequency
Wa¿noæ s³ów w macierzy mo¿na zwiêkszaæ lub zmniejszaæ, stosuj¹c wspó³czynniki
zwane wagami (aij, gdzie i, j to odpowiednio indeksy wierszy i kolumn w rozpatrywanej
macierzy). Otrzymujemy wówczas macierz wa¿onej czêstotliwoci.
Rozró¿niamy nastêpuj¹ce wagi:
frequency Weight (dotyczy wystêpowania samego wyra¿enia),
term Weight (dotyczy liczby wyst¹pieñ danego wyra¿enia w ca³ej kolekcji zbiorze
dokumentów).
Frequency Weight precyzuje metodê okrelania czêstoci wystêpowania okrelo-
nych zwrotów w dokumencie. Mo¿na tutaj wymieniæ nastêpuj¹ce metody [8]:
binarna (waga wij = 1 w przypadku wystêpowania zwrotu, a wij = 0 przypadku jego
braku;
logarytmiczna 2
log ( 1)
ij ij
wa
=+
(logarytm przy podstawie 2 z liczby okrelaj¹cej czê-
stoæ wystêpowania s³owa pomniejsza wagê s³ów, które siê czêsto powtarzaj¹);
none (czêstotliwoæ wystêpowania s³ów bez modyfikacji: wij = aij).
Term weight – wagowanie zwrotu mo¿na okrelaæ m.in. za pomoc¹ metod [8]:
Entropy przypisuje najwy¿sz¹ wagê s³owom, które wyst¹pi³y najrzadziej w danym
dokumencie;
IDF (Inverse Document Frequency) waga jest odwrotnoci¹ liczby dokumentów,
w których pojawi³ siê dany zwrot;
GF-IDF (Global Frequency-Inverse Document Frequency) obliczamy mno¿¹c IDF
przez ca³kowit¹ czêstotliwoæ;
Normal waga ta jest proporcjonalna to iloci wyst¹pienia danego s³owa w doku-
mencie;
None ka¿demu zwrotowi przypisuje siê wagê 1;
Chi-Squared wykorzystuje wartoæ testu Chi-kwadrat;
Mutual Information pokazuje jak rozk³ad dokumentów z wyra¿eniem i, znajduje siê
blisko rozk³adu dokumentów w ca³ym zbiorze;
Information Gain okrela oczekiwan¹ redukcjê w Entropy w przypadku podzieleniu
zbioru dokumentów wed³ug tego wyra¿enia i.
the cat is black my
D1 1 1 1 1 0
D2 0 2 1 1 1
416 Piotr Potiopa
Istnieje wiele algorytmów wagowania macierzy, takich jak algorytm modelu przestrze-
ni wektorowej, algorytm TF-IDF i tak dalej. Algorytmy wagowania w po³¹czeniu z algoryt-
mem mierzenia podobieñstwa wektorów, takim jak na przyk³ad miara kosinusowa lub
wspó³czynnik Jaccarda tworz¹ skuteczn¹ metodê miary podobieñstwa dokumentów.
3.1. TF-IDF
Waga TF-IDF (term frequency–inverse document frequency) jest czêsto u¿ywana
w metodach information retrieval i text mining. Mimo ¿e TF-IDF jest doæ wiekowym al-
gorytmem wagowania, jest prosty i skuteczny. TF-IDF polega na ustalaniu wzglêdnej czê-
stotliwoci s³ów w danym, lokalnym dokumencie i porównaniu z odwrócon¹ czêstotliwo-
ci¹ s³owa w ca³ej kolekcji dokumentów. Dla ka¿dego s³owa jego TF (term frequency) jest
wzgledn¹ czêstotliwoci¹ wyst¹pieñ tego s³owa w kolekcji dokumentów, które stanowi
wa¿noæ s³owa wewn¹trz danego dokumentu, a jego IDF (inverse document frequency) jest
odwrotnie proporcjonalna do wystapieñ s³owa w odniesieniu do korpusu dokumentu, czyli
przedstawia znaczenie tego s³owa w ca³ej kolekcji dokumentów [8–9].
Algorytm dzia³a w nastêpuj¹cy sposób:
maj¹c:
D – kolekcja dokumentów,
d – dany dokument, dla którego d ∈D,
w s³owo wystêpuj¹ce w dokumencie d,
obliczamy:
,,
log( |D| )
dwd wD
wf f a
=∗ (1)
gdzie fw,d jest iloci¹ wyst¹pieñ s³owa w dokumencie d, |D| jest rozmiarem korpusu doku-
mentu oraz fw,D jest iloci¹ dokumentów, w których wystêpuje s³owo w. Czasami przy du-
¿ych kolekcjach dokumentów mo¿emy dokonaæ normalizacji czêci TF, stosuj¹c technikê
redukcji wymiaru SVD (Singular Value Decomposition). Redukcja pomog¹ nam zmniej-
szyæ iloæ wymiarów i przybli¿yæ macierz wa¿onej czêstotliwoci [8–9].
3.2. Miara kosinusowa
Miara kosinusowa jest wydajnym algorytmem obliczania podobieñstwa w przypad-
ku tekstów. Podstawowym za³o¿eniem tej metody obliczania podobieñstwa jest nastêpu-
j¹ca idea:
Dla dwóch punktów A, B na skali xy jak pokazuje rysunek 3, podobieñstwa miêdzy A
i B s¹ zdefiniowane nastêpuj¹co:
(
,
)
cos
||||
Sim A B A B A B
=Θ=⋅ (2)
Metody i narzêdzia automatycznego przetwarzania informacji tekstowej... 417
gdzie Sim(A, B) jest podobieñstwem dokumentu A do dokumentu B, A·B jest iloczynem
skalarnym wektorów A i B, który to równa siê: x1*x2 + y1*y2, |A||B| okrela odleg³oæ
pomiêdzy A i B, która jest okrelona wzorem: (x12 + y12)1/2 (x22 + y22)1/2 [8, 10].
Rys. 3. Wspó³rzêdne punktów A i B na dwuwymiarowej skali liczbowej
4. Przyk³ady narzêdzi do analizy tekstów
Do analizy danych tekstowych dostêpne s¹ narzêdzia zarówno ogólnodostêpne typu
open source, jak i komercyjne. Ich mo¿liwoci s¹ bardzo zró¿nicowane od prostych poda-
j¹cych podstawowe informacje statystyczne na temat dokumentów po bardziej wyrafino-
wanie systemy buduj¹ce ontologie pojêæ lub maj¹ce wbudowane zaawansowane algorytmy
analizy sk³adni. Wszystkie dobrze sobie radz¹ z jêzykami zachodnimi, chiñskim czy nawet
japoñskim. Problem jest z jêzykiem polskim. Nie dotyczy on tylko sposobu kodowania pol-
skich znaków, ale i programów analizuj¹cych sk³adniê. W ramach opracowania przeanali-
zowano kilka wybranych narzêdzi.
4.1. TextSTAT
TextSTAT to prosty program do analizy tekstów. Potrafi on obs³ugiwaæ pliki ASCII/
ANSI, HTML, formaty MS Word (.doc i .docx) oraz OpenOffice (sxw i .odt), z których
tworzy listê czêstotliwoci wystêpowania poszczególnych s³ów, ma mo¿liwoæ tworzenia
konkordancji oraz list frekwencyjnych. TextStat posiada a¿ 6 wersji jêzykowych interfejsu
(równie¿ j. polski) i pracuje we wszystkich systemach operacyjnych. To co wyró¿nia go
sporód innych darmowych programów tego typu, to mo¿liwoæ tworzenia korpusu ze stron
internetowych wczytywanych przez program bezporednio z sieci. Niestety, program nie
posiada kilku istotnych funkcji, takich jak tworzenie listy s³ów kluczowych czy wyszuki-
wanie kolokacji oraz ci¹gów wielowyrazowych [11].
418 Piotr Potiopa
4.2. AntConc
AntConc to darmowy program do analizy tekstów oferuj¹cy szeroki wachlarz funkcji.
Wród nich znajduje siê tworzenie konkordancji, list frekwencyjnych, list s³ów kluczowych
i wykresów dystrybucji, a tak¿e wyszukiwanie ci¹gów wielowyrazowych i kolokacji. Przy-
jazny interfejs, szybkoæ wykonywanych analiz i funkcjonalnoæ dorównuj¹ca wielu ko-
mercyjnym aplikacjom sprawiaj¹, ¿e AntConc jest szczególnie godny polecenia zarówno
dla osób stawiaj¹cych swoje pierwsze kroki w pracy z korpusami dokumentów, jak i dla
bardziej zaawansowanych u¿ytkowników [12].
4.3. WordSmith
WordSmith Tools to prawdopodobnie najbardziej popularny w orodkach akademic-
kich pakiet narzêdzi do analizy danych tekstowych. Oferuje imponuj¹cy wachlarz funkcji
oraz mo¿liwoci dostosowania poszczególnych narzêdzi do konkretnych zadañ. Obs³uguje
znaczniki, dzia³a szybko i dobrze radzi sobie nawet z du¿ymi korpusami. WordSmith Tools
dzia³a w Windows oraz Mac OS X.Pe³na wersja oprogramowania jest p³atna, ale istnieje
mo¿liwoæ wypróbowania wersji demo o ograniczonej funkcjonalnoci.Program opiera siê
na trzech podstawowych funkcjach: konkordancja (Concord), lista s³ów kluczowych (Key-
Word) oraz lista frekwencyjna (WordList) [12].
4.4. Poliqarp
Poliqarp to darmowe oprogramowanie do przeszukiwania du¿ych korpusów. Powsta³
w efekcie prac nad Korpusem IPI PAN i obs³uguje ten korpus zarówno w wersji on-line, jak
i off-line. Dziêki przejrzystemu interfejsowi korzystanie z podstawowych funkcji programu
oraz wykorzystanie jego mo¿liwoci konfiguracyjnych nie powinno sprawiaæ trudnoci na-
wet pocz¹tkuj¹cym u¿ytkownikom. Program mo¿na uruchamiaæ zarówno w rodowisku
Windows, jak i Linux. Dodatkowym atutem jest fakt, ¿e istniej¹ dwie wersje jêzykowe
polska i angielska. Poliqarp daje mo¿liwoæ wyszukiwania okrelonych s³ów czy fraz. Po-
zwala tak¿e na znajdowanie sekwencji okrelanych za pomoc¹ wyra¿eñ regularnych, na
przyk³ad: wszystkich wystêpuj¹cych w korpusie fraz sk³adaj¹cych siê z rzeczownika i przy-
miotnika lub wszystkich form fleksyjnych wybranego wyrazu (funkcja szczególnie przy-
datna w przypadku badañ nad jêzykiem polskim). Operacje te, zarówno w wersji on-line,
jak i off-line, przebiegaj¹ doæ szybko przy prostych zapytaniach wyszukiwanie nie zaj-
muje wiêcej ni¿ kilka sekund. [12-13]
5. Podsumowanie
Technologie przetwarzania jêzyka naturalnego mo¿na wskazywaæ jako jedne z podsta-
wowych dla technologii zarz¹dzania wiedz¹, poniewa¿ umo¿liwiaj¹:
Metody i narzêdzia automatycznego przetwarzania informacji tekstowej... 419
automatyczne przetwarzanie dokumentów (treci) np. WWW,
maszynowo przetwarzane opisywanie (annotation) tekstów w jêzyku naturalnym za
pomoc¹ pojêæ zawartych w ontologii,
odkrywanie nowych elementów ontologii (tj. pojêæ, klas, instancji, atrybutów, relacji,
twierdzeñ),
automatyczne wyszukiwanie elementów wiedzy.
Wymienione aspekty mo¿na traktowaæ w wietle automatyzacji t³umaczenia tekstów
zapisanych w jêzyku naturalnym na sformalizowany jêzyk reprezentacji wiedzy. Tak po-
stawione zagadnienie, tzn. automatyzacja translacji tekstów w jêzyku naturalnym na
jêzyk formalny, jest jednym z najbardziej po¿¹danych i obiecuj¹cych kierunków wspó³cze-
snych badañ w dziedzinie systemów zarz¹dzania wiedz¹. Celem automatyzacji jest tworze-
nie baz wiedzy zapisanej w jêzyku sformalizowanym, umo¿liwiaj¹cym operowanie t¹ wie-
dz¹ w sposób automatyczny.
Literatura
[1] Go³uchowski J., Technologie informatyczne w zarz¹dzaniu wiedz¹ w organizacji. AE, Katowice
2005.
[2] Aamodt A., Plaza E., Case-Based Reasoning: Foundational Issues. Methodological Variations,
and System Approaches, AICom, Artificial Intelligence Communications, IOS Press 1994.
[3] Tomassen S.L., Semi-automatic generation of ontologies for knowledge-intensive CBR. Norwe-
gian University of Science and Technology, 2002.
[4] Filipowska A., Jak zaoszczêdziæ na czytaniu? Automatyczne tworzenie abstraktów z dokumentów.
http://www.gazeta-it.pl/pl/trendy/6011, Gazeta IT nr 3, marzec 2004.
[5] Wybrane problemy zarz¹dzania wiedz¹. Instytut £¹cznoci, Pañstwowy Instytut Badawczy, Praca
nr 06300017, 2007.
[6] http://plwordnet.pwr.wroc.pl, 2011.
[7] Ikonomakis M., Kotsiantis S., Tampakas V., Text Classification Using Machine Learning Techni-
ques. WSEAS TRANSACTIONS on COMPUTERS, Issue 8, vol. 4, August 2005, 966974.
[8] K³opotek M.A., Inteligentne wyszukiwarki internetowe. Exit, 2001.
[9] Ramos J., Using TF-IDF to Determine Word Relevance in Document Queries. http://citese-
erx.ist.psu.edu/viewdoc/download?doi=10.1.1.121.1424&rep=rep1&type=pdf, 2011.
[10] http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html, 2011.
[11] http://neon.niederlandistik.fu-berlin.de/en/textstat/, 2011.
[12] http://www.korpusy.net/index.php/narzdzia/programy-do-analizy, 2011.
[13] http://korpus.pl/index.php?page=poliqarp 2011.