ArticlePDF Available

Metody i narzędzia automatycznego przetwarzania informacji tekstowej i ich wykorzystanie w procesie zarządzania wiedzą

Authors:

Abstract and Figures

Tematem niniejszego artykułu jest przegląd metod i narzędzi służących reprezentacji i przetwarzaniu informacji, która jest aktualnie jednym z podstawowych środków budowania i zarządzania w każdej organizacji. Sprawne funkcjonowanie każdej instytucji uzależnione jest od dostępu do przechowywanej w niej wiedzy, jak również możliwości sprawnego jej wyszukiwania, systematyzowania i podejmowania na jej podstawie nowych decyzji.
No caption available
… 
Content may be subject to copyright.
AUTOMATYKA  2011  Tom 15  Zeszyt 2
* AGH Akademia Górniczo-Hutnicza, Wydzia³ Zarz¹dzania, Katedra Informatyki Stosowanej
409
Piotr Potiopa*
Metody i narzêdzia
automatycznego przetwarzania informacji tekstowej
i ich wykorzystanie w procesie zarz¹dzania wiedz¹
1. Wprowadzenie
Przewa¿aj¹ca wiêkszoæ informacji wykorzystywanych we wspó³czesnych firmach
i instytucjach przechowywana jest nadal w postaci informacji w jêzyku naturalnym. Stano-
wi on podstawowy nonik i rodek komunikacji w procesach dzielenia siê wiedz¹. Jedno-
czenie coraz wiêksze znaczenie maj¹ systemy i narzêdzia informatyczne, które umo¿liwia-
³atwe i zautomatyzowane przetwarzanie danych i informacji przechowywanych w³anie
za pomoc¹ jêzyka naturalnego. Problematyka analizy tekstów, dokumentów od d³u¿szego
czasu w ró¿nych organizacjach nabieracoraz wiêkszego znaczenia. Zasadnie jest zatem,
aby zadania realizowane w zakresie zarz¹dzania wiedz¹, najbardziej w obszarze jej repre-
zentacji i ekstrakcji, spe³nia³y systemy przetwarzania jêzyka naturalnego.
Jednym z wa¿nych aspektów realizacji takich zadañ jest budowa odpowiednich onto-
logii dziedzinowych. S³u¿¹ one poprawnemu modelowaniu i reprezentacji struktur wiedzy
w sposób zarówno czytelny dla cz³owieka, jak i umo¿liwiaj¹cy jej przetwarzanie przez
komputer. Obecnie ontologie s¹ obiektem badañ w ro¿nych rodowiskach naukowych,
m.in. w in¿ynierii jêzyka naturalnego, w in¿ynierii systemów informatycznych, w in¿ynierii
wiedzy, a tak¿e w teorii zarz¹dzania wiedz¹ [1].
Drugim wa¿nym obszarem dzia³añ w zakresie zarz¹dzania wiedz¹ jest wyszukiwanie,
analiza i obróbka dokumentów zawieraj¹cych potrzebne nam informacje. Nierzadko infor-
macja zawarta w tych dokumentach stanowi bazê do rozwi¹zania aktualnych, nowych pro-
blemów wystepujacych w danym systemie wiedzy. Zdobywanie wiedzy i dzielenie siê prze-
sz³ymi dowiadczeniami do ponownego wykorzystania jest coraz bardziej istotne ze wzglê-
du na iloæ technicznych informacji, od których jestesmy uzale¿nieni obecnie. W systemach
zarz¹dzania wiedz¹ techniki te okrelane mianem wnioskowania na podstawie przypad-
ków (Case-Based Reasoning) [2].
410 Piotr Potiopa
Analizy tekstów w jêzyku naturalnym s¹ mo¿liwe dziêki, ju¿ dzi rozwiniêtym, meto-
dom jego przetwarzania. Wykorzystanie podejæ i metod takich jak: information retrieval,
information extraction, text mining czy natural language processing pozwala na budowanie
bazy wiedzy i na jej usystematyzowanie, a co za tym idzie na efektywne ni¹ zarz¹dzanie.
W tym artykule zostan¹ przedstawione metody analizy tekstów wykorzystuj¹ce znane
algorytmy wspomagaj¹ce ich przetwarzanie. Nacisk po³o¿ono na aspekty podobieñstwa do-
kumentów i technik zwi¹zanych z metodami jego okrelania. Przedstawiono te¿ przyk³ady
istniej¹cych narzêdzi obróbki i analizy dokumentów.
2. Metody wyszukiwania i analizy tekstu
W procesach wyszukiwania i analizy dokumentów tekstowych wyró¿nia siê m.in. na-
stêpuj¹ce metody:
Systemy wyszukiwania informacji (Information Retrieval, IR).
Rozumienie jêzyków naturalnych (Natural Language Processing).
Metody ekstrakcji informacji (Information Extraction, IE).
Metody eksploracji tekstu (Text Mining).
Poni¿ej zosta³y one wyjanione i opisane z uwzglêdnieniem technik jakie umo¿liwiaj¹
dzia³anie danej metody.
2.1. Information Retrieval
Information Retrieval, IR (wyszukiwanie informacji) jest okreleniem powszechnie
u¿ywanym, chocia¿ niezupe³nie trafnie. System wyszukiwania informacji nie tyle informu-
je u¿ytkownika na temat, który go interesuje, co informuje o istnieniu (lub jego braku) miej-
sca, gdzie dokument odpowiadaj¹cy wymaganiom u¿ytkownika siê znajduje [3]. W typo-
wym IR u¿ytkownik tworzy zapytanie, z³o¿one z jednego lub kilku wyrazów, na podstawie
którego system wyszukuje dokumenty. Wyró¿nia siê dwa g³ówne podejcia IR: model
boolowski (Boolean Logic Model, BLM) oraz rankingowy (ranked-output systems) [3, 8].
Zapytanie BML sk³ada siê ze s³ów lub fraz po³¹czonych logicznymi operatorami AND,
OR oraz NOT. Rezultatem zapytania jest zazwyczaj podzia³ zbioru dokumentów na dwie
czêci: jedn¹ zawieraj¹c¹ dopasowane dokumenty oraz drug¹ zawieraj¹c¹ dokumenty nie-
dopasowane. System rankingowy, stosuj¹c algebrê wektorów ocenia podobieñstwo treci
dokumentów z treci¹ zapytania i na tej podstawie dokonuje rankingu znalezionych doku-
mentow. Systemy rankingowe wykorzystuj¹ najczêciej nastêpuj¹ce modele do oceny po-
dobieñstwa dokumentów: model wektorowy (Vector Space Model, VSM), model probabili-
styczny (Probabilistic Model, PM), a tak¿e inne, m.in. Inference Network Model (INM).
Zalet¹ systemów IR jest dziedzinowa niezale¿noæ oraz elastycznoæ jêzykowa (zmiana
jêzyka nie wymaga zbyt wielu adaptacji). Natomiast do najwa¿niejszych ograniczeñ tych
Metody i narzêdzia automatycznego przetwarzania informacji tekstowej... 411
systemów nale¿y za³o¿enie niezale¿noci indeksów termów, co mo¿e prowadziæ do osza-
cowania zerowego podobieñstwa miêdzy dokumentami zawieraj¹cymi synonimiczne wy-
ra¿enia [3, 8].
2.2. Information Extraction
Zadaniem ekstrakcji informacji (Information Extraction, IE) jest zidentyfikowanie in-
stancji pewnej predefiniowanej klasy zdarzeñ, ich powi¹zañ oraz wyst¹pieñ w dokumen-
tach pisanych w jêzyku naturalnym [4]. W odró¿nieniu od systemów IR, systemy IE nie
wyszukuj¹ samych dokumentów, ale zgodnie z nazw¹ dokonuj¹ ekstrakcji informacji z ich
treci. Pozyskane informacje mog¹ zostaæ umieszczone w bazie danych. Informacja, jaka
bêdzie pozyskiwana z dokumentu, jest specyfikowana przez u¿ytkownika, który tworzy
wzorzec. Zawiera on okrelone sekcje – „dziury” (slots), ktore wype³niane s¹ fragmentami
tekstu. J¹dro systemu ekstrakcji informacji sk³ada siê z dwóch komponentów: procesora
tekstów (którym mo¿e byæ jedna z metod NLP) oraz generatora wzorców, które osadzone s¹
w wiedzy dziedzinowej. Zadaniem procesora tekstów jest analiza leksykalna tekstu (obec-
nie najczêciej stosuje siê p³ytk¹ analizê).
2.3. Text Mining
Text mining jest metodologi¹ wywodz¹c¹ siê z data mining, wyszukiwania informacji,
ekstrakcji danych, kategoryzacji tekstu, modelowania probabilistycznego, algebry liniowej,
uczenia maszynowego zastosowanych w celu wykrycia wiedzy z dokumentów tekstowych
[4]. Definicja wskazuje na podobieñstwo z technikami IE. Ekstrakcji informacji dokonuje
siê jednak zwykle w oparciu o znane wzorce, w przypadku text mining wzorce wychwyty-
wane s¹ dopiero w procesie przetwarzania dokumentu. Do typowych zadañ text mining
nale¿y: znajdowanie dokumentów najbardziej pasuj¹cych do zapytania u¿ytkownika, two-
rzenie rankingow dokumentów, grupowanie dokumentów (analiza skupieñ), klasyfikowa-
nie dokumentów (kategoryzacja), analiza powi¹zañ miêdzy jednostkami tekstu, dokonywa-
nie automatycznych streszczeñ dokumentów [4].
2.4. Natural Language Processing
Metody Natural Language ProcessingNLP (rozumienie jêzyków naturalnych) za-
wieraj¹ mechanizmy próbuj¹ce dokonaæ „zrozumienia” kontekstu tekstu. W metodach tych
nie oblicza siê podobieñstwa termów, ale oznacza siê poszczególne czêci mowy (analiza
p³ytka) oraz szuka siê znaczenia danego wyra¿enia w kontekcie poprzez pe³n¹ analizê gra-
matyczn¹ (analiza g³êboka) [4].
Niektóre serwisy internetowe proponuj¹ u¿ytkownikom alternatywnie dla metod IR –
wyszukiwanie informacji poprzez systemy wzbogacone o NLP, co mo¿e daæ w wyniku le-
piej dopasowane do danego zapytania dokumenty. Metody NLP maj¹ jednak swoje wady,
nale¿¹ do nich: wiêksza z³o¿onoæ i czasoch³onnoæ (zw³aszcza g³êboka analiza), s¹ silnie
412 Piotr Potiopa
zwi¹zane z danym jêzykiem (adaptacja na inne jêzyki wymaga wiele pracy), trac¹ znacznie
swoj¹ skutecznoæ w przypadku wystêpowania w tekcie terminów spoza s³owników oraz
w przypadku analizy tekstów sporz¹dzonych jako krótkie notatki (doæ czêsto pozbawione
poprawnej struktury gramatycznej).
Analiza dokumentów tekstowych jest ³¹czona zwykle z metodami NLP (Natural Lan-
guage Processing). Skupia siê ona na pojedynczym dokumencie. Natomiast bazowy cha-
rakter ontologii z danego obszaru tematycznego wymaga dzia³añ szerszych, analizy du¿ych
wolumenów dokumentów (korpusu), na podstawie których bêdzie ona tworzona. Do tego
celu mo¿na zastosowaæ technikê wykorzystywan¹ przy analizie danych strukturalnych DM
(Data Mining). Czêsto okrela siê TM (Text Mining) jako DM dla dokumentów niestruktu-
ralnych (rys. 1) [5], w których szuka wzorców i szablonów.
Rys. 1. Techniki analizy danych strukturalnych i niestrukturalnych
Automatyczne przetwarzanie dokumentów jêzyka naturalnego obejmuje nastêpuj¹ce
zasadnicze fazy:
podzia³ tekstu wejciowego na zdania, tokeny, s³owa;
odrzucenie s³ów (tagów) nieistotnych (z tzw. stop-listy);
tematyzacja tzn. wybór s³ów istotnych i sprowadzenie ich do postaci podstawowe
(stemmer); s¹ stosowane dwie metody: regu³y gramatyki w algorytmie lub s³owniki;
automatyczne generowanie s³ów kluczowych, klasteryzacja dokumentów, ontologie,
tezaurusy itp.
Metody i narzêdzia automatycznego przetwarzania informacji tekstowej... 413
Z kolei sam proces analizy tekstu przebiega wg schematu przedstawionego na rysun-
ku 2 [5].
Rys. 2. Etapy analizy dokumentów
Tokeny pozwalaj¹ na podzia³ tekstu na proste elementy, czyli np.: liczby, punktacja,
s³owa. Proces ten jest uzalezniony od jêzyka, w jakim dany tekst zosta³ zbudowany i do
jakiego obszaru tematycznego siê odnosi. Dosyæ ³atwo go przeprowadziæ dla jêzyka nie-
mieckiego czy angielskiego, ale o wiele trudniej dla jêzyka polskiego, poniewa¿ gramatyka
jest tu bardziej z³o¿ona i wymaga z³o¿onej analizy tekstu wejciowego [5].
Wa¿nym aspektem jest równie¿ brak równowa¿noci miêdzy tekstami. Inny jest tekst
literacki, z publicznie dostêpnych gazet czy te¿ naukowy czêsto zawieraj¹cy obok termi-
nów naukowych rysunki wykresy, wzory matematyczne czy chemiczne, litery alfabetu
greckiego. Jak na razie brakuje idealnego programu, który by potrafi³ bezb³êdnie przetwo-
rzyæ ka¿dy dokument. Co prawda dostêpne narzêdzia zarówno komercyjne, jak i bezp³at-
ne umo¿liwiaj¹ce analizê tekstów, ale ich jakoæ jest ró¿na, od bardzo prostych po bardziej
zaawansowane. Wiele z nich dostosowana jest do jêzyków zachodnich, niektóre z nich po-
trafi¹ analizowaæ nawet teksty chiñskie czy te¿ japoñskie. Gorzej jest z jêzykiem polskim ze
wzglêdu na ma³y rynek dla takiego produktu. Aczkolwiek ju¿ dostêpne pewne rozwi¹za-
nia, które zostan¹ przedstawione w rozdziale 4.
Dokumenty
wejciowe
Analiza flexalna
i gramatyczna
Stop-lista
Stemmer
Dokumenty
przetworzone
414 Piotr Potiopa
Osobne zagadnienie to wymagany format wejciowy danych do systemu analizu-
j¹cego dokumenty. Na ogó³ jest to .txt, .html, rzadziej .doc czy .pdf. W przypadku innych
formatów ni¿ .txt systemy maj¹ wbudowane w³asne konwertery do wymaganego formatu.
A zatem czêsto trzeba dokonaæ konwersji dokumentu np. z formatu .pdf do .txt. Jednak
w przypadku dokumentów naukowych zawieraj¹cych wzory matematyczne, chemiczne,
specyficzne litery z ró¿nych jêzyków, otrzymuje siê postaæ wynikow¹ mocno zniekszta³co-
n¹ i bardzo odbiegaj¹c¹ od orygina³u.
Do analizy dokumentów testowych uzywa siê dedykowanych narzêdzi informatycz-
nych. Ogólnie mo¿na je podzieliæ na:
proste  umo¿liwiaj¹ce uzyskanie podstawowych statystyk w dokumentach takich jak
czêstoæ wystêpowania, wspó³wystêpowania s³ów) (np.TextSTAT, AntConc);
silniki indeksowania i wyszukiwania informacji (np. Lucene, Windows Desktop
Search, Google, Yahoo);
zaawansowane pozwalaj¹ce na z³o¿on¹ analizê tekstów, z wykorzystaniem technik
klasteryzacji, wizualizacj¹ wyników i mo¿liwoci¹ budowania ontologii (np. SAS Text
Miner, Oracle Text, OntoGen Text Garden).
Wynikiem analizy fleksalnej i gramatycznej dokumentu jest zbiór s³ów. Tylko czêæ
z nich jest istotna dla treci. S³owa, które najczêciej wystêpuj¹ w wiêkszoci dokumentów
powinny zostaæ pominiête, poniewa¿ to zaimki, przyimki i spójniki. Nastêpny etap
stemming usuwa przyrostki i przedrostki oraz sprowadza s³owa do formy podstawowej
w oparciu o algorytmy rozpoznaj¹ce regu³y gramatyczne lub te¿ poprzez odwo³anie siê do
stosownych s³owników. Przyk³adem s³ownika dla jêzyka angielskiego mo¿e byæ WordNet.
Natomiast prace nad stworzeniem polskiego WordNetu prowadzone przez zespó³ kiero-
wany przez Politechnikê Wroc³awsk¹. Wiêcej informacji na ten temat jest dostêpnych pod
adresem [6]. Dokumenty przedstawiane jako zbiory s³ów (bag of words) z wyliczeniem,
jak czêsto ka¿de z nich wystêpuje w ka¿dym dokumencie (term-by-document frequency) [8].
3. Podobieñstwo dokumentów podstawy matematyczne
Przeszukiwanie danych niestrukturalnych (wyszukiwanie pe³notekstowe FTS) jest
technik¹ wydajnego przeszukiwania dokumentów o charakterze tekstowym, wykorzystuj¹-
specjalny rodzaj indeksów tzw. indeksy pe³notekstowe. FTS jest oparty na modelu
przestrzeni wielowymiarowej. Tworz¹ j¹ wszystkie s³owa zawarte w przetwarzanych doku-
mentach. Dokument mo¿na interpretowaæ jako wektor sk³adaj¹cy siê z n s³ów, gdzie ka¿da
wspó³rzêdna okrela czêstoæ wyst¹pieñ danego s³owa w danym dokumencie. Analizy
zbioru dokumentów mo¿na dokonaæ, buduj¹c macierz term-by-document frequency [78].
Dla przyk³adowych dwóch dokumentów mo¿e ona wygl¹daæ nastêpuj¹co (tab. 1):
D1 – The cat is black
D2 – Black cat is my cat
Metody i narzêdzia automatycznego przetwarzania informacji tekstowej... 415
Tabela 1
Przyk³adowa macierz term-by-document frequency
Wa¿noæ s³ów w macierzy mo¿na zwiêkszaæ lub zmniejszaæ, stosuj¹c wspó³czynniki
zwane wagami (aij, gdzie i, j to odpowiednio indeksy wierszy i kolumn w rozpatrywanej
macierzy). Otrzymujemy wówczas macierz wa¿onej czêstotliwoci.
Rozró¿niamy nastêpuj¹ce wagi:
frequency Weight (dotyczy wystêpowania samego wyra¿enia),
term Weight (dotyczy liczby wyst¹pieñ danego wyra¿enia w ca³ej kolekcji  zbiorze
dokumentów).
Frequency Weight precyzuje metodê okrelania czêstoci wystêpowania okrelo-
nych zwrotów w dokumencie. Mo¿na tutaj wymieniæ nastêpuj¹ce metody [8]:
binarna (waga wij = 1 w przypadku wystêpowania zwrotu, a wij = 0 przypadku jego
braku;
logarytmiczna 2
log ( 1)
ij ij
wa
=+
(logarytm przy podstawie 2 z liczby okrelaj¹cej czê-
stoæ wystêpowania s³owa  pomniejsza wagê s³ów, które siê czêsto powtarzaj¹);
none (czêstotliwoæ wystêpowania s³ów bez modyfikacji: wij = aij).
Term weight – wagowanie zwrotu mo¿na okrelaæ m.in. za pomoc¹ metod [8]:
Entropy przypisuje najwy¿sz¹ wagê s³owom, które wyst¹pi³y najrzadziej w danym
dokumencie;
IDF (Inverse Document Frequency) waga jest odwrotnoci¹ liczby dokumentów,
w których pojawi³ siê dany zwrot;
GF-IDF (Global Frequency-Inverse Document Frequency) obliczamy mno¿¹c IDF
przez ca³kowit¹ czêstotliwoæ;
Normal waga ta jest proporcjonalna to iloci wyst¹pienia danego s³owa w doku-
mencie;
None  ka¿demu zwrotowi przypisuje siê wagê 1;
Chi-Squared  wykorzystuje wartoæ testu Chi-kwadrat;
Mutual Information pokazuje jak rozk³ad dokumentów z wyra¿eniem i, znajduje siê
blisko rozk³adu dokumentów w ca³ym zbiorze;
Information Gain okrela oczekiwan¹ redukcjê w Entropy w przypadku podzieleniu
zbioru dokumentów wed³ug tego wyra¿enia i.
the cat is black my
D1 1 1 1 1 0
D2 0 2 1 1 1
416 Piotr Potiopa
Istnieje wiele algorytmów wagowania macierzy, takich jak algorytm modelu przestrze-
ni wektorowej, algorytm TF-IDF i tak dalej. Algorytmy wagowania w po³¹czeniu z algoryt-
mem mierzenia podobieñstwa wektorów, takim jak na przyk³ad miara kosinusowa lub
wspó³czynnik Jaccarda tworz¹ skuteczn¹ metodê miary podobieñstwa dokumentów.
3.1. TF-IDF
Waga TF-IDF (term frequency–inverse document frequency) jest czêsto u¿ywana
w metodach information retrieval i text mining. Mimo ¿e TF-IDF jest doæ wiekowym al-
gorytmem wagowania, jest prosty i skuteczny. TF-IDF polega na ustalaniu wzglêdnej czê-
stotliwoci s³ów w danym, lokalnym dokumencie i porównaniu z odwrócon¹ czêstotliwo-
ci¹ s³owa w ca³ej kolekcji dokumentów. Dla ka¿dego s³owa jego TF (term frequency) jest
wzgledn¹ czêstotliwoci¹ wyst¹pieñ tego s³owa w kolekcji dokumentów, które stanowi
wa¿noæ s³owa wewn¹trz danego dokumentu, a jego IDF (inverse document frequency) jest
odwrotnie proporcjonalna do wystapieñ s³owa w odniesieniu do korpusu dokumentu, czyli
przedstawia znaczenie tego s³owa w ca³ej kolekcji dokumentów [8–9].
Algorytm dzia³a w nastêpuj¹cy sposób:
maj¹c:
D – kolekcja dokumentów,
d – dany dokument, dla którego d D,
w s³owo wystêpuj¹ce w dokumencie d,
obliczamy:
,,
log( |D| )
dwd wD
wf f a
=∗ (1)
gdzie fw,d jest iloci¹ wyst¹pieñ s³owa w dokumencie d, |D| jest rozmiarem korpusu doku-
mentu oraz fw,D jest iloci¹ dokumentów, w których wystêpuje s³owo w. Czasami przy du-
¿ych kolekcjach dokumentów mo¿emy dokonaæ normalizacji czêci TF, stosuj¹c technikê
redukcji wymiaru SVD (Singular Value Decomposition). Redukcja pomog¹ nam zmniej-
szyæ iloæ wymiarów i przybli¿yæ macierz wa¿onej czêstotliwoci [8–9].
3.2. Miara kosinusowa
Miara kosinusowa jest wydajnym algorytmem obliczania podobieñstwa w przypad-
ku tekstów. Podstawowym za³o¿eniem tej metody obliczania podobieñstwa jest nastêpu-
j¹ca idea:
Dla dwóch punktów A, B na skali xy jak pokazuje rysunek 3, podobieñstwa miêdzy A
i B zdefiniowane nastêpuj¹co:
(
,
)
cos
||||
Sim A B A B A B
= (2)
Metody i narzêdzia automatycznego przetwarzania informacji tekstowej... 417
gdzie Sim(A, B) jest podobieñstwem dokumentu A do dokumentu B, A·B jest iloczynem
skalarnym wektorów A i B, który to równa siê: x1*x2 + y1*y2, |A||B| okrela odleg³oæ
pomiêdzy A i B, która jest okrelona wzorem: (x12 + y12)1/2 (x22 + y22)1/2 [8, 10].
Rys. 3. Wspó³rzêdne punktów A i B na dwuwymiarowej skali liczbowej
4. Przyk³ady narzêdzi do analizy tekstów
Do analizy danych tekstowych dostêpne narzêdzia zarówno ogólnodostêpne typu
open source, jak i komercyjne. Ich mo¿liwoci s¹ bardzo zró¿nicowane  od prostych poda-
j¹cych podstawowe informacje statystyczne na temat dokumentów po bardziej wyrafino-
wanie systemy buduj¹ce ontologie pojêæ lub maj¹ce wbudowane zaawansowane algorytmy
analizy sk³adni. Wszystkie dobrze sobie radz¹ z jêzykami zachodnimi, chiñskim czy nawet
japoñskim. Problem jest z jêzykiem polskim. Nie dotyczy on tylko sposobu kodowania pol-
skich znaków, ale i programów analizuj¹cych sk³adniê. W ramach opracowania przeanali-
zowano kilka wybranych narzêdzi.
4.1. TextSTAT
TextSTAT to prosty program do analizy tekstów. Potrafi on obs³ugiwaæ pliki ASCII/
ANSI, HTML, formaty MS Word (.doc i .docx) oraz OpenOffice (sxw i .odt), z których
tworzy listê czêstotliwoci wystêpowania poszczególnych s³ów, ma mo¿liwoæ tworzenia
konkordancji oraz list frekwencyjnych. TextStat posiada a¿ 6 wersji jêzykowych interfejsu
(równie¿ j. polski) i pracuje we wszystkich systemach operacyjnych. To co wyró¿nia go
sporód innych darmowych programów tego typu, to mo¿liwoæ tworzenia korpusu ze stron
internetowych wczytywanych przez program bezporednio z sieci. Niestety, program nie
posiada kilku istotnych funkcji, takich jak tworzenie listy s³ów kluczowych czy wyszuki-
wanie kolokacji oraz ci¹gów wielowyrazowych [11].
418 Piotr Potiopa
4.2. AntConc
AntConc to darmowy program do analizy tekstów oferuj¹cy szeroki wachlarz funkcji.
Wród nich znajduje siê tworzenie konkordancji, list frekwencyjnych, list s³ów kluczowych
i wykresów dystrybucji, a tak¿e wyszukiwanie ci¹gów wielowyrazowych i kolokacji. Przy-
jazny interfejs, szybkoæ wykonywanych analiz i funkcjonalnoæ dorównuj¹ca wielu ko-
mercyjnym aplikacjom sprawiaj¹, ¿e AntConc jest szczególnie godny polecenia zarówno
dla osób stawiaj¹cych swoje pierwsze kroki w pracy z korpusami dokumentów, jak i dla
bardziej zaawansowanych u¿ytkowników [12].
4.3. WordSmith
WordSmith Tools to prawdopodobnie najbardziej popularny w orodkach akademic-
kich pakiet narzêdzi do analizy danych tekstowych. Oferuje imponuj¹cy wachlarz funkcji
oraz mo¿liwoci dostosowania poszczególnych narzêdzi do konkretnych zadañ. Obs³uguje
znaczniki, dzia³a szybko idobrze radzi sobie nawet z du¿ymi korpusami. WordSmith Tools
dzia³a w Windows oraz Mac OS X.Pe³na wersja oprogramowania jest p³atna, ale istnieje
mo¿liwoæ wypróbowania wersji demo o ograniczonej funkcjonalnoci.Program opiera siê
na trzech podstawowych funkcjach: konkordancja (Concord), lista s³ów kluczowych (Key-
Word) oraz lista frekwencyjna (WordList) [12].
4.4. Poliqarp
Poliqarp to darmowe oprogramowanie do przeszukiwania du¿ych korpusów. Powsta³
w efekcie prac nad Korpusem IPI PAN i obs³uguje ten korpus zarówno w wersji on-line, jak
i off-line. Dziêki przejrzystemu interfejsowi korzystanie z podstawowych funkcji programu
oraz wykorzystanie jego mo¿liwoci konfiguracyjnych nie powinno sprawiaæ trudnoci na-
wet pocz¹tkuj¹cym u¿ytkownikom. Program mo¿na uruchamiaæ zarówno w rodowisku
Windows, jak i Linux. Dodatkowym atutem jest fakt, ¿e istniej¹ dwie wersje jêzykowe
polska i angielska. Poliqarp daje mo¿liwoæ wyszukiwania okrelonych s³ów czy fraz. Po-
zwala tak¿e na znajdowanie sekwencji okrelanych za pomoc¹ wyra¿eñ regularnych, na
przyk³ad: wszystkich wystêpuj¹cych w korpusie fraz sk³adaj¹cych siê z rzeczownika i przy-
miotnika lub wszystkich form fleksyjnych wybranego wyrazu (funkcja szczególnie przy-
datna w przypadku badañ nad jêzykiem polskim). Operacje te, zarówno w wersji on-line,
jak i off-line, przebiegaj¹ doæ szybko przy prostych zapytaniach wyszukiwanie nie zaj-
muje wiêcej ni¿ kilka sekund. [12-13]
5. Podsumowanie
Technologie przetwarzania jêzyka naturalnego mo¿na wskazywaæ jako jedne z podsta-
wowych dla technologii zarz¹dzania wiedz¹, poniewa¿ umo¿liwiaj¹:
Metody i narzêdzia automatycznego przetwarzania informacji tekstowej... 419
automatyczne przetwarzanie dokumentów (treci) np. WWW,
maszynowo przetwarzane opisywanie (annotation) tekstów w jêzyku naturalnym za
pomoc¹ pojêæ zawartych w ontologii,
odkrywanie nowych elementów ontologii (tj. pojêæ, klas, instancji, atrybutów, relacji,
twierdzeñ),
automatyczne wyszukiwanie elementów wiedzy.
Wymienione aspekty mo¿na traktowaæ w wietle automatyzacji t³umaczenia tekstów
zapisanych w jêzyku naturalnym na sformalizowany jêzyk reprezentacji wiedzy. Tak po-
stawione zagadnienie, tzn. automatyzacja translacji tekstów w jêzyku naturalnym na
jêzyk formalny, jest jednym z najbardziej po¿¹danych i obiecuj¹cych kierunków wspó³cze-
snych badañ w dziedzinie systemów zarz¹dzania wiedz¹. Celem automatyzacji jest tworze-
nie baz wiedzy zapisanej w jêzyku sformalizowanym, umo¿liwiaj¹cym operowanie t¹ wie-
dz¹ w sposób automatyczny.
Literatura
[1] Go³uchowski J., Technologie informatyczne w zarz¹dzaniu wiedz¹ w organizacji. AE, Katowice
2005.
[2] Aamodt A., Plaza E., Case-Based Reasoning: Foundational Issues. Methodological Variations,
and System Approaches,AICom, Artificial Intelligence Communications, IOS Press 1994.
[3] Tomassen S.L., Semi-automatic generation of ontologies for knowledge-intensive CBR. Norwe-
gian University of Science and Technology, 2002.
[4] Filipowska A., Jak zaoszczêdziæ na czytaniu? Automatyczne tworzenie abstraktów z dokumentów.
http://www.gazeta-it.pl/pl/trendy/6011, Gazeta IT nr 3, marzec 2004.
[5] Wybrane problemy zarz¹dzania wiedz¹. Instytut £¹cznoci, Pañstwowy Instytut Badawczy, Praca
nr 06300017, 2007.
[6] http://plwordnet.pwr.wroc.pl, 2011.
[7] Ikonomakis M., Kotsiantis S., Tampakas V., Text Classification Using Machine Learning Techni-
ques. WSEAS TRANSACTIONS on COMPUTERS, Issue 8, vol. 4, August 2005, 966974.
[8] K³opotek M.A., Inteligentne wyszukiwarki internetowe. Exit, 2001.
[9] Ramos J., Using TF-IDF to Determine Word Relevance in Document Queries. http://citese-
erx.ist.psu.edu/viewdoc/download?doi=10.1.1.121.1424&rep=rep1&type=pdf, 2011.
[10] http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html, 2011.
[11] http://neon.niederlandistik.fu-berlin.de/en/textstat/, 2011.
[12] http://www.korpusy.net/index.php/narzdzia/programy-do-analizy, 2011.
[13] http://korpus.pl/index.php?page=poliqarp 2011.
... Taking into consideration issues related to a text documents analysis process, nowadays the hybrid methods for processing unstructured knowledge are used; the methods involve structuralization of knowledge, followed by symbolic processing (e.g. with the use of expert systems or genetic algorithms) or converting knowledge into numerical representation followed by numerical processing (e.g. with the use of neural networks or fuzzy logic systems). In both cases, for knowledge processing, the following methods are used [32]: ...
... The process of analysis of text documents highly depends on the language. In addition, it is more difficult in case Polish language than, for example, in case English or German due to the greater complexity of Polish grammar [32]. ...
Article
Full-text available
CEL/TEZA: Celem pracy jest dokonanie krytycznego przeglądu literatury naukowej dotyczącej metod ilościowych stosowanych w obszarze bibliometrycznego prognozowania przyszłego rozwoju dyscyplin naukowych. Przez „przegląd krytyczny” rozumie się wskazanie i omówienie mankamentów prezentowanych w literaturze przedmiotu podejść do rozpatrywanego problemu. KONCEPCJA/METODY BADAŃ: Przyjęta w pracy metoda polega na analizie literatury przedmiotu, stworzeniu typologii wykorzystywanych w ramach bibliometrii metod prognozowania i oceny rozwoju dyscyplin, podkreśleniu ograniczeń stosowanych w tym zakresie metod oraz wyciągnięciu wniosków końcowych. Postarano się również zaznaczyć obszary, w których przejawia się praktyczna stosowalność prognoz tempa i kierunku rozwoju dyscyplin nauki. WYNIKI I WNIOSKI: Z uwagi na fakt, że niniejszy artykuł stanowi pierwszą z dwóch części, na jakie podzielono całość analizy piśmiennictwa, przedstawione w jego ramach wyniki mają jedynie wstępny charakter. Podkreślono w ich ramach wiodącą i wciąż aktualną rolę metod zapoczątkowanych w publikacjach pionierskich, wskazano, że towarzyszące im mankamenty i próby ich przezwyciężenia stanowią integralną część ewolucji całego omawianego nurtu, a także zaznaczono istnienie silnego związku pomiędzy bibliometryczną metodologią zorientowaną prognostycznie a algorytmicznymi metodami grupowania publikacji w klastry dokumentów spójnych tematycznie, które reprezentują dyscyplinarne obszary problemowe. ORYGINALNOŚĆ/WARTOŚĆ POZNAWCZA: Oryginalność i wartość poznawcza pracy polega na podjęciu próby przybliżenia rozległości i stopnia zaawansowania badań prowadzonych nad przewidywaniem i oceną stanu rozwoju dyscyplin na świecie. Badania te są realizowane w polskim środowisku naukowym stosunkowo rzadko w związku z czym wydaje się, że przegląd przyjmowanej w ich ramach metodologii mógłby przyczynić się do wzbudzenia większego zainteresowania tą problematyką. Zaakcentowanie słabych stron poszczególnych metod jest w tym kontekście podstawą do dalszego modyfikowania i udoskonalania poszczególnych metod. W obrębie całego spektrum bibliometrii istnieje bowiem jeszcze wiele przestrzeni dla tego rodzaju przedsięwzięć, ponieważ obecnie o żadnej z metod nie można powiedzieć, że idealnie spełnia ona postawione przed nią zadanie i jest „ostatnim słowem” w ramach całego nurtu prognostycznego.
Article
Full-text available
Automated text classification has been considered as a vital method to manage and process a vast amount of documents in digital forms that are widespread and continuously increasing. In general, text classification plays an important role in information extraction and summarization, text retrieval, and question-answering. This paper illustrates the text classification process using machine learning techniques. The references cited cover the major theoretical issues and guide the researcher to interesting research directions.
Article
Full-text available
Case-based reasoning is a recent approach to problem solving and learning that has got a lot of attention over the last few years. Originating in the US, the basic idea and underlying theories have spread to other continents, and we are now within a period of highly active research in case-based reasoning in Europe as well. This paper gives an overview of the foundational issues related to case-based reasoning, describes some of the leading methodological approaches within the field, and exemplifies the current state through pointers to some systems. Initially, a general framework is defined, to which the subsequent descriptions and discussions will refer. The framework is influenced by recent methodologies for knowledge level descriptions of intelligent systems. The methods for case retrieval, reuse, solution testing, and learning are summarized, and their actual realization is discussed in the light of a few example systems that represent different CBR approaches. We also discuss the role of case-based methods as one type of reasoning and learning method within an integrated system architecture.
Article
In this paper, we examine the results of applying Term Frequency Inverse Document Frequency (TF-IDF) to determine what words in a corpus of documents might be more favorable to use in a query. As the term implies, TF-IDF calculates values for each word in a document through an inverse proportion of the frequency of the word in a particular document to the percentage of documents the word appears in. Words with high TF-IDF numbers imply a strong relationship with the document they appear in, suggesting that if that word were to appear in a query, the document could be of interest to the user. We provide evidence that this simple algorithm efficiently categorizes relevant words that can enhance query retrieval.
Jak zaoszczêdziae na czytaniu? Automatyczne tworzenie abstraktów z dokumentów. http://www.gazeta-it.pl/pl
  • A Filipowska
Filipowska A., Jak zaoszczêdziae na czytaniu? Automatyczne tworzenie abstraktów z dokumentów. http://www.gazeta-it.pl/pl/trendy/6011, Gazeta IT nr 3, marzec 2004.
[10] http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html
  • J Ramos
  • Tf-Idf Using
  • To Determine Word Relevance In Document
  • Queries
Ramos J., Using TF-IDF to Determine Word Relevance in Document Queries. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.121.1424&rep=rep1&type=pdf, 2011. [10] http://www.miislita.com/information-retrieval-tutorial/cosine-similarity-tutorial.html, 2011. [11] http://neon.niederlandistik.fu-berlin.de/en/textstat/, 2011. [12] http://www.korpusy.net/index.php/narzdzia/programy-do-analizy, 2011. [13] http://korpus.pl/index.php?page=poliqarp 2011.