Content uploaded by Mariusz Fila
Author content
All content in this area was uploaded by Mariusz Fila on Jul 11, 2019
Content may be subject to copyright.
WYDAWNICTWO AKADEMII
PEDAGOGIK I SPECJALNEJ
www.aps.edu.pl
Raport badawczy NASK PIB
CONTENT 1.0 – prototyp aplikacji do analizy treści in-
ternetu
, przygotowany przez zespół badawczy pod kierunkiem prof. Macieja Tanasia,
wiąże się z nurtem poszukiwania nowych narzędzi do analizy i przetwarzania wielkich
zbiorów danych, oraz ich zastosowania w metodologii badań społecznych i edukacyj-
nych, w czasie gdy gwałtownie rosną przypływ y informacji z wielu różnych źródeł. Dane te
mają ogromną użyteczność dla nauki, edukacji, gospodarki czy polityki, co rodzi pilną
potrzebę tworzenia nowych metod i technik analizy Big Data, oraz nowych rozwiązań
technologicznych, otwierających zupełnie nowe perspektywy poznawcze przed nauką
i edukacją, pozwalające zdobyć bezcenną wiedzę o przestrzeni, w jakiej żyjemy.
Temu właśnie ma służyć m.in. przedstawiony w Raporcie projekt CONTENT 1.0, umoż-
liwiający podejmowanie takich analiz z zastosowaniem wielowymiarowej analizy seman-
tycznej treści zeskanowanych danych źródłowych ze stron internetowych i portali
społecznościowych. Pierwsze eksperymenty z jego zastosowaniem pokazały, że stwa-
rza on nie tylko duże możliwości analityczne, ale jego otwarty charakter pozwala też
na wzbogacanie go o nowe elementy, co wydatnie umożliwia dalszy rozwój i zwiększa
potencjalne możliwości jego wykorzystania w badaniach nad edukacją, czy szerzej –
w obszarze nauk społecznych.
dr hab. Barbara Galas, prof. UKSW
Stanisław Lem przyrównał zjawisko internetu do biblijnego potopu, czyli nadmiaru
wód, w którym można ze wszystkim utonąć, jeżeli nie zdołamy dla ratunku, jak Noe,
zbudować sobie „Arki Noego Internetu”. Człowiek potrafi takie łodzie budować, czego
przykładem opiniowany produkt nazwany CONTENT 1.0, będący efek tem pracy zespołu
badawczego w składzie: mgr Mariusz Fila, dr inż. Mariusz Kamola, dr Rafał Lange oraz
dr hab., prof. APS Maciej Tanaś – kierownik. Wynikiem pracy tego zespołu jest skon-
struowana z myślą o przeszukiwaniu zasobów internetu aplikacja, stanowiąca swoiste
narzędzie uży teczne w wyszukiwaniu haseł w postaci słów, pojedynczych zdań lub ciągu
tych zdań.
Otrzymany rezultat charakteryzuje się zamierzoną adaptatywnością oraz wysoką
efektywnością, co potwierdziły przeprowadzone test y. Testy te […] dowodzą, że umie-
jętne wykorzystanie w ytworzonego narzędzia może prowadzić do interesujących
poznawczo wyników. Rze telność oraz niez w ykła wnikliwość przepr owadzonych ekspe-
rymentów potwierdza, znaną od dawna prawdę, że nietrywialne sposoby przetwarzania
danych dają nietrywialne w swej treści syntezy. CONTENT 1.0 […] posiada niezaprze-
cz alne cec hy dok on ania twórczego, jes t bowiem eg ze mpli fikacją je dn ej z definicji tw ór-
czości, mówiącej, że twórczość to także algorytmizacja niealgory tmizowalnego.
dr hab. Jan Łaszczyk, prof. APS
BigData
w edukacji
CONTENT 1.0 – prototyp aplikacji
do analizy treści internetu
Maciej Tanaś, Mariusz Kamola
Rafał Lange, Mariusz Fila
PAŃSTWOWY INSTYTUT BADAWCZY
BigData w edukacji g 4.indd All Pages 29/05/19 19:28
BigData
w edukacji
CONTENT 1.0 – prototyp aplikacji
do analizy treści internetu
WYDAW NIC T WO AKADEMII PEDAGOGIKI SPECJALNEJ
BigData
w edukacji
CONTENT 1.0 – prototyp aplikacji
do analizy treści internetu
Słowo wstępne – Marcin Bochenek
Dyrektor Pionu Rozwoju Społeczeństwa
Informacyjnego NASK PIB
Maciej Tanaś, Mariusz Kamola
Rafał Lange, Mariusz Fila
Naukowa i Akademicka Sieć Komputerowa
Państ wowy Ins tytut Bad awczy
Naukowa i Akademicka Sieć Komputerowa
Państ wowy Ins tytut Bad awczy
WYDAW NIC T WO AKADEMII PEDAGOGIKI SPECJALNEJ
BigData
w edukacji
CONTENT 1.0 – prototyp aplikacji
do analizy treści internetu
Słowo wstępne – Marcin Bochenek
Dyrektor Pionu Rozwoju Społeczeństwa
Informacyjnego NASK PIB
Maciej Tanaś, Mariusz Kamola
Rafał Lange, Mariusz Fila
Naukowa i Akademicka Sieć Komputerowa
Państ wowy Ins tytut Bad awczy
Naukowa i Akademicka Sieć Komputerowa
Państ wowy Ins tytut Bad awczy
Recenzenci:
dr hab. Barbara Galas, prof. UKSW
dr hab. Jan Łaszczyk, prof. APS
Zespół badawczy:
dr hab. Maciej Tanaś, prof. APS – kierownik
dr inż. Mariusz Kamola
dr Rafał Lange
mgr Mariusz Fila
Projekt okładki
Anna Gogolewska
Ilustracja na okładce
lightwise/123RF
Redakcja
Monika Bielska-Łach
Korekta
Zespół
©Copyright by Wydawnictwo Akademii Pedagogiki Specjalnej
©Copyright by NASK – Państwowy Instytut Badawczy
Wydanie I
Warszawa 2019
ISBN: 978-83-66010-29-1
SPIS TREŚCI
Słowo wstępne 7
1. Big Data – informatyka wmetodologii nauk
pedagogicznych 9
2. Aplikacja 25
2.1. Funkcjonalność 26
2.2. Architektura 34
3. Eksperyment 37
3.1. Zbieranie danych 37
3.2. Analiza statystyczna 38
3.3. Analiza jakościowa 44
4. Wyniki 49
4.1. Analiza statystyczna danych 49
4.2. Analiza jakościowa danych 66
5. Konkluzje ipostulaty 71
5.1. Bariery iszanse 71
5.2. Kierunki rozwoju 73
Bibliograa 75
O autorach 79
7
SŁOWO WSTĘPNE
Marcin Bochenek
Dyrektor Pionu Rozwoju Społeczeństwa
Informacyjnego NASK PIB
Rozwój cyfrowego świata wpływa na nasze codzienne życie. Zmiany
cywilizacyjne, społeczne postępują z nieznaną dotąd prędkością.
Mamy dostęp do ogromnej, stale rosnącej, liczby danych. Wciągu
krótkiego okresu internet, będący teraz siecią naukową, awcześniej
systemem przygotowywanym na potrzeby militarne, stał się medium
i kreatorem naszej rzeczywistości. Jego obecność wnaszym życiu
publicznym, naukowym, zawodowym, prywatnym, powoduje, że
stał się światem wymykającym się zram opisu, których używamy do
tworzenia obrazu świata.
Dzisiejsza rzeczywistość, dynamicznie zmieniająca się, charakte-
ryzująca się ciągłym ruchem, stanowi wyzwanie dla naukowców.
Także dla specjalistów w dziedzinie badań społecznych. Opisanie,
dostrzeżenie, awreszcie zrozumienie współczesności ma kluczowe
znaczenie dla naszej teraźniejszości i przyszłości. Nie jest to zna-
czenie stricte poznawcze. To również materiał mogący wspoma-
gać konkretne decyzje i rozwiązania dotyczący przyszłości, a być
może nawet być albo nie być naszej cywilizacji. Bo przecież już dziś
sztuczna inteligencja iinternet to nie twory science ction, arealne
SŁOWO WSTĘPNE
rozwiązania istniejące wnaszym świecie. Wtych dziedzinach jeste-
śmy na początku drogi, ale jej kierunek powinny wyznaczać nie tylko
możliwość techniczne, lecz także, amoże przede wszystkim, zasady
kreowane wramach życia społecznego, wpolityce. Nauki społeczne
mają wtym procesie szczególne znaczenie. Zjednej strony oczywi-
ście uczeni nie są powołani do samodzielnego kształtowania świata,
zdrugiej zaś ich wiedza ibadania powinny pomagać wbudowaniu
irealizacji koncepcji rozwoju.
Obecnie nauki społeczne to także analityka, badania oparte na roz-
wiązaniach stricte technologicznych. Prezentowane opracowanie sta-
nowi przyczynek wrealizacji tego procesu. Jest to propozycja roz-
wiązania, które wprowadzane wświat analiz społecznych, może dać
konkretne rezultaty. To droga do analizy danych, których sprawdza-
nie, analizowanie metodami znanymi od wieków byłoby wtej skali
niemożliwe. To także otwarcie drogi do dalszych prac badawczych
właśnie nad analizą wielkich zbiorów danych iinformacji.
Dziś deniujemy problemy, opisujemy środowisko, ekosystem, wktó-
rym funkcjonujemy, wskazujemy wstępne rozwiązania i stawiamy
kolejne pytania. Opisywany projekt jasno iklarownie wskazuje, że
wnaukach społecznych dziś potrzebne są na pewno dwa elementy.
Rzetelna analiza, przetwarzanie dużych ilości danych, ale także praca
naukowców nad otrzymanymi wynikami, stawianie hipotez, ich
werykacja, wreszcie precyzowanie wniosków, prognoz i zaleceń.
Dziś badacze procesów społecznych otrzymują do ręki narzędzia
dające ogromne możliwości, ale wostatecznym rachunku to po ich
stronie leży wykorzystanie efektów ich działania iopisanie świata.
9
1
BIG DATA INFORMATYKA
WMETODOLOGII NAUK
PEDAGOGICZNYCH
Maciej Tanaś
Współczesny człowiek funkcjonuje wdwóch, przenikających się
wzajem przestrzeniach: realnej iwirtualnej. Pierwsza – fizyczna,
świat życia iśmierci, ale ibogactwa doznań polisensorycznych,
to przestrzeń tętniąca kolorami i kształtami, świat zapachów,
smaków i dotyku, łez i miłości. Druga – wirtualna, zrodzona
zodwiecznych marzeń człowieka olikwidacji barier czasu, odle-
głości inadmiernego trudu, to świat dźwięków oraz barwnych,
statycznych iruchomych obrazów. To przestrzeń oplatająca ziem-
ski glob siecią ludzkich konfliktów itwórczości, ale też pole wojen
gospodarczych, ideologicznych ipolitycznych, agora społecznego
dyskursu, świat marzeń, bazar handlu ludzkimi organami, glo-
balny rynek przedsięwzięć ekonomicznych i– pole człowieczych
podłości.
Oile pierwsza z owych przestrzeni, ta zyczna – od wieków jest
legislacyjnie kodykowana, otyle druga – wirtualna, występując
pod złudnym parasolem nieograniczonej wolności, jest miejscem
kontroli człowieka i zbiorowości społecznych, które on tworzy.
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
1010
Jestprzestrzenią ludzkiej aktywności, ale też pracy służb policyj-
nych oraz bezwzględnych, lokalnych i globalnych działań ban-
dytów. Zbyt często ginie wniej człowiek, zaplątany izniewolony
w rynsztoku informacji oraz migotliwych, cyfrowych obrazów.
Zbyt często…
Ta przestrzeń wymaga mądrych działań prawnych. Działań pro-
wadzonych nie w imię kontroli człowieka, zwiększania cenzury
iuprawnień policji oraz służb specjalnych, niewimię ograniczenia
jego twórczej ispołecznej aktywności, lecz wimię odwiecznych praw
do ludzkiej godności ibezpieczeństwa, do życia iochrony zdrowia,
do wolności myśli, sumienia iwyznania, dopodmiotowości prawnej
iszczęścia. Tymczasem demokratycznej idei powszechnego dostępu
do dobra wspólnego: informacji, wiedzy iinnych osiągnięć, przeciw-
stawia się toczona wcyberprzestrzeni bezwzględna gra interesów,
jakże często naruszająca te iinne prawa człowieka.
Sieć internetowa jest globalnym medium, przez które przepływają
niezliczone informacje. Jak ujawnił roczny raport NASK: zinter-
netu korzysta 3,8 miliarda ludzi, czylimniej więcej połowa ludzko-
ści. Coroku przybywa na świecie kolejne 83 miliony ludzi, ale użyt-
kowników internetu zdecydowanie więcej, bo ponad 354 milionów
rocznie1.
Za utrzymanie bezpieczeństwa istabilności internetu wsensie spój-
nej adresacji usług iurządzeń odpowiedzialna jest ICANN (ang.Inter-
net Corporation for Assigned Names and Numbers), która zarządza
parametrami technicznymi sieci, decyduje otransporcie cyfrowym
1
Anna Gniadek, Weronika Rakowska, Tomasz Szladowski, Rynek nazw domeny.pl.
Raport roczny. Wersja elektroniczna zob.: https://www.dns.pl/NASK-raport-ry-
nek-nazw-domeny-pl-2017.pdf, dn. 10.07.2018.
1111
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
iodpowiada za adresacje ruchu2. Nie jest to jednak jedyna organi-
zacja, dbająca ozasady funkcjonowania sieci. Do tej roli pretendują
także globalne korporacje, związane zrynkiem cyfrowym idysponu-
jące olbrzymim kapitałem. Zabieganie przez nie owpływ nakształto-
wanie zasad regulujących funkcjonowanie internetu oraz na sprawo-
wanie nad nim kontroli jest ich żywotnym interesem inie powinno
to nikogo dziwić, że podejmują je Facebook, Google iinni cyfrowi
giganci.
Permanentnie rosnące przypływy informacji pochodzące zróżnych
źródeł, azatem oróżnej charakterystyce, atakże ich rosnąca użytecz-
ność dla różnych obszarów nauki, zarządzania, administracji, usług
iprodukcji wywołują pilną potrzebę tworzenia nowych technik ana-
lizy danych oraz rozwiązań technologicznych isprawiają, że Big Data
stały się jednym znajważniejszych współcześnie wyzwań informa-
tycznych. Rodzą się problemy równoległego przetwarzania danych
oraz odejścia od klasycznego schematu ich przechowywania, atakże
zróżnicowania danych, ich wolumenu, redukcji wymiaru i jakości
oraz możliwości wnioskowania.
Współczesne urządzenia mobilne: laptopy, tablety oraz smartfony
i coraz liczniejsze urządzenia przenośne (Wearable Computers),
wzrost pamięci masowej w chmurze, jak również rozwijające się
pola zastosowań: rozszerzona rzeczywistość (Augmented Reality),
sztuczna inteligencja (Articial Intelligence) oraz internet rze-
czy (Internet of ings), przynoszą dane ocoraz większej złożono-
ści, onowych formach iźródłach pochodzenia. Doanalizy bardzo
dużych, różnorodnych zbiorów danych semistrukturalnych, prawie-
strukturalnych iniestrukturalnych, pochodzących zróżnych źródeł
2
Anna Gniadek: Internet? Kto tu rządzi? [w:] Anna Gniadek, Weronika Rakow-
ska, Tomasz Szladowski, Rynek nazw domeny.pl. Raport roczny…, op. cit., s.18.
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
1212
i w różnych rozmiarach (od terabajtów do zettabajtów, tj. od 1012
do 1021 bajtów3), stosuje się coraz bardziej zaawansowane techniki
analityczne.
Big Data to termin stosowany do takich zestawów danych, których
rozmiar lub typ wykracza poza zdolność do przechwytywania, zarzą-
dzania iprzetwarzania za pomocą tradycyjnych algorytmów irelacyj-
nych baz danych. Dane te posiadają jedną lub więcej znastępujących
cech: dużą objętość (high volume), dużą intensywność strumienia
(high velocity), dużą różnorodność (high variety) lub zróżnicowaną
wiarygodność (high veracity)4. Big Data pochodzą zczujników, urzą-
dzeń multimedialnych, dzienników aktywności programów kompu-
terowych, aplikacji transakcyjnych, stron internetowych i mediów
społecznościowych – większość znich generowana jest wczasie rze-
czywistym ina bardzo dużą skalę.
Denicja Big Data przez lata ewoluowała od takich, które koncen-
trowały się na desygnatach nazwy, do tych, które odwoływały się
do jej konotacji. Przykładem denicji pierwszego typu jest ta, którą
zaproponowali Michael Cox iDavid Ellsworth. Ich zdaniem Big Data
to po prostu duże dane, których liczbę należy maksymalizować dla
wydobycia wtrakcie analizy ich wartości informacyjnych5. Podobnie
3
Jednostki używane do określania rozmiaru największychpamięci masowych,
zasobów plików i baz danych dawno przekroczyły kilobajt (103) i mega-
bajt(106). Po gigabajtach(109), nastąpiły terabajty (1012), petabajty (1015), eks-
abajty (1018) izettabajty (1021). Kolejne to jottabajty (1024), xenottabajty (1027)
ishilentnobajty (1030).
4
Zob. szerzej https://www.ibm.com/analytics/hadoop/big-data-analytics, dn.
13.07.2018.
5
Michael Cox iDavid Ellsworth, Managing Big Data for Scientic Visualiza-
tion, 1997, ACM SIGGRAPH ‘97 Course #4, Exploring Gigabyte Datasets
in Real-Time: Algorithms, Data Management, and Time-Critical Design,
Los Angeles, zob.: https://www.researchgate.net/prole/David_Ellsworth2/
1313
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
Avita Katal, Mohammad Wazid i R.H. Goudar wyjaśniali pojęcie
przez wskazanie, że to duża liczba danych, która wymaga zastosowa-
nia nowych technologii iarchitektur, tak by możliwa była ekstrakcja
wartości płynącej ztych danych poprzez uchwycenie ianalizę procesu6.
Dobrym przykładem denicji drugiego typu jest ta przyjęta w tej
pracy za IBM izacytowana wcześniej. Sformułował ją Doug Laney
już w2001roku7.
Analiza Big Data pozwala podejmować decyzje na podstawie danych,
które wcześniej były niedostępne lub nieużyteczne. Dzięki zaawan-
sowanym technikom analitycznym, takim jak uczenie maszynowe,
analiza predykcyjna, eksploracja danych, statystyki iprzetwarzanie
języka naturalnego, można analizować wcześniej niewykorzysty-
wane źródła danych niezależnie lub razem zistniejącymi itradycyj-
nie dostępnymi (badania sondażowe itd.). Dzięki temu pozyskuje
się nowe informacje, niezwykle użyteczne w procesie wnioskowa-
nia ipodejmowania decyzji ito na wielu polach. Owa użyteczność
ma swe źródło w stosunkowo niskich kosztach oraz w szybkości
publication/238704525_Managing_big_data_for_scientic_visualization/
links/54ad79d20cf2213c5fe4081a/Managing-big-data-for-scientic-visuali-
zation.pdf, pobrane dn. 13.07.2018.
6
Avita Katal, Mohammad Wazid, R.H. Goudar, Big Data: Issues, Challenges,
Tools and Good Practices, 2013, Sixth International Conference on Contem-
porary Computing (IC3), IEEE, Noida, s.404–409, za: Marta Tabakow, Jerzy
Korczak, Bogdan Franczyk, Big Data – denicje, wyzwania itechnologie infor-
matyczne, „Informatyka Ekonomiczna. Business Informatics” 2014, nr 1(31),
s.141.
7
Wspomniany autor sformułował ją jako 3V, anie 4V, pominął bowiem zróżni-
cowaną wiarygodność (high veracity). Por. Doug Laney, 3D DataManagement:
Controlling Data Volume, Velocity, and Variety, „Application Delivery Stra-
tegies” 2001, META Group Inc. Zob.: https://blogs.gartner.com/doug-laney/
les/2012/01/ ad949-3D-Data-Management-Controlling-Data-Volume-Velo-
city-and-Variety.pdf, pobrane dn. 13.07.2018.
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
1414
pozyskiwania wiarygodnych informacji zolbrzymiej masy danych,
niemożliwych do zdobycia wtej liczbie iwtakim tempie przy użyciu
metod tradycyjnych.
Bez wątpienia badanie zachowań i opinii użytkowników por-
tali internetowych, azwłaszcza sieci społecznościowych otwiera
zupełnie nowe perspektywy poznawcze ito nie tylko przed glo-
balnymi korporacjami (korzystającymi już przecież z tej drogi
pozyskiwania informacji), ale też przed naukami społecznymi,
wtym naukami pedagogicznymi. Możliwe jest oczywiście także
wykrywanie źródeł zagrożeń społecznych i ekonomicznych,
działań terrorystycznych, konfliktów politycznych imilitarnych,
stosunkowo precyzyjne śledzenie ich rozprzestrzeniania, skali,
odbioru społecznego itd.
Jeśli teza sieci społecznościowe mają ogromną wiedzę onaszej rze-
czywistości itym wszystkim, co się wokół nas dzieje jest prawdziwa,
anie ma powodu, żeby wnią wątpić, tonie wystarczy prosta kon-
statacja, ale konieczne jest też opisanie dostępnych metod, tech-
nik inarzędzi poznania. Niezbędna jest metodologiczna reeksja
nad wartością poznawczą źródeł, sposobów idróg pozyskiwania
danych, metod analizy zbieranego materiału empirycznego oraz
interpretacji wyników badań. Wyzwania badawcze dotyczą także
sfery technologicznej: opracowanie innowacyjnej architektury,
identykacja źródeł danych, określenie ltrów danych, automa-
tyczne generowanie metadanych, niezwłoczna (bieżąca) obsługa
napływu nowych, strumieniowych danych i ich aktualizacja,
zarządzanie stosem danych wszybkich iskalowalnych warstwach
przechowywania i przetwarzanie zapytań, integracji pochodzą-
cych z różnych źródeł danych pojawiających się wróżnych for-
matach imodelach. Jedno jest pewne – skrzynie pełne skarbów
czekają naswoich odkrywców.
1515
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
Według prognoz CISCO System Inc.8 roczny globalny ruch wsieci
doroku 2021 osiągnie 3,3 zettabajtów (ZB) rocznie, czyli 278 eksa-
bajtów (EB) miesięcznie. W2016roku stopa realizacji dla globalnego
ruchu winternecie wynosiła 1,2 ZB rocznie, czyli 96 EB miesięcz-
nie. Wciągu najbliższych lat wzrośnie on kilkakrotnie. Miesięczny
ruch w internecie z 13 GB na osobę w 2016roku sięgnie 35 GB
w2021roku.
Smartfony okażą się bardziej użyteczne od komputerów. Jeszcze
w2016roku poprzez komputery odbywało się 46 procent całkowi-
tego przepływu informacji, ale w2021 roku będzie to już jedynie
25procent ruchu. Równocześnie smartfony przejmą 33 procent cał-
kowitego ruchu winternecie. Wprawdzie przepływ informacji wzro-
śnie do 2021roku także nakomputerach, ale dla telewizorów, table-
tów, smartfonów imodułów M2M (Machine-to-Machine) wskaźnik
wzrostu ruchu w2021roku będzie większy iwyniesie odpowiednio
21procent, 29 procent, 49 procent i49 procent. Wlatach 2016–2021
wzrosną też 20-krotnie współczynniki udziału wsieci wirtualnej rze-
czywistości (VR) i rozszerzonej rzeczywistości (AR). Warto sobie
uświadomić, że tylko obejrzenie wszystkich lmów, które będą prze-
syłane wsieci wkażdym miesiącu 2021roku musiałoby trwać ponad
5milionów lat.
Ilość danych powstających iwędrujących po sieci jest porażająca.
Stanowi to poważne wyzwanie technologiczne, ale jest też obiecują-
cym polem badań. Truizmem jest stwierdzenie, że media społeczno-
ściowe są ważnym czynnikiem wpływającym na zachowania ludzkie
wsieci iwświecie realnym. Jeśli tak, to zistoty rzeczy powinny stać
8
e Zettabyte Era: Trends and Analysis, White Papers, Cisco,https://www.
cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-
-index-vni/vni-hyperconnectivity-wp.html, pobrane dn. 13.07.2018.
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
1616
się przedmiotem eksploracji iwnioskowania. Idodajmy – nie tylko
one. Polem niezwykle interesujących poznawczo badań mogą być
portale internetowe, sieć blogów itp., anawet gwałtownie rozwija-
jący się internet rzeczy (IoT). Już dziś liczba urządzeń podłączonych
do sieci ikomunikujących się ze sobą jest większa niż liczba ludzi
na świecie9. Tymczasem internet rzeczy może być równie groźny co
pomocny. Zjednej strony jest podstawą tzw. inteligentnego domu
i pozwalając urządzeniom na wzajemną komunikację, poprawia
komfort życia ipozorne bezpieczeństwo jego mieszkańców. Zdru-
giej strony jednak, na skutek niedostatecznych działań rewidujących
jakość technologii, dużej liczby urządzeń i taniej przepustowości,
staje się źródłem ataków cyberprzestępców, naraża na inwigilację
izagrożenie także zycznego bezpieczeństwa10.
Przykładem niech służy groźny, globalny atak z wykorzystaniem
urządzeń IoT, który miał miejsce w 2016 roku. Złośliwe oprogra-
mowanie umożliwiło wówczas stworzenie za pomocą botneta Mirai
„armii” kamerek internetowych oraz Smart TV i sparaliżowanie
takich serwisów, jak Reddit, Twitter, Spotify, Netix, New York Times
czy PayPal. WPolsce zaobserwowano wtedy nawet 14054 przejętych
urządzeń dziennie.
Warto przywołać wtym miejscu również projekt OSE – Ogólno-
polskiej Sieci Edukacyjnej – jednej z najważniejszych inwestycji
9
Według instytutu badawczego Gartner, liczba inteligentnych urządzeń – zgrupy
IoT – może wzrosnąć z8,4 mld w2017 r. do 20,4 mld w 2021 r. Zob. Inteli-
gentne urządzenia wokół nas. Aco znaszym bezpieczeństwem?, „Interia Biz-
nes” 17.02.2018, www.biznes.interia.pl, pobrano dn. 13.07.2018.
10 Por. Krajobraz bezpieczeństwa polskiego internetu 2016. Raport roczny zdzia-
łalności CERT Polska, NASK/CERT Polska 2016, s.23–29.
1717
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
technologicznych ioświatowych wPolsce11. Koszty tego niezwykłego
projektu, realizowanego przez NASK Państwowy Instytut Badawczy,
zostaną pokryte z budżetu Państwa oraz Programu Operacyjnego
Polska Cyfrowa. Polska wpisuje się tym projektem wtrendy euro-
pejskie. Na przykład, unijny program WiFi4EU ma zapewnić oby-
watelom oraz osobom przybywającym do Unii Europejskiej dostęp
do bezpłatnego WiFi wprzestrzeniach publicznych, takich jak parki,
place, budynki publiczne, biblioteki, ośrodki zdrowia. Projekt polski
jest jednym znajwiększych programów cyfryzacji szkół, podejmo-
wanych wUE ipowinien przyczynić się nie tylko do wspomagania
edukacji tradycyjnej – cyfrową, lecz także zwiększyć arsenał środ-
ków, metod itreści kształcenia, umożliwić rzeczywisty rozwój kom-
petencji cyfrowych uczniów orazwyrównać ich szanse edukacyjne.
Budowana błyskawicznie przez NASK sieć szkolna powinna stać się
nade wszystko polem badań dla tych osób iinstytucji, dla których
los dzieci imłodzieży, poprawa jakości procesu nauczania-uczenia
się, szerzej otwierania przed człowiekiem świata kultury i nauki
oraz prowadzenia ku życiu wartościowemu itwórczemu, stanowi cel
iprzedmiot działania. Te badania powinny być prowadzone zgod-
nie zprzepisami prawa ibezwzględnie respektować kodeks etyczny
badań naukowych.
11 Inicjatywa OSE została przyjęta przez Radę Ministrów 13.06.2017 r. jako
Uchwała „100 Mega na 100-lecie” i ma na celu zapewnienie powszechnego
irównego dostępu szkół do bardzo szybkiego (co najmniej 100 Mb/s), bez-
piecznego oraz bezpłatnego internetu. Zgodnie zzałożeniami projektu wszyst-
kie szkoły podstawowe iponadpodstawowe zostaną do 2021roku podłączone
do OSE. Por. Marcin Bochenek, Rok pilotażu OSE, [w:] Akademia NASK,
O OSE, https://akademia.nask.pl/projekt-48/o-projekcie.html, pobrano dn.
17.07.2018. Ustawa o Ogólnopolskiej Sieci Edukacyjnej została jednogłośnie
przyjęta przez Senat RP 10.11.2017, anastępnie podpisana przez Prezydenta
RP iogłoszona 28 listopada wDzienniku Ustaw 2017, poz. 2184, tom 1.
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
1818
Dopóki nie było stosownych idostępnych programów informatycz-
nych, pozwalających na intencjonalne prowadzenie badań, na eko-
nomicznie uzasadnione zbieranie iskuteczną selekcję Big Data, ani
też metod pozwalających na analizę tak wielu danych, byłoto po pro-
stu zadanie niewykonalne. Działaniom wtym zakresie nie sprzyjały
także: brakpowszechnej świadomości wartości poznawczej tego typu
badań oraz równoczesna dominacja tradycyjnych, już sprawdzonych
metod empirycznych.
Nie znaczy to, że nie było wyprzedzających prób teoretycznego opisu
iwyjaśnienia problemu Big Data oraz pionierskich badań wnaukach
społecznych. Z pewnością największy wkład poznawczy, ale też
organizacyjny ipopularyzatorski wPolsce wniósł prof.drhab. inż.
Włodzimierz Gogołek. Liczne prace naukowe profesora, porywa-
jące wykłady na sympozjach oraz konferencjach naukowych, atakże
prekursorskie eksperymenty są kamieniami milowymi naukowych
odkryć w tym zakresie12. Włodzimierz Gogołek jest również auto-
rem pojęć określających wjęzyku polskim proces iautorską metodę
badań Big Data. Proces ten określił mianem ranacji sieciowej przez
analogię do procesu oczyszczania iuszlachetniania substancji natu-
ralnych lub produktów przemysłowych wcelu nadania im odpowied-
niej czystości, barwy, zapachu13. Przyjęta denicja, zaczerpnięta ze
12 Włodzimierz Gogołek, Big Data. Sieciowe źródło informacji dla edukacji,
[w:]Cyfrowa przestrzeń kształcenia, Seria Cyberprzestrzeń – Człowiek – Edu-
kacja. Tom 1. Praca zbiorowa pod red. Macieja Tanasia iSylwii Galanciak,
Ocyna Wydawnicza „Impuls”, Kraków 2015, s.97–104; tenże, Ranacja infor-
macji sieciowej, [w:] Informatyka wdobie XXI wieku. Nauka, Technika, Eduka-
cja anowoczesne technologie informatyczne. Praca zbiorowa pod red. Aleksan-
dra Jastriebowa, BeatyKuźmińskiej-Sołśnia, Marii Raczyńskiej, Politechnika
Radomska, Radom 2011. Zob. też przywoływane wtym art. inne prace tego
autora.
13 Mieczysław Szymczak, Słownik języka polskiego, Państwowe Wydawnictwo
Naukowe, Warszawa 1978.
1919
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
Słownika języka polskiego, trafnie opisuje istotę isposób procesu ana-
lizy Big Data, pozyskiwanych zsieci lub zdużych zbiorów informa-
cyjnych dostępnych poza siecią14.
Przebieg procesu ranacji Big Data sprowadza się do kilku etapów. Po
określeniu typu izakresu materiałów źródłowych zsieci lub innego
źródła, atakże czasu iczęstotliwości ich pobierania należy ustalić
hasła, związane zbadanym zjawiskiem iwystępujące wobsługiwa-
nych przez system źródłach danych. Takimi hasłami mogą być słowa
wraz zich formami eksyjnymi, wyrażenia czy też całe zestawy słów.
Hasła noszą nazwę słupów. Specyka języka polskiego powoduje,
że słup może obejmować wybrane lub wszystkie możliwe odmiany
słowa lub wyrażenia przez osoby, liczby, rodzaje, przypadki, czasy,
tryby, strony, imiesłowy, formy bezosobowe inieregularne, anawet
możliwe błędy ortograczne, neologizmy isynonimy. Może też obej-
mować tzw.hashtagi, czyli pojedyncze słowa lub wyrażenia poprze-
dzone symbolem # (zang. hash, hashtag, ale też octothorp, octothorpe,
octathorp, octatherp, fence, mesh, w Singapurze hex, a w muzyce
sharp), bezużycia spacji. Pełnią one funkcję nieustrukturyzowanych
metadanych, ułatwiających znajdowanie wiadomości ookreślanym
temacie lub zawartości isą używane wsieciach społecznościowych,
takich jak Twitter oraz winnych usługach mikroblogowania.
Pobierane dane mogą występować wpostaci artykułu (artykuł na
stronie, komunikat, post), bloku (tytuł, autor, pod- i śródtytuł,
tekst, podpisy, także treść komentarzy), atakże pojedynczego zda-
nia lub słowa. Kolejnym krokiem jest określenie tzw.sentymen-
tów, będących wyrażeniami niosącymi pozytywny, neutralny lub
14 Włodzimierz Gogołek, Paweł Kuczma, Ranacja informacji sieciowych na
przykładzie wyborów parlamentarnych. Część 1. Blogi, fora, analiza sentymen-
tów, „Studia Medioznawcze” 2013, nr 2(53).
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
2020
negatywny ładunek emocjonalny. Sentymenty są ocenami słupów
i występującymi w lub obok badanych tekstów, obrazów, plików
audio czy video. Identykacja sentymentów powinna być poprze-
dzona tzw. obróbką przygotowującą materiał źródłowy15. Polega
ona na odltrowaniu treści podlegających badaniu, oczyszczeniu
danych oraz przekształceniu ich do postaci czytelnej dla programu.
Zebrany materiał badawczy podlega następnie analizie ilościowej
(statystycznej) ijakościowej oraz – co ważne – autorskiej interpre-
tacji uzyskanych wyników.
Jest wprocesie ranacji sieciowej Big Data urok nowości, jest jednak
nade wszystko potencjał poznawczy. Wiąże się on zwielkością zbio-
rów danych, szybkością ich napływu oraz olbrzymią różnorodnością.
Równocześnie pojawiają się coraz doskonalsze technologie ich zbie-
rania iranacji, atakże wspomagane informatycznie coraz skutecz-
niejsze iprecyzyjniejsze metody ich analizowania iwnioskowania.
Bez wątpienia użyteczna okazała się wtym względzie chmura obli-
czeniowa (cloud computing). Pojęcie to oznacza zazwyczaj skalowalną
platformę, zawierającą sprzęt IT wraz zoprogramowaniem, dostępną
u zewnętrznego operatora jako usługa internetowa. Dodajmy, że
cloud computing oznacza również system rozproszenia, zdolność
uruchamiania programu lub aplikacji na wielu połączonych kompu-
terach wtym samym czasie lub dynamiczną obsługę danego żądania,
polegającą na przydzieleniu zadania do jednego zdostępnych ser-
werów. Jeśli chodzi oinformatyczne narzędzia użyteczne wranacji
Big Data, to należy koniecznie wspomnieć oprojekcie Stratoshpere16
15 Włodzimierz Gogołek, Dariusz Jaruga, Zbadań nad systemem ranacji sie-
ciowej. Identykacja sentymentów, „Studia Medioznawcze” 2016, nr 4(67),
s.104–105.
16
Zob. szerzej. http://stratosphere.eu/.
2121
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
oraz Apache Hadoop17 iinnych technologiach Big Data, takich jak:
Apache Storm18, Apache Kaa19 iApache Impala20.
Stratosphere to projekt badawczy, którego celem było stworzenie
platformy Big Data Analytics następnej generacji. Podjęły go nie-
mieckie ośrodki akademickie: Technische Universität Berlin, Hum-
boldt-Universität oraz Hasso-Plattner-Institut. Dzięki projektowi Stra-
tosphere opracowano iprzyczyniono się do powstania platformy, która
w2014roku stała się projektem Apache pod nazwą Apache Flink21.
Najczęściej wykorzystywaną stała się jednak Apache Hadoop –
otwarta platforma programistyczna, napisana wjęzyku Java, aprze-
znaczona do rozproszonego składowania iprzetwarzania wielkich
zbiorów danych przy pomocy klastrów komputerowych. Zapewne jej
popularność wynika właśnie zfaktu, że wspomniana platforma jest
zbiorem narzędzi open-source. Projekt obejmuje obecnie: Hadoop
Common, Hadoop Distributed File System, Hadoop Yarn, Hadoop
MapReduce oraz inne projekty, jak: AmbariTM, AvroTM, CassandraTM,
ChukwaTM, HBaseTM, HiveTM, MahoutTM, PigTM, SparkTM, Te z TM czy
ZooKeeperTM22.
Obok wcześniej wymienionych tworzone są także inne architektury
informatyczne, dedykowane Big Data. Opisany wprezentowanym
raporcie projekt CONTENT1.0 jest przykładem poszukiwań badaw-
czych, które zakończyły się, zdaniem autorów, pierwszym, jeszcze
wstępnym sukcesem.
17 Ocjalna strona https://hadoop.apache.org/.
18
Zob. szerzej http://storm.apache.org/.
19
Zob. https://kaa.apache.org/.
20
Zob. https://impala.apache.org/.
21
Strona projektu: https://ink.apache.org/.
22
http://hadoop.apache.org/.
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
2222
Inspiracją do prac nad projektem ijego rozpoczęciem była towarzy-
ska ijakże cenna rozmowa, dotycząca poznawczego igospodarczego
znaczenia Big Data, podjęta niegdyś zdrAgnieszką Wrońską – kie-
rownikiem Działu Akademia NASK. Niezwykle pomocna okazała się
również sugestia prof. dr hab. inż. Ewy Niewiadomskiej-Szynkiewicz
– Dyrektora Pionu Naukowego NASK-PIB, żeby do zespołu zaprosić
dr inż. Mariusza Kamolę, absolwenta nauk technicznych wzakre-
sie automatyki oraz robotyki i– co było szczególnie istotne wtym
przypadku – specjalistę od sieci społecznych itechnologicznych. Bez
rady ipomocy Pani Profesor projekt spaliłby na panewce. Ponadto
do zespołu zostali włączeni także dr Rafał Lange i mgr Mariusz
Fila zkierowanej przeze mnie Pracowni Edukacyjnych Zastosowań
Technologii Informacyjno-Komunikacyjnych NASK-PIB. Życzliwe
i mądre wsparcie Marcina Bochenka – Dyrektora Pionu Rozwoju
Społeczeństwa Informacyjnego NASK-PIB spowodowało, że projekt
nabrał realnych kształtów imożliwe stało się jego ostateczne opraco-
wanie izłożenie. Wkrótce, dzięki pozytywnej ocenie Komisji Kon-
kursowej NASK-PIB można było rozpocząć realizację pierwszego,
apóźniej drugiego etapu.
Raz jeszcze okazało się, że dzięki świadomym decyzjom ludzi
dobrej woli, rzeczywistej zarządczej i organizacyjnej sprawności
Dyrekcji NASK, umiejętności współpracy wzespole oraz bardzo
wysokim kompetencjom jego członków w zakresie informatyki
inauk społecznych, projekt CONTENT 1.0 został zaakceptowany
przez Komisję oraz podjęty i zrealizowany. Stało się tak dzięki
tymwszystkim niezwykłym osobom, które rozumiały ideę, jaką się
kierowaliśmy inie pozwoliły zgasić pokładanej wprojekcie nadziei.
Dlatego też tym, którzy nas inspirowali i umożliwili skuteczną
realizację planów, słowem, okazali nieocenioną pomoc iwsparcie,
składam wimieniu własnym iwszystkich członków zespołu wyrazy
głębokiej wdzięczności.
2323
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
Metody analizy Big Data są poważnym wyzwaniem informatycz-
nym. Ich opis i wyjaśnienie wydają się być istotne dla rozwoju
naukowego igospodarczego. Dostęp do informacji i możliwości
przetwarzania dużych zbiorów danych oróżnym typie izłożono-
ści oraz źródłach pochodzenia jest bezcenny dla każdego przed-
siębiorstwa. Przemawiających za tym iwystarczających argumen-
tów dostarcza ekonomia, gospodarka oparta na wiedzy ipraktyka
społeczna. Już przecież w 2013 roku Kenneth Cukier i Viktor
Mayer-Schönberger – współautorzy książki dotyczącej Big Data,
dostrzegając olbrzymi wpływ tego zjawiska na gospodarkę, naukę
ispołeczeństwo, nadali jej znamienny tytuł: Big Data: Rewolucja,
która zmieni sposób naszego życia, pracy imyślenia23. Idodajmy –
już przeobraziła izmieniać nadal będzie.
Zcałą pewnością technologie Big Data tworzą też nowe, atrakcyjne
perspektywy poznawcze. Przy czym nie chodzi wyłącznie oliczbę
danych, ale też o ich wiarygodność, unikatowość oraz możliwość
podejmowania pionierskich badań naukowych, na dotychczas nieeks-
plorowanych polach. Coraz bardziej prawdopodobne empirycznie
staje się zatem intencjonalne wykorzystanie Big Data tak w bada-
niach wysokospecjalistycznych, jak iinter- czy transdyscyplinarnych.
Big Data bezsprzecznie już udowodniły swoją znaczną, naukową
przydatność. Analizy obszernych zbiorów danych przyniosły atrak-
cyjne owoce na wielu polach: od eksplozji wbiologii, wraz zjej rozra-
stającymi się bazami danych genomów ibiałek, poprzez astronomię,
zpetabajtami płynącymi zobserwacji nieba, do nauk społecznych,
zmiliardami postów itweetów krążących wInternecie. Potok danych
jest zbyt duży, by mógł go precyzyjnie analizować „nieuzbrojony”
23
Viktor Mayer-Schönberger, Kenneth Cukier, ARevolution that will transform
how we live, work andthink, Boston–New York 2013.
1. BIG DATA INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
ludzki umysł, ale rozwój nauk informatycznych oraz postęp tech-
nologiczny, które pomogły w dostarczeniu tych danych, stworzyły
także nowe, potężne narzędzia, które już dziś okazują się niezwykle
użyteczne nie tylko wprocesie zbierania iprzesyłania, lecz także –
analizy izrozumienia. Nadszedł czas na podjęcie badań zwykorzy-
staniem Big Data także wnaukach pedagogicznych. Terra incognita
czeka na swych odkrywców. Drogę do wysp nieznanych otworzyła
informatyka.
25
APLIKACJA
Wydawać by się mogło, że obecnie rynek usług analitycznych obecno-
ści ipercepcji zadanych pojęć, wyrażających się wcyberprzestrzeni,
jest zapełniony w stopniu odpowiadającym zupełnie potrzebom
użytkowników. Istnieją na nim serwisy ukierunkowane na analizę
określonych portali społecznościowych […], agregację i selekcję
istotnych doniesień […] – atakże aplikacje uniwersalne, dokonujące
łącznej analizy wzmianek na temat zadanego pojęcia występujących
wwielu różnych źródłach […]. Użytkownik otrzymuje wyniki analiz
na żądanie, watrakcyjnej wizualnie formie, albo adhoc, wsytuacji
pojawienia się nowego zjawiska lub istotnej zmiany jego dynamiki.
Wielość iróżnorodność dostępnych aplikacji może sprawiać wraże-
nie, ich umiejętny wybór anastępnie świadome znich korzystanie
zaspokajają obecne potrzeby analizy obecności interesujących użyt-
kownika pojęć winternecie. Wistocie tak nie jest, co najmniej ztrzech
powodów. Po pierwsze, istnieje potrzeba elastyczniejszej iprecyzyj-
niejszej parametryzacji algorytmów wyszukiwania i przetwarzania
danych surowych tak, odpowiadającej rzeczywistym potrzebom
świadomego iwymagającego użytkownika. Po drugie, sam sposób
działania iwynik algorytmów powinien być jawny (większość obec-
nych usług, chociażby szeregowania wyników wyszukiwania taka nie
2
2. APLIKACJA
26
jest). Po trzecie, łańcuch przetwarzania wyników składa się wyłącz-
nie z algorytmów komputerowych, nie pozostawiając miejsca na
ingerencję ekspertów dziedzinowych wkluczowych etapach analizy.
Funkcjonalność izwiązana znią architektura systemu CONTENT1.0
usuwają wszystkie powyższe niedostatki istanowią jego cechy wyróż-
niające spośród innych istniejących rozwiązań.
2.1. Funkcjonalność
Działanie systemu można przedstawić najczytelniej, omawiając
typowe scenariusze korzystania zniego przez użytkownika, czyli
tzw.przypadki użycia. Użytkownik, tj. klient końcowy albo wspie-
rający go idoradzający mu ekspert dziedzinowy, deniuje zlecenie
analizy obecności określonego hasła wobsługiwanych przez system
źródłach danych. Ponieważ jakakolwiek analiza danych wymaga
ich uprzedniego zgromadzenia, system rozpoczyna okresowe ska-
nowanie określonych w zleceniu źródeł danych i gromadzenie
tych, które będą przydatne do dalszej analizy. Obecnie obsługiwa-
nymi źródłami danych są portale twitter.com, facebook.com oraz
onet.pl.
Aby udostępnić możliwość formułowania precyzyjnych i elastycz-
nych kryteriów wyszukiwania, zaproponowano ustalony podział
pobieranych danych na następujące jednostki:
• artykuł – odpowiada pojedynczemu artykułowi na stronie onet.
pl, komunikatowi (tweet) w serwisie twitter.com oraz wpisowi
(post) wserwisie facebook.com;
• blok – podjednostka artykułu, odpowiadająca części artykułu lub
pojedynczemu komentarzowi do artykułu;
2.1. FUNKCJONALNOŚĆ
27
• zdanie – pojedyncze zdanie;
• słowo – pojedyncze słowo.
Podstawowym parametrem zlecenia jest kwerenda, czyli wyrażenie,
którego wartość jest wyznaczana dla każdego napotkanego arty-
kułu wskanowanych źródłach. Składnia kwerendy jest następująca
(nawiasy kwadratowe oznaczają element opcjonalny, kreska pionowa
oznacza alternatywę, [...] oznacza dowolną liczbę powtórzeń bezpo-
średnio poprzedzającego elementu wyrażenia):
hasło [[op_logiczny] hasło [...]]]
gdzie hasło ma postać:
[id_typu_bloku[id_typu_bloku[...]]]słowo[końcówka[|końcówka[...]][|.|?|*]
op_logiczny ma postać:
|
lub ma postać:
[&[+|-]liczba[w|s]]]
Wyjaśnienie oznaczeń:
•hasło–pojedyncze słowo wraz zjego formami eksyjnymi,
•op_logiczny– złożony operator logiczny,
•id_typu_bloku– jednocyfrowy specykator, precyzujący typ
bloku dokumentu, wobrębie którego poszukiwane będą hasła,
•słowo– część nieodmienna szukanego terminu (niekoniecznie
temat gram.),
•końcówka– końcówka eksyjna (dowolny ciąg znaków),
•. – wystąpienie zera lub jednego znaku,
•?– wystąpienie dokładnie jednego znaku,
•*– wystąpienie dowolnej liczby znaków (do separatora słowa),
•|– alternatywa (wystąpienie jednego zhaseł jest wystarczające),
2. APLIKACJA
28
•&– koniunkcja (wystąpienie obu haseł jest konieczne),
•+–- następujące hasło musi występować po poprzednim,
•- – następujące hasło musi występować przed poprzednim,
•liczba– liczba słów lub zdań, w zakresie których ma nastąpić
wystąpienie określone przez + lub -,
•w– określona liczba powyżej dotyczy słów,
•s – określona liczba powyżej dotyczy zdań.
Domyślne działanie polega na wyszukaniu koniunkcji haseł wfor-
mie dokładnie podanej przez użytkownika, wcałym artykule itowa-
rzyszącym mu komentarzach, bez uwzględniania kolejności wystę-
powania haseł.
Opracowana i przedstawiona tu składnia wywodzi się ze składni
wyrażeń regularnych. Została ona istotnie zmodykowana, aby
umożliwić wygodne, intuicyjne specykowanie wariantowego zakoń-
czenia haseł, ltrować hasła ze względu na ich położenie wartykule
oraz ze względu na wzajemne oddalenie haseł wtekście. W przy-
padku tej ostatniej opcji, wystarczy poprzedzić wyszukiwane hasło
ciągiem cyfr, np. 145pies, aby ograniczyć wyszukiwanie wystąpienia
słowa pies do trzech typów bloków, identykowanych cyframi 1, 4
i5. Wodniesieniu do wszystkich rodzajów źródeł, przyjęto podział
artykułu na bloki następujących typów:
0. Tytuł artykułu
1. Autor artykułu
2. Podtytuły iśródtytuły
3. Tekst zasadniczy (pomiędzy tytułami)
4. Podpisy pod infograkami
5. Treści komentarzy
Oszacowanie wartości kwerendy dla konkretnego artykułu zwraca
wartość całkowitą. Jeśli struktura zapytania powoduje, żeostatnim
2.1. FUNKCJONALNOŚĆ
29
oszacowywanym operatorem jest koniunkcja (&), wówczas wynik
zapytania może przyjmować wartość zero (fałsz, treść artykułu nie
pasuje do kwerendy) lub jeden (prawda). Jeśli ostatnim oszacowywa-
nym operatorem jest alternatywa, wartość kwerendy może być więk-
sza od jedności. Wtaki przypadku odpowiada on liczbie wszystkich
wystąpień wartykule obu argumentów alternatywy.
Istotną innowacją wstosunku do standardowych wyrażeń regular-
nych jest umożliwienie wyspecykowania maksymalnej odległości
wtekście pomiędzy wyszukiwanymi hasłami. Obsługiwanymi jed-
nostkami odległości są słowo izdanie. Jeśli kwerenda dotyczy tylko
niektórych typów bloków artykułu, przyjmuje się roboczo, że pozo-
stałe bloki nie istnieją, w związku zczym przeszukiwane bloki są
traktowane tak, jakby następowały bezpośrednio po sobie.
W systemie CONTENT 1.0 wprowadzono szereg predeniowa-
nych metryk, tj. algorytmów wyznaczających określone statystyki
dla pojedynczego artykułu. Większość znich może być parametry-
zowana przez użytkownika, jak to przedstawia tabela 1. Użytkow-
nik może zdeniować widoki, czyli zestawy metryk użyte do przed-
stawienia wyników eksperymentu. Dzięki uniwersalności metryk,
można wykorzystywać te widoki wielokrotnie, wodniesieniu do
różnych eksperymentów, traktując je jako swoistą perspektywę
badawczą stanowiącą punkt wyjścia do dalszej, subiektywnej lub
obiektywnej analizy szczegółowej wyników. Dzięki zaś parametry-
zacji można wykorzystywać większość metryk wielokrotnie, nawet
w obrębie pojedynczego widoku, np. zestawiając liczbę znaków
przestankowych wzasadniczym tekście artykułu oraz wkomenta-
rzach. Ekran deniowania widoku przestawiono na rys. 1; nato-
miast rys. 2 prezentuje wyniki zlecenia ukazane wtymże widoku.
Zauważmy, że każdej denicji metryki odpowiada pojedyncza
kolumna tabeli.
2. APLIKACJA
30
Tabela 1. Zestawienie metryk
Id.
metryki Wartość Parametr 1 Parametr 2
1 Liczba wystąpień hasła
wartykule ikomentarzach
Typy bloków
uwzględnionych
Typy bloków
pominiętych
2 Pozycja względna pierw-
szego wystąpienia hasła
zkwerendy (0–100%)
j.w. j.w.
3 Liczba zdań wartykule
ikomentarzach
j.w. j.w.
4 Średnia liczba znaków
wzdaniu
j.w. j.w.
9 Liczba znaków
przestankowych
j.w. j.w.
16 Liczba ilustracji j.w. j.w.
19 Liczba hashtagów j.w. j.w.
21 Treść wybranych bloków j.w. j.w.
23 Ilustracje j.w. j.w.
11 Liczba słów ze słownika Identykator
słownika
j.w.
5 Źródło artykułu
6 Względna pozycja arty-
kułu na portalu (0–100%)
Moment pomiaru
(0–100% ogól-
nego czasu trwa-
nia zlecenia)
10 Średnia liczba znaków
przestankowych
wkomentarzu
12 Średnia liczba emotiko-
nów wkomentarzu
101 Ocena subiektywna Identykator
oceny
Wartość począt-
kowa oceny
Rys. 1. Formularz wyboru metryk tworzących widok
Rys. 2. Ekran wyników analizy wg określonego widoku, wraz z okienkiem inspekcji pełnej treści artykułu
2.1. FUNKCJONALNOŚĆ
33
Aby umożliwić elastyczną ekspercką ocenę wyników, wprowadzono
specjalny typ metryki (101) pozwalający użytkownikowi wprowa-
dzać własne oceny poszczególnych artykułów. Ocena ma postać
liczby zczęścią ułamkową; takie ograniczenie umożliwia późniejsze,
jednolite przetwarzanie ocen. Denicja typów ocen ma charakter
opisowy; można wprowadzić dowolną liczbę typów ocen.
Kolejnym szczególnym typem metryki, powiązanych podobnie jak
oceny zdodatkowym słownikiem danych, jest liczba słów należących
do określonego, nazwanego zbioru. System CONTENT 1.0 wyposa-
żono wzbiory słów polskich wformach podstawowych, mających
wydźwięk pozytywny, negatywny, atakże kojarzących się zemocjami
podstawowymi (radość, zaufanie, cieszenie się na coś oczekiwanego,
smutek, złość, strach, wstręt, zaskoczenie czymś nieprzewidywanym)
oraz wartościami uniwersalnymi (użyteczność, dobro drugiego czło-
wieka, prawda, wiedza, piękno, szczęście, nieużyteczność, krzywda,
niewiedza, błąd, brzydota, nieszczęście). Zbiory te pochodzą ze Sło-
wosieci+ emo, czyli polskiego odpowiednika słownika Wordnet24.
Konsekwentna reprezentacja wyników zlecenia w postaci widoku
wukładzie tabelarycznym umożliwia eksport wstępnie przetworzo-
nych danych do dalszej obróbki. Wyniki ujęte wkonkretnym widoku
można zapisać do pliku wformacie Microso Excel (.xls). Dla ilu-
stracji powiązanych zartykułem (metryka typu 23) zapisywane są
wyłącznie adresy URL, dla zapewnienia przenośności iredukcji roz-
miaru pliku wynikowego.
24 Słowosieć, TBC.
2. APLIKACJA
34
2.2. Architektura
Odpowiadając na współczesne potrzeby itrendy, a także perspek-
tywy dalszego rozwoju, system CONTENT 1.0 został zaprojekto-
wany z użyciem obecnie stosowanych, nowoczesnych technologii
informatycznych. System składa się zszeregu powiązanych mikro-
usług, tj. wielu komponentów realizujących ściśle zdeniowane, sto-
sunkowo niewielkie fragmenty aplikacji. Możemy więc wyróżnić
mikrousługę obróbki dokumentów, realizującą centralnie algorytm
wykonywania kwerend, trzy mikrousługi skanujące odpowied-
nie źródła sieciowe oraz usługę koordynującą działanie wszystkich
pozostałych iwszczególności odpowiedzialną za terminowe wyko-
nywanie poszczególnych zleceń.
Graczny interfejs użytkownika zaimplementowano wformie apli-
kacji sieciowej, w której formularze budowane są dynamicznie
zwykorzystaniem biblioteki Angular JS po stronie przeglądarki. Kod
aplikacji idenicje formularzy serwowane są przez statyczny serwer
WWW; natomiast za kontrolę nad danymi do wyświetlenia odpo-
wiada dedykowana mikrousługa. Wten sposób, realizując współ-
czesne paradygmaty projektowania, rozdzielono logikę aplikacji,
denicje wyglądu poszczególnych ekranów użytkownika, oraz mani-
pulację właściwymi danymi. Wszczególności odseparowano logikę
aplikacji od bazy danych. Podobny zabieg wykonano po stronie usług
skanowania.
Dekompozycja systemu na szereg możliwie bezstanowych usług oraz
wprowadzenie warstwy abstrakcji dla przechowywania danych sta-
nowią cenny kapitał – są bowiem bardzo dobrym punktem wyjścia
do zadania skalowania wydajności systemu, niezbędnego w miarę
wzrostu przetwarzanych danych.
2.2. ARCHITEKTURA
Ztych samych powodów, system został od samego początku uru-
chomiony na maszynie wirtualnej dużego dostawcy usług hostingo-
wych. Pozwala to mieć nadzieję na jego dalszy harmonijny wzrost,
który wymagać będzie wdrożenia kolejnych rozwiązań właściwych
dla systemów obsługi ianalizy danych masowych (np. wdrożenia baz
NoSQL iwprowadzenie kontenerowej architektury mikrousług).
37
EKSPERYMENT
3.1. Zbieranie danych
Eksperyment 1: szukamy artykułów zawierających gdziekolwiek
słowa zaczynające się od „bezpieczeństw” oraz „cyfrow” (tj. bez-
pieczeństwo cyfrowe z uwzględnieniem końcówek eksyjnych).
Skanowano wszystkie źródła od 10 do 30 maja, powtarzając zbiera-
nie danych co 6 godzin. Znaleziono łącznie zaledwie 35 artykułów,
zczego trzy pochodzące zserwisu onet.pl, apozostałe znastępują-
cych proli Facebooka popularnych witryn branżowych: Techno-
winki oraz niebezpiecznik.
Niewielka liczba wyników wynika zdynamicznych zmian wstruktu-
rze stron serwisu onet.pl, która spowodowała niedomagania wdzia-
łaniu modułów skanujących ten serwis bezpośrednio, jak również
jego bliźniaczy prol na Facebooku. Niestety, odświeżenie układu
stron i wprowadzanie nowych funkcjonalności przez dostawców
treści powodują najczęściej konieczność natychmiastowego dosto-
sowania do nich programów skanujących. Dlatego pozyskiwanie
danych poprzez web scraping jest uznawane za bardzo kosztowne
w utrzymaniu w porównaniu zkorzystania z API, i stosuje się je
wostateczności.
3
3. EKSPERYMENT
38
Eksperyment 2: szukamy artykułów zawierających słowo NASK
(wielkość liter bez znaczenia). Skanowano te same źródła co powy-
żej, od 21 marca do 30 kwietnia, co trzy godziny.
3.2. Analiza statystyczna
Do projektu wybrano przetwarzanie wsadowe, które wymaga skom-
pletowania pełnego/zamkniętego zbioru danych wejściowych. Każdy
rekord musi być zapisany wpostaci ilościowej (lub zrekodowanej do
takiej formy).
Podstawą analizy ilościowej są miary tendencji centralnej oraz miary
rozproszenia (wzależności od skali pomiarowej).
Przetwarzanie danych zostanie przeprowadzone metodą funkcji
podobieństwa (metodą liniową). Transformacja danych uzupełniona
zostanie ekstrakcją wstępną, czyli sprowadzeniem zbioru danych
do możliwe optymalnego podzbioru cech, które dają jak największe
możliwości eksploracyjne. Transformacja iekstrakcja wstępna zosta-
nie przeprowadzona za pomocą statystycznej analizy skupień (przy
wykorzystaniu SPSS).
Analiza skupień to zbiór metod wielowymiarowej analizy statystycz-
nej, służących wyodrębnianiu jednorodnych podzbiorów obiektów
badanej populacji obiektów. Metody analizy skupień są stosowane
wówczas, gdy nie dysponujemy hipotezami apriori, abadania są
wfazie eksploracyjnej. Dzięki analizie skupień można wykryć, czy
otrzymane skupienia wskazują na jakąś prawidłowość, dokonać
redukcji dużego zbioru danych do średnich poszczególnych grup,
3.2. ANALIZA STATYSTYCZNA
39
Tabela 2. Statystyki – miary tendencji centralnej imiary rozproszenia.
Liczba
wystąpień hasła
Liczba zdań
wartykule
Średnia liczba
znaków
wartykule
ikomentarzach
Liczba znaków
przestankowych
wartykule
Liczba znaków
przestankowych
wkomentarzach
NWażne 325 325 323 325 17
Braki 0 0 2 0 308
Średnia 2,1969 10,6338 60,38427 19,8615 3,6341
Mediana 2,0000 5,0000 57,40000 6,0000 4,0909
Dominanta 2,00 3,00 57,400 6,00 1,00
Odchylenie standardowe 1,25388 23,97603 25,927020 62,20612 1,37328
Wariancja 1,572 574,850 672,210 3869,601 1,886
3. EKSPERYMENT
40
potraktować rozdzielenie na grupy jako wstęp do dalszych wielo-
wymiarowych analiz25.
Statystyczna analiza skupień będzie zatem dla naszego zbioru suro-
wego (ilościowego) algorytmem selekcji, gdzie ltrem wbudowanym
do wyboru podzbiorów cech będzie podobieństwo/niepodobieństwo
obiektów akryterium stopu: kompletność przeszukania, specyczna
granica ilości iteracji lub ilości cech, brak przyrostu nowych związa-
nych obiektów wklastrze, określony błąd pomiaru.
Istnieją dwa sposoby aglomeracji danych: metody hierarchiczne oraz
grupowanie metodą k-średnich. Wprojekcie zostanie zastosowana
metoda hierarchiczna, która jest nieparametryczna, niewrażliwa na
występowanie szumu ibraków danych oraz nie wymaga apriorycz-
nej konieczności ustalenia dokładnej, zamkniętej struktury zbioru
zmiennych26. Dodatkowo, zaletą wykorzystania hierarchicznych
metody aglomeracyjnej jest zastosowanie jednej, centralnej proce-
dury aglomeracyjnej, podczas której proces grupowania można śle-
dzić awyniki kontrolować.
Do realizacji metody hierarchicznej najczęściej wykorzystywane są
techniki aglomeracyjne, wktórych początkowo każdy obiekt stanowi
osobne skupienie, następnie obiekty leżące najbliżej siebie są łączone
wnowe skupienie aż do uzyskania jednego skupienia. Problemem jest
określenie odległości (czyli zasady wiązania) między nowymi sku-
pieniami, powstającymi zpołączonych obiektów. Istnieje szereg róż-
nych zasad wiązania, które między sobą różnią się jedynie sposobami
25 Brian S. Everitt, Sabine Landau, Morven Leese, Daniel Stahl, Cluster analysis,
5th edition, John Wiley & Sons, Chichester 2011.
26
Kamila Migdał-Najman, Krzysztof Najman, Samouczące się sztuczne sieci neu-
ronowe wgrupowaniu iklasykacji danych. Teoria izastosowania wekonomii,
Wydawnictwo Uniwersytetu Gdańskiego, Gdańsk 2013.
3.2. ANALIZA STATYSTYCZNA
41
obliczania odległości między skupieniami (single linkage metod, com-
plete linkage, UPGMA – unweighted pair-group metod using arithme-
tic averages, WPGMA – weighted pair-group metod using arithmetic
averages, UPGMC – unweighted pair-group metod using the centroid
average, weighted pair-group metod using the centroid average, War d’s
method). Do projektu została wybrana metoda Warda27. Tametoda
różni się od wszystkich pozostałych, ponieważ do oszacowania odle-
głości między skupieniami wykorzystuje podejście analizy wariancji
– zmierza do minimalizacji sumy kwadratów odchyleń dowolnych
dwóch skupień, które mogą zostać uformowane na każdym etapie.
Metoda ta zmierza do minimalizacji sumy kwadratów odchyleń
wewnątrz skupień. Miarą zróżnicowania skupienia względem warto-
ści średnich jest ESS (Error Sum of Squares), zwane również błędem
sumy kwadratów. ESS jest określone wzorem:
=
= −
∑2
1
()
k
i
i
ESS x x
xi – wartość zmiennej będącej kryterium segmentacji dla i-tego
obiektu,
k – liczba obiektów wskupieniu.
Wybór tej metody wynika z jej ponadprzeciętnej efektywności,
tzn.tworzy skupienia statystycznie homogeniczne.
Algorytmy aglomeracyjne są uniwersalne, mogą być stosowane
dla danych ilościowych ijakościowych (zrekodowanych do postaci
numerycznych). Ponadto charakteryzuje je szybkość działania.
Niemniej jednak, do ustalenia końcowej liczby skupień konieczna
jest analiza dendrogramu, który jest ilustracją graczną procesu
27 Joe H. Ward, Hierarchical Grouping in Optimize an Objective Function, „Jour-
nal of the American Statistical Association” 1963, vol. 58.
3. EKSPERYMENT
42
łączenia obiektów. Procedura łączenia zostaje wstrzymana po prze-
kroczeniu ustalonej, progowej wartości miary odmienności pomię-
dzy skupieniami.
Rys. 3. Dendrogram – wynik agregacji metodą Warda
Wzależności od przyjętych założeń badania, wtym zwłaszcza akcep-
towanej odległości taksonomicznej między obiektami ze względu na
zaproponowany zestaw cech, możemy wyróżniać większe lub mniej-
sze skupienia, aco za tym idzie – mniejszą lub większą ich liczbę.
Celem obserwacji kolejności połączeń grup z miernikami charak-
teryzującymi odległość oraz wykluczenia wiązań pozornych (wyni-
kłych np. zpowodu wystąpienia outlayersów), interpretacja iokreśle-
nie granic zbioru cech zostaną przeprowadzone (dla każdej operacji
agregowania) przez badacza.
3.2. ANALIZA STATYSTYCZNA
43
Dodatkowo, na podstawie hierarchicznej analizy skupień, zostaną
skonstruowane numeryczne, zagregowane zmienne czynnikowe,
pozwalające na dalszą analizę data mining ikońcową interpretacje
wyników pomiaru. Wybrany statystyczny algorytm przetwarzania
danych jest optymalny, gdyż zapewnia reprezentację dużych ilości
danych, atakże agreguje te dane, przez co przyspiesza proces prze-
szukiwania, przetwarzania, klasykacji, oraz dyskryminacji wzorców.
Dobór próby do analizy jakościowej.
W sytuacji pomiarów, gdzie wystąpi duża liczba rekordów, zosta-
nie zastosowanydobór systematyczny losowania próby do analizy
jakościowej. Dobór systematyczny polega na wyborze z uporząd-
kowanego zbioru odpowiedniej liczby jednostek wrównych odstę-
pach (interwałach). Najpierw ustala się liczebność (N) całej zbioro-
wości, anastępnie liczebność (n) próby ina tej podstawie ustala się
interwał losowania k = N/n. Poczynając następnie od losowo obranej
jednostki pierwszego interwału dobiera się kolejno co k jednostek
zkażdego interwału po jednej jednostce, aż osiągnie się pożądaną
wielkość próby losowej.
Wielkość próby dla takiego losowania będzie liczona ze wzoru:
α
=−
+
2
2
( 1)
1
b
N
ndN
z pq
N – liczność populacji;
p – spodziewany rząd wielkości szacowanej frakcji;
q – 1 – p;
z
α
– 1,64 dla
α
= 0,10;
1,96 dla
α
= 0,05;
2,58 dla
α
= 0,01;
d – dopuszczalny błąd szacunku frakcji p.
3. EKSPERYMENT
44
3.3. Analiza jakościowa
Projekt miał na celu stworzenie aplikacji umożliwiającej gromadze-
nie danych oraz realizację analizy jakościowej zgodnie zzałożeniami
metodologicznymi teorii ugruntowanej opracowanej przez Glasera
iStraussa28.
Filarami teorii ugruntowanej są trzy zasady:
• Badania należy rozpoczynać bez przyjmowania wstępnej hipo-
tezy, dzięki temu unikamy sytuacji, w której istniejące teorie
wpłyną na spostrzeganie badanego zjawiska.
• Druga zasada polega na nieustannym porównywaniu ze sobą
zebranych fragmentów materiału empirycznego. To porówna-
nie prowadzi do określenia kodów służących do porządkowania
izinterpretowania materiału wcelu wyróżnienia najważniejszych
kategorii, zktórych zostanie zbudowana teoria dotycząca bada-
nego zjawiska.
• Trzecia zasada to teoretyczne pobieranie próbek. Polega na tym,
że materiał do badania wybieramy wtaki sposób, by poszerzyć
naszą znajomość problemu, a nie by uzyskać jedynie próbkę
reprezentatywną.
Teoria ugruntowana wymaga od badacza przestrzegania wyznaczo-
nych reguł postępowania. Zgodnie z założeniami metody należy
podchodzić do badanego przedmiotu wsposób otwarty, bez przy-
wiązywania większej wagi do tworzenia hipotez już wpoczątkowym
stadium badania. Jednak oczywiste jest, że każdy badacz wnosi do
procesu badawczego swój sposób myślenia, przekonania izałożenia,
28 Barney Glaser iAnselm L. Strauss, Odkrywanie teorii ugruntowanej. Strategie
badania jakościowego, Zakład Wydawniczy Nomos, Kraków 2009.
3.3. ANALIZA JAKOŚCIOWA
45
które nabył wtrakcie życia29. Ważne jest, żeby badacz miał świado-
mość, wjakim stopniu jego sposób interpretacji wynika zbadanej
rzeczywistości, awjakim zjego uprzedzeń, przekonań ipreferencji.
Proces badania zgodnie zzałożeniami teorii ugruntowanej składa się
ztrzech rodzajów działań:
• zbierania danych;
• kodowania iidentykowania idei lub koncepcji;
• generowania teorii.
Przy zbieraniu danych wbadaniach prowadzonych zgodnie zzalece-
niami teorii ugruntowanej należy kierować się zasadą teoretycznego
pobierania próbek. Dane należy zbierać tak długo, aż osiągniemy
stan nasycenia teoretycznego, co oznacza, że dalsze zbieranie danych
nie wzbogaci już wiedzy obadanym zjawisku inie pomoże wdal-
szym rozwijaniu tworzonej przez badacza teorii.
Oprogramowanie zostało tak zaprojektowane, żeby wwymaganym
stopniu umożliwiać tworzenie właściwego zbioru danych. Dane skła-
dają się ze zbioru artykułów pozyskiwanych według zadanego przez
badacza zapytania zbudowanego zinteresującego go hasła bądź kilku
haseł. Progi nasycenia teoretycznego mogą być ustalone na dwa spo-
soby: pierwszy to liczba artykułów wzbiorze, drugi to czas zbiera-
nia artykułów. Czas zbierania artykułów jest szczególnie istotny przy
badaniu dynamiki zjawisk, zwłaszcza tych pojawiających się nagle
iszybko przemijających.
29 Constance T. Fischer, Bracketing in qualitative research: Conceptual and
practical matters, „Psychotherapy Research” 2009, 19(4–5), s. 583–590.
doi:10.1080/10503300902798375.
3. EKSPERYMENT
46
Zwiększenie wiarygodności badań zapewnia triangulacja danych,
która wpraktyce realizowana jest poprzez sięganie po dane zróżnych
źródeł. Stworzona aplikacja umożliwia w każdym uruchomionym
eksperymencie pobieranie danych zwielu źródeł, np. portali twitter.
com, facebook.com oraz onet.pl. Ponadto dane te mogą być pobiera-
nie wróżnym, określonym przez badacza czasie.
Zgromadzone wten sposób dane powinny być poddane kodowaniu.
Kodowanie to jeden znajważniejszych etapów projektu badawczego
prowadzonego zgodnie z zaleceniami teorii ugruntowanej. W tej
fazie badania przechodzimy od danych do kategorii abstrakcyjnych,
zktórych wkońcowym etapie powstanie teoria średniego zasięgu.
Badacze stosują różne strategie kodowania materiału empirycznego:
słowo po słowie, wiersz po wierszu, zdarzenie po zdarzeniu30. Wszyst-
kie trzy strategie mają na celu dostrzeżenie nowych zjawisk wdobrze
znanym na pozór materiale31. Kodowanie słowo po słowie pozwala
skoncentrować uwagę na niuansach. Kodowanie wiersz po wierszu
narzuca spojrzenie na kodowany tekst przez pryzmat podziału na
wiersze. Najbardziej zbliżoną do naturalnego sposobu spostrzegania
narracji wydaje się być analiza ikodowanie zdarzenie po zdarzeniu.
Jednakże wybór strategii kodowania jest uzależniony od wielu czyn-
ników, między innymi od długości analizowanego tekstu.
Zaprojektowane oprogramowanie posiada możliwość quasi kodowa-
nia, które może być przeprowadzone przezzastosowanie specjalnego
typu metryki pozwalający użytkownikowi wprowadzać własne oceny
30 Kathy Charmaz, Teoria Ugruntowana. Praktyczny przewodnik po analizie jako-
ściowej, WN PWN, Warszawa 2009.
31 Judith A. Holton, e Coding Process and Its Challenges, „e Grounded e-
ory Review” 2010, vol. 9, nr 1, s.21–38.
3.3. ANALIZA JAKOŚCIOWA
poszczególnych artykułów. Ocenama postać liczby zczęścią ułam-
kową; takie ograniczenie umożliwia późniejsze, jednolite przetwa-
rzanie ocen. Denicja typów ocen ma charakter opisowy; użytkow-
nik może wprowadzić dowolną liczbę typów ocen.
Kodowanie idalsze etapy badania mogą być realizowane poprzez
wykorzystanie specjalistycznego oprogramowania zewnętrznego,
takiego jak MAXQDA, Nvivo lub Atlas. Programy te nie tylko uła-
twiają kodowanie, ale także oferują graczną wizualizację struktury
badanego materiału. Stworzone oprogramowanie nie będzie stwa-
rzało badaczowi ograniczeń wkorzystaniu zzewnętrznych progra-
mów do analizy pogłębionej, dzięki eksportowi danych do pliku
wpopularnym formacie xlsx.
W kolejnym etapie zakodowane opisy powinny być grupowane
wkategorie, co ułatwia porzucenie myślenia okonkretnych zdarze-
niach na rzecz analizy wkategoriach na wyższym poziomie abstrak-
cji. Analiza kategorii może doprowadzić do tworzenia teorii odnoś-
nie do badanego zjawiska.
49
WYNIKI
4.1. Analiza statystyczna danych
Eksperyment „NASK”
Małe zróżnicowanie źródeł obserwacji, które wynikało zdynamicz-
nych zmian w strukturze stron serwisu Onet.pl, ma swój wyraz
wotrzymanej strukturze rekordów. Dominują obserwacje zTwittera
(89,5%), rekordy zFacebooka stanowią 8,3%, a z Onet.pl jedynie
2,2% (patrz tabela 3).
Tabela 3. Rozkład procentowy i częstości źródeł rekordów weksperymen-
cie „NASK”
Częstość Procent
Twitter 291 89,5
Facebook 27 8,3
Onet 7 2,2
Ogółem 325 100,0
Miary tendencji centralnej imiary rozproszenia
Średnio liczba wystąpień hasła „NASK” wartykule wyniosła 2 razy,
średnia (mediana) pozycja pierwszego wystąpienia hasła to 19,0%
wstosunku do pierwszego słowa wartykule, średnia (mediana) liczba
4
4. WYNIKI
50
zdań wartykule ikomentarzach – 5, średnia (mediana) liczba znaków
wartykule iwkomentarzach – ok. 58, aznaków przestankowych – 6
(wtym wkomentarzach – 4) oraz hashtagów – 0, natomiast średnia
(mediana) liczba emotikonów wkomentarzach – 0,26, średnia liczba
słów pozytywnych inegatywnych lub zkategorii: błąd, zaufanie, uży-
teczność, nieużyteczność, wiedza, niewiedza – 0 (patrz tabela 4).
Transformacja iekstrakcja – analiza skupień
Analiza skupień pozwala na eksploracje danych i poszukiwanie
zależności całych grup zmiennych. Przykładowo odnotowano nastę-
pujące korelacje:
• Częściej hasło „NASK” występowało na Twitterze niż Facebo-
oku czy Onet.pl, natomiast na FB iOnet.pl, „NASK” jest częściej
pozycjonowane wtytule ilub na początku wpisu/artykułu (patrz
rys.4).
• Emocjonalny charakter wypowiedzi (negatywnej lub pozytywnej)
mocniej jest związana zliczbą wystąpień samego hasła „NASK”
niż zjego pozycją wartykule (patrz rys.5).
• Emocjonalnanaturatreści (negatywna lub pozytywna) mocniej
jest także związana zliczbą zdań wartykule, im większa liczba
zdań wartykule, tym częściej występowały narracje uczuciowe
(patrz rys.6).
• Treści ocharakterze pozytywnym lub negatywnym zdecydowa-
nie częściej występują na Facebook i Onecie niż na Twitterze
(patrz rys. 7).
• Artukuły/wpisy na Facebooku iOnet.pl zdecydowanie częściej
zawierają słowa owydźwięku – ‘błąd’, niewiedza’, ‘nieużyteczność’,
natomiast wmniejszym stopniu słowa owydźwięku – ‘zaufanie’,
‘wiedza’i‘użyteczność’. Wpisy na Twitterze nie korelują zżadnymi
zbiorami słów o wspomnianym wcześniej wydźwięku (patrz
rys.8).
4.1. ANALIZA STATYSTYCZNA DANYCH
51
Rys. 4. Dendrogram – wynik agregacji zmiennych „źródło”, „pozycja hasła wartykule”, „liczba
wystąpień hasła”
4. WYNIKI
52
Tabela 4. Statystyki – miary tendencji centralnej imiary rozproszenia – eksperyment „NASK”
L. wyst. hasła
Poz.1.wyst
L.zdan.artykule.i.kom.
Sred.l.znak.w.art.kom
Znaki.przest
S.l.znaków.kom
S.l.emotikon.kom
L.hash.w.art.i.kom
L.slow.pozytyw.
art.i.kom
N325 325 325 323 325 17 24 325 325 325
bd 0 0 2 0 308 301 0 0 0
M 2,197 23,499 10,6338 60,384 19,862 3,634 0,266 1,132 2,846
Me 2,000 19,000 5,000 57,400 6,000 4,091 0,261 0,000 0,000
D 2,00 2,00 3,00 57,400 6,00 1,00 0,00 0,00 0,00
Σ 1,254 20,685 23,976 25,927 62,206 1,373 0,178 1,781 13,834
Var 1,572 427,850 574,850 672,210 3869,601 1,886 0,032 3,171 191,377
4.1. ANALIZA STATYSTYCZNA DANYCH
53
L.slow.negatyw.art.i.ko
L.slow.błąd.art.i.kom
L.slow.zaufanie.art.i.kom
L.slow.uzytecznosc.art.i.kom
L.slow.nieuzytecznosc.ar.kom
L.slow.wedza.art.i.kom
L.slow.niewiedza.art.i.kom
NN 325 325 325 325 325 325 325
bd. 0 0 0 0 0 0
M4,0400 1,4308 1,9477 2,5908 1,3385 0,7692 0,4985
Me 0,00 0,00 0,00 0,00 0,00 0,00 0,00
D0,00 0,00 0,00 0,00 0,00 0,00 0,00
Σ 15,51647 6,51108 7,54822 8,98019 6,60312 3,72417 2,38129
Var 240,761 42,394 56,976 80,644 43,601 13,869 5,671
4. WYNIKI
54
Rys. 5. Dendrogram – wynik agregacji zmiennych „liczba wystąpień słów pozytywnych”, „liczba
wystąpień słów pozytywnych”, „liczba wystąpień hasła”
4.1. ANALIZA STATYSTYCZNA DANYCH
55
Rys. 6. Dendrogram – wynik agregacji zmiennych „liczba wystąpień słów pozytywnych”, „liczba
wystąpień słów pozytywnych”, „liczba zdań wartykule”, „średnia liczba znaków wartykule”
4. WYNIKI
56
Rys. 7. Dendrogram – wynik agregacji zmiennych „źródło”, „liczba wystąpień słów pozytywnych”,
„liczba wystąpień słów negatywnych”
4.1. ANALIZA STATYSTYCZNA DANYCH
57
Rys. 8. Dendrogram – wynik agregacji zmiennych „źródło”, „liczba wystąpień słów ‘błąd’”, „liczba
wystąpień słów ‘zaufanie’”, „liczba wystąpień słów ‘wiedza”, „liczba wystąpień słów ‘użyteczność’”,
„liczba wystąpień słów ‘niewiedza”, „liczba wystąpień ”, „liczba wystąpień słów ‘nieużyteczność’”
4. WYNIKI
58
Pokazana tu ranacja nie ma charakteru reprezentatywności, ponie-
waż eksperyment został przeprowadzony wmomentach czasowych
wybranych przypadkowo, a samo zbieranie danych zostało obar-
czone błędem zmian wstrukturze stron serwisu Onet.pl. Jednakże,
powyższe analizy są przykładami obrazującymi możliwości proto-
typu aplikacji.
Eksperyment „bezpieczeństwo cyfrowe”
W eksperymencie „Bezpieczeństwo cyfrowe”, małe zróżnicowanie
próby badawczej jest jeszcze większe niż weksperymencie „NASK”,
przyczyny tego zostały już wyjaśnione wcześniej. Dominują tutaj
obserwacje zFacebooka (91,2%), rekordy zOnet.pl stanowią jedynie
8,9%, azTwittera jest ich wpróbie brak (patrz tabela 5).
Tabela 5. Rozkład procentowy iczęstości źródeł rekordów weksperymencie
„Bezpieczeństwo cyfrowe”
Częstość Procent
Twitter 0 0,0
Facebook 31 91,2
Onet 3 8,9
Ogółem 34 100,0
Miary tendencji centralnej imiary rozproszenia
Średnio (mediana) liczba wystąpień hasła „Bezpieczeństwo cyfrowe”
wartykule wyniosła 1, średnia (mediana) pozycja pierwszego wystą-
pienia hasła to 34,0% wstosunku do pierwszego słowa wartykule,
średnia (mediana) liczba zdań wartykule ikomentarzach – 88, śred-
nia (mediana) liczba znaków wartykule i w komentarzach – 271,
a znaków przestankowych – 4, hashtagów – 0, natomiast średnia
4.1. ANALIZA STATYSTYCZNA DANYCH
59
(mediana) liczba emotikonów wkomentarzach – 0,30, średnia liczba
słów pozytywnych – 35 inegatywnych – 45, azkategorii: błąd – 21,
zaufanie – 22, użyteczność – 27, nieużyteczność – 20, wiedza – 10,
niewiedza – 9 (patrz tabela 6).
Transformacja iekstrakcja – analiza skupień
Również tutaj, celom poglądowym została wykonana analiza sku-
pień, celem wstępnej ekstrakcji zmiennych onajwyższym ładunku
predykcji. Przykładowo odnotowano następujące korelacje:
• Zarówno negatywny, jak ipozytywny wydźwięk koreluje pozy-
tywnie z liczbą wystąpień hasła. W przypadku pozycji pierw-
szego hasła wartykule brak jest zależności zwydźwiękiem (patrz
rys.9).
• Pozytywny wydźwięk artykułu/wpisu koreluje pozytywnie
zliczbą zdań iznaków wartykule/wpisie (patrz rys. 10).
• Średnia liczba emotikonów i znaków przestankowych nie ma
wpływu na wydźwięk artykułu/wpisu (patrz rys. 11).
• Wydźwięk pozytywny, dodatnio koreluje zsłowami zkategorii:
„błąd”, „nieużyteczność”, „niewiedza”, natomiast negatywny ze
słowami z kategorii: „zaufanie”, „wiedza”, „użyteczność” (patrz
rys. 12).
4. WYNIKI
60
Tabela 6. Statystyki – miary tendencji centralnej imiary rozproszenia – eksperyment „Bezpieczeństwo cyfrowe”
L.wyst.hasla
Poz.1.wyst
L.zdan.artykule.i.kom.
Sred.l.znak.w.art.kom
Znaki.przest
Sred.l.emot.w.kom
L.hash.w.art.i.kom
L.slow.pozytyw.art.i.kom
N34 34 34 34 31 31 34 34 34
000033000
M 1,2059 33,9706 97,9706 300,3824 4,03800 ,35639 ,6176 55,2941
Me 1,0000 34,0000 87,5000 271,0000 3,98148 ,30435 ,0000 34,5000
D 1,00 34,00 64,00a10,00a2,562a,050a,00 ,00a
Σ ,59183 24,61520 73,23209 239,89215 1,076111 ,193556 1,53770 51,20105
Var ,350 605,908 5362,939 57548,243 1,158 ,037 2,365 2621,547
4.1. ANALIZA STATYSTYCZNA DANYCH
61
L.slow.negatyw.art.i.ko
L.slow.błąd.art.i.kom
L.slow.zaufanie.art.i.kom
L.slow.uzytecznosc.art.i.kom
L.slow.nieuzytecznosc.ar.kom
L.slow.wedza.art.i.kom
L.slow.niewiedza.art.i.kom
N34 34 34 34 34 34 34 34
0 0 0 0 0 0 0 0
M68,3235 27,7941 34,6765 42,0588 25,2059 14,1176 9,5294
Me 45,0000 20,5000 22,0000 27,0000 19,5000 10,0000 8,5000
D 1,00a,00a22,00 1,00a,00 8,00 ,00
Σ67,75210 25,58856 36,01071 42,07853 24,61680 13,59092 9,21210
Var 4590,347 654,775 1296,771 1770,602 605,987 184,713 84,863
4. WYNIKI
62
Rys. 9. Dendrogram – wynik agregacji zmiennych: „liczba wystąpień hasła”, „liczba wystąpień
słów pozytywnych”, „liczba wystąpień słów negatywnych”, „pozycja wystąpienia 1 hasła”
4.1. ANALIZA STATYSTYCZNA DANYCH
63
Rys. 10. Dendrogram – wynik agregacji zmiennych „liczba zdań wartykule”, „średnia liczba zna-
ków awartykule ikomentarzach”, „liczba wystąpień słów pozytywnych”, „liczba wystąpień słów
negatywnych”
4. WYNIKI
64
Rys. 11. Dendrogram – wynik agregacji zmiennych „liczba znaków przestankowych”, „średnia
liczba emotikonów w artykule i komentarzach”, „liczba wystąpień słów pozytywnych”, „liczba
wystąpień słów negatywnych”
4.1. ANALIZA STATYSTYCZNA DANYCH
65
Rys. 12. Dendrogram – wynik agregacji zmiennych „liczba wystąpień słów pozytywnych”, „liczba
wystąpień słów negatywnych”, „liczba wystąpień słów błąd”, „liczba wystąpień słów zaufa-
nie”, „liczba wystąpień słów wiedza”, „liczba wystąpień słów użyteczność”
4. WYNIKI
66
Reasumując, przedstawione wcześniej ekstrakcje przy użyciu hie-
rarchicznej analizy skupień są jedynie przykładem możliwości two-
rzenia pogłębionej analizy danych zebranych za pomocą prototypu
CONTENT1.0. Aby dokonać selekcji zmiennych (istotnych zpunktu
widzenia poprawienia efektywności wyboru), należy przeprowadzić
dodatkowe eksperymenty na rozszerzonych zbiorach treści interneto-
wych. Niemniej jednak, już na tym etapie analizy, głębokość zbierania
danych prototypu (wraz zzakładanym algorytmem ekstrakcji zmien-
nych) pozwala stwierdzić, że wchwili obecnej nie ma polskim rynku
tak zaawansowanego oprogramowania do analizy ilościowej tekstów
internetowych.
4.2. Analiza jakościowa danych
Głównym celem przeprowadzonej analizy danych było sprawdzenie,
czy zaprojektowane iwyprodukowane oprogramowanie umożliwia
taką analizę ina ile jest ona funkcjonalna.
Zbieranie danych iich jakość
Zbieranie danych zostało przetestowane wtrakcie realizacji głównego
eksperymentu „NASK”, który zebrał 325 artykułów zportali Twitter
(n=291), Facebook (n=27) iOnet (n=7). Wtrakcie analizy oka-
zało się jednak, że 45 artykułów nie ma związku zbadanym hasłem,
które wystąpiło jedynie jako część innego wyrazu, np. naskoczyć,
naskórek. Pozostałe 280 artykułów spełniało wymagania i zostało
poddane dalszej analizie.
4.2. ANALIZA JAKOŚCIOWA DANYCH
67
Program umożliwiał wstępne przeglądanie danych iczytanie całych
artykułów woknach typu pop-up. Co ważne prawidłowo wyświe-
tlały się również wprowadzone wtwittach emotikony (rys. 13).
Rys. 13. Przykładowe okno zwpisem zwidocznymi emotikonami
Przetestowano wprowadzanie ocen w zdeniowanych metrykach.
Zwykorzystaniem przygotowanej metryki „zgodność” została zre-
alizowana wstępna ocena związku artykułu zwyszukiwanym hasłem.
Zastosowano kodowanie 0-brak związku; 1-jest związek.
Eksport danych
Wkolejnym kroku przeprowadzono export danych do pliku wfor-
macie xlsx. Eksport przebiegł pomyślnie, plik wynikowy zawierał
wszystkie kategorie danych: artykuły oraz oceny. Artykuły zawierały
pełne treści zemotikonami ihiperłączami.
Następnie w programie Excel, plik z pozyskanymi danymi został
przygotowany doexportu do specjalistycznego programu MAXQDA
poprzez dodanie nagłówków kolumn zgodnie z wymaganiami
programu MAXQDA. Dane z tak przetworzonego pliku zostały
zpowodzeniem zaimportowane do programu MAQDA, wktórym
zostały poddane dalszemu procesowi nadawania kodów oraz ich
kategoryzacji.
4. WYNIKI
68
Rezultaty analizy jakościowej
Wtrakcie analizy artykułów ujawniły się następujące kody:
• Informacje oOSE
• Nagroda dla OSE
• Akademia NASK
• Dzień Nowych technologii wEdukacji
• Mistrzowie kodowania/programowania
• Konkurs dla studentów
• Badania
• Edukacja
• Innowacja
• Cyberbezpieczeństwo
• NASK jako dostawca Internetu
• NASK rejestracja domen
• Konferencja SECURE
• Wysokie kompetencje
• Nowy minister
• EDZ
Wkolejnym kroku dokonano połączenia kodów wkategorie:
• Profesjonalizm informatyczny
o NASK jako dostawca Internetu
o NASK rejestracja domen
o Cyberbezpieczeństwo
o Konferencja SECURE
o Wysokie kompetencje
• Edukacja wspołeczeństwie informacyjnym
o OSE
Informacje oOSE
Nagroda dla OSE
4.2. ANALIZA JAKOŚCIOWA DANYCH
69
Tabela 7. Kategoria: Edukacja wspołeczeństwie informacyjnym – częstości
wystąpień kodów składowych
Kod Częstość wystąpień
OSE 76
Edukacja 10
Innowacja 10
Mistrzowie kodowania/programowania 8
Akademia NASK 4
Dzień Nowych Technologii wEdukacji 4
Konkurs dla studentów 4
Badania 2
Razem 118
Tabela 8. Profesjonalizm informatyczny – częstości wystąpień kodów skła-
dowych
Kod Częstość wystąpień
Cyberbezpieczeństwo 58
NASK rejestracja domen 11
Konferencja SECURE 4
Wysokie kompetencje rmy 3
Dostawca Internetu 2
Razem 78
o Edukacja
o Innowacja
o Akademia NASK
o Dzień Nowych technologii wEdukacji
4. WYNIKI
o Mistrzowie kodowania/programowania
o Konkurs dla studentów
o Badania
• Ministerstwo
o Nowy minister
o EDZ
Na podstawie przeprowadzonej analizy można stwierdzić, żewprze-
szukiwanych źródłach „NASK” najczęściej występował wzwiązku
zrealizacją projektu OSE oraz działań edukacyjnych narzecz roz-
woju społeczeństwa informacyjnego. Często również pojawiały się
informacje oprofesjonalnej działalności informatycznej rmy, szcze-
gólnie wzakresie cyberbezpieczeństwa irejestracji domen.
Szczególnie popularne były twitty o nagrodzie dla projektu OSE
(44wystąpienia) oprzykładowej treści:
„RT @MC_GOV_PL: 🏆 Projekt Ogólnopolskiej Sieci Edukacyjnej #OSE
😁🏫 zdobył prestiżową nagrodę @ITU 🏅WSIS Prizes 2018 💪 @MC_
GOV_PL @NASK_pl @M ”
lub
„RT @NASK_pl: To wielki sukces! Dziękujemy internautom, ekspertom
z@ITU @WSISprocess iwszystkim wspierającym program #OSE – to nas
w i e l k i …”
Wysoka częstość tego typu informacji wynikała głównie ztego, że
była ona przesyłana dalej przez kolejnych użytkowników internetu,
natomiast źródłowe informacje wychodziły zMinisterstwa Cyfryza-
cji oraz NASK PIB. Podobnie sytuacja wyglądała wprzypadki ogól-
nych informacji odnośnie realizacji projektu OSE.
71
KONKLUZJE IPOSTULATY
5.1. Bariery iszanse
Dalej przedstawiono wyniki analizy SWOT dla dostarczonego sys-
temu informatycznego:
Silne strony:
• uwzględnienie struktury artykułu we wszelkich zadaniach anali-
tycznych;
• złożona, elastyczna składnia kwerendy;
• szerokie możliwości parametryzacji widoków wyników;
• tabelaryczny układ wyników, ułatwiający współpracę z innymi
narzędziami;
• najlepszy aktualnie dostępny słownik pojęć nacechowanych emo-
cjonalnie;
• możliwość rozwijania iedycji słownika;
• możliwość wystawiania własnych ocen artykułów;
• nowoczesna, rozwojowa architektura informatyczna systemu;
• całkowita kontrola nad kodem źródłowym aplikacji;
• stosunkowo szybka prędkość edycji macierzy danych.
5
5. KONKLUZJE IPOSTULATY
72
Słabe strony:
• konieczność zastosowania web scrapingu, podatnego nazmianę
układu stron www skanowanego serwisu onet.pl;
• ograniczenie wydajności skanowania serwisów Facebook iTwit-
ter zuwagi na politykę korzystania zAPI dostawców;
• ograniczona kontrola nad sposobem wyszukiwania www. serwi-
sach;
• sens niektórych metryk ograniczony tylko do niektórych źródeł
danych;
• złożona architektura kodu źródłowego, wymagająca zespołu
oodpowiednich kwalikacjach wcelu dalszego rozwoju systemu;
• kod źródłowy nie został gruntownie przetestowany ani poddany
audytom;
• brak pełnej kompatybilności do eksportu do SPSS Statistics;
• brak obsługi polskiej eksji isynonimów;
• brak możliwości oznaczania kodem wybranych fragmentów
artykułu.
Szanse:
• łatwość rozbudowy do wpełni funkcjonalnej aplikacji sieciowej
ikomercjalizacji wmodelu SaaS;
• gotowość do bieżącego używania przez specjalistów w celu
świadczenia komercyjnych usług analitycznych oraz prowadze-
nia badań naukowych;
• możliwość obudowania wtórnym API dla danych przetworzonych;
• skalowalność pozioma (skanowanie kolejnych, nowych źródeł)
ipionowa (większa wydajność skanowania aktualnych serwisów
poprzez zrównoleglenie);
• możliwość zawarcia umów partnerskich z dostawcami treści
iskanowania na uprzywilejowanych zasadach;
• możliwość adaptacji do pogłębionej ilościowej analizy danych –
nieobecnej na polskim rynku;
5.2. KIERUNKI ROZWOJU
73
• łatwość wdrożenia mechanizmów głębszej analizy języka natu-
ralnego.
Zagrożenia:
• restrykcje wpolityce dostępu do obecnych iinnych źródeł danych;
• rozwiązania konkurencyjne – ograniczona dostępność do dużych
zbiorów danych;
• brak czytelnych, uzgodnionych ipopartych zasobami ścieżek dal-
szego rozwoju.
5.2. Kierunki rozwoju
Pod względem architektonicznym, system CONTENT 1.0 umożli-
wia płynny dalszy rozwój. Już obecnie działa jako aplikacja sieciowa
na dzierżawionej maszynie wirtualnej, co umożliwia dalsze skalowa-
nie wydajności zarówno poprzez zwiększenie wydajności maszyny
wirtualnej (tj. bez ingerencji warchitekturę), jak ipoprzez zwielo-
krotnienie instancji mikrousług iwprowadzenie narzędzi koordynu-
jących (kontenery, kolejki).
Architektura, a zwłaszcza architektura mikrousługowa, wiąże się
ściśle zfunkcjonalnością, gdyż kluczowe operacje analityczne oraz
interfejs do bazy danych realizowane są poprzez dedykowane kom-
ponenty. Oznacza to, że modykacje określonych aspektów funkcjo-
nowania systemu (np. logiki ltrowania artykułów, zapisu do bazy,
a w przyszłości np. uwierzytelnienia i płatności) dokonywane są
zazwyczaj tylko wjednym, odpowiedzialnym komponencie. Ułatwia
to modykacje i dodawanie nowych źródeł danych oraz narzędzi
analitycznych.
5. KONKLUZJE IPOSTULATY
Wykorzystany słownik „Słowosieć” daje możliwość edycji itworze-
nia własnych sub-słowników na podstawie analizy semantycznej
indukowanych eksperymentów, niemniej jednak, aby wpełni wyko-
rzystać jego zalety, należy podjąć prace nad rozbudową słownika
okatalog polskich eksji isynonimów.
Osobnym zagadnieniem jest dostęp i agregacja dużych zbiorów
danych (co wiąże się zdodatkowymi kosztami), dlatego też, należy
podjąć kroki celem tworzenia NASK-owej bazy danych interneto-
wych zarówno dla dominujących mediów, jak i mediów specjali-
stycznych, np.: edukacja, bankowość, telekomunikacja, technologie
cyfrowe itp. Opracowany prototyp aplikacji może być także wyko-
rzystany do analizy danych zastanych czyli archiwów cyfrowych.
75
BIBLIOGRAFIA
Bochenek Marcin, Rok pilotażu OSE, [w:]Akademia NASK, OOSE,
https://akademia.nask.pl/projekt-48/o-projekcie.html, pobrane
dn. 17.07.2018.
Charmaz Katchy, Teoria Ugruntowana. Praktyczny przewodnik po
analizie jakościowej, WN PWN, Warszawa 2009.
Cox Michael i Ellsworth David, Managing Big Data for Scientic
Visualization, 1997, ACM SIGGRAPH ‘97Course #4, Explo-
ring Gigabyte Datasets in Real-Time: Algorithms, Data Mana-
gement, and Time-Critical Design, Los Angeles, zob.: https://
www.researchgate.net/profile/David_Ellsworth2/publica-
tion/238704525 _Managing_big_data_for_scientic_visualiza-
tion/links/54ad79d20cf2213c5fe4081a/Managing-big-data-for-
-scientic-visualization.pdf, pobrane dn. 13.07.2018.
Everitt Brian S., Landau Sabine, Leese Morven, Stahl Daniel, Cluster
analysis, 5th edition, John Wiley & Sons, Chichester 2011.
Fischer, Constance T., Bracketing in qualitative research: Conceptual
and practical matters, „Psychotherapy Research” 2009, 19(4–5),
s.583–590.
Glaser Barney i Strauss Anselm L., Odkrywanie teorii ugruntowa-
nej. Strategie badania jakościowego, Zakład Wydawniczy Nomos,
Kraków 2009.
76
BIBLIOGRAFIA
76
Gniadek Anna, Rakowska Weronika, Szladowski Tomasz, Rynek
nazw domeny.pl. Raport roczny. Wersja elektroniczna zob.:
https://www.dns.pl/NASK-raport-rynek-nazw-domeny-pl-2017.
pdf, pobrane dn. 10.07.2018.
Gogołek Wodzimierz, Big Data. Sieciowe źródło informacji dla edu-
kacji, [w:] Cyfrowa przestrzeń kształcenia, Seria Cyberprzestrzeń
– Człowiek – Edukacja. Tom 1. Praca zbiorowa pod red. Macieja
Tanasia iSylwii Galanciak, Ocyna Wydawnicza „Impuls”, Kra-
ków 2015, s.97–104.
Gogołek Wodzimierz, Kuczma Paweł, Ranacja informacji sieciowych
na przykładzie wyborów parlamentarnych. Część 1. Blogi, fora,
analiza sentymentów, „Studia Medioznawcze” 2013, nr 2(53).
Gogołek Wodzimierz, Ranacja informacji sieciowej, [w:] Informa-
tyka wdobie XXI wieku. Nauka, Technika, Edukacja anowoczesne
technologie informatyczne. Praca zbiorowa pod red. Aleksandra
Jastriebowa, BeatyKuźmińskiej-Sołśnia, Marii Raczyńskiej, Poli-
technika Radomska, Radom 2011.
Gogołek Wodzimierz, Jaruga Dariusz, Zbadań nad systemem rana-
cji sieciowej. Identykacja sentymentów, „Studia Medioznawcze”
2016, nr 4 (67), s.104–105.
Holton Judith A., e Coding Process and Its Challenges, „e Groun-
ded eory Review” 2010, vol. 9, nr 1, s.21–38.
Inteligentne urządzenia wokół nas. Aco znaszym bezpieczeństwem?,
„Interia Biznes” 17.02.2018, www.biznes.interia.pl, pobrane dn.
13.07.2018.
Katal Avita, Wazid Mohammad, Goudar R.H., Big Data: Issues,
Challenges, Tools and Good Practices, 2013, Sixth International
Conference on Contemporary Computing (IC3), IEEE, Noida,
s.404–409.
Korczak J., Franczyk B., Big Data – denicje, wyzwania itechnologie
informatyczne, „Informatyka Ekonomiczna. Business Informa-
tics” 2014, nr 1(31), s.141.
7777
BIBLIOGRAFIA
Krajobraz bezpieczeństwa polskiego internetu 2016. Raport roczny
zdziałalności CERT Polska, NASK/CERT Polska 2016, s.23–29.
Laney Doug, 3D DataManagement: Controlling Data Volume,
Velocity, and Variety, „Application Delivery Strategies” 2001,
META Group Inc. Zob.: https://blogs.gartner.com/doug-laney/
les/2012/01/ ad949-3D-Data-Management-Controlling-Data-
-Volume-Velocity-and-Variety.pdf, pobrane dn. 13.07.2018.
Locke Karen (2001), Grounded eory in Management Research,
Sage, London 2001.
Mayer-Schönberger Wiktor, Cukier Kenneth, ARevolution that will
transform how we live, work and think, Boston–New York 2013.
Migdał-Najman Kamila, Najman Krzysztof, Samouczące się sztuczne
sieci neuronowe wgrupowaniu iklasykacji danych. Teoria izasto-
sowania w ekonomii, Wydawnictwo Uniwersytetu Gdańskiego,
Gdańsk 2013.
Słowosieć, TBC.
Ustawa oOgólnopolskiej Sieci Edukacyjnej została jednogłośnie przy-
jęta przez Senat RP 10.11.2017, anastępnie podpisana przez Pre-
zydenta RP iogłoszona 28 listopada wDzienniku Ustaw 2017,
poz. 2184, tom 1.
Ward Joe H., Hierarchical Grouping in Optimize an Objective Func-
tion, „Journal of the American Statistical Association” 1963,
vol.58.
e Zettabyte Era: Trends and Analysis, White Papers, Cisco,https://
www.cisco.com/c/en/us/solutions/ collateral/service-provider/
visual-networking-index-vni/vni-hyperconnectivity-wp.html,
pobrane dn. 13.07.2018.
Strony internetowe
http://hadoop.apache.org/.
http://storm.apache.org/.
BIBLIOGRAFIA
http://stratosphere.eu/.
https://ink.apache.org/.
https://hadoop.apache.org/.
https://impala.apache.org/.
https://kaa.apache.org/.
79
O AUTORACH
Maciej Tanaś – kierownik Pracowni Edukacyjnych Zastosowań
Technologii Informacyjno-Komunikacyjnych oraz przewodniczący
Naukowego Kolegium Ekspertów NASK. Profesor APS i NASK PIB.
Doktor honoris causa Winnickiego Państwowego Uniwersytetu Peda-
gogicznego im.Michała Kociubińskiego na Ukrainie (2017). Dziekan
Wydziału Nauk Pedagogicznych Akademii Pedagogiki Specjalnej im.
Marii Grzegorzewskiej (od 2012). Kierownik Zespołu Pedagogiki
Medialnej przy Komitecie Nauk Pedagogicznych PAN, b.doradca
społeczny i kierownik Zespołu ds. Bezpieczeństwa Dziecka wCyber-
przestrzeni przy Rzeczniku Praw Dziecka. Członek Rady Naukowej
Muzeum Harcerstwa. Kierownik oraz uczestnik wielu międzynaro-
dowych zespołów badawczych. Autor iwspółautor ponad 250 publi-
kacji naukowych, redaktor naczelny międzynarodowego czasopisma
naukowego „International Journal of Pedagogy, Innovation and New
Technologies” oraz członek wielu komitetów naukowych polskich
i zagranicznych czasopism. Członek Kapituły Medalu KNP PAN
„ZaZasługi DlaRozwoju Polskiej Pedagogiki” oraz Sekcji Pedago-
giki Społecznej i Sekcji Pedagogiki Specjalnej przy KNP PAN, Pol-
skiego Towarzystwa Naukowego Edukacji Internetowej, Polskiego
Towarzystwa Technologii i Mediów Edukacyjnych, Sekcji Arteterapii
O AUTORACH
Polskiego Towarzystwa Psychiatrycznego, Jury Międzynarodowego
Konkursu Fotogracznego „Matematyka w obiektywie”. Naukowo
zajmuje się dydaktyką ogólną, metodologią nauk społecznych, peda-
gogiką medialną iedukacją informatyczną oraz edukacją dla pokoju.
Mariusz Kamola – od 2002 r. stale związany zawodowo z Naukową
i Akademicką Siecią Komputerową oraz z Politechniką Warszawską,
na której w 2003 r. uzyskał stopień naukowy doktora w dziedzinie
automatyki. Jest autorem lub współautorem ponad 50 publikacji
naukowych ipromotorem pond 40 prac dyplomowych. Prowadził
prace badawcze z zakresu symulacji ioptymalizacji numerycznej,
inżynierii ruchu sieciowego, analizy danych i modelowania matema-
tycznego. Brał udział i kierował projektami badawczymi nansowa-
nymi w ramach 5. i 7. Programu Ramowego UE. Obecne zaintere-
sowania naukowe dra Kamoli obejmują analizę języka naturalnego
i Big Data, Internet Rzeczy oraz badania nad sztuczną inteligencją.
Rafał Lange – doktor socjologii; kierownik Pracowni Badań Spo-
łecznych w NASK PIB; zajmuje się przede wszystkim metodologią
badań, analiza statystyczną, socjologią młodzieży i internetu.
Mariusz Fila – psycholog, pedagog twórczości, pracownik Pracowni
Edukacyjnych Zastosowań Technologii Informacyjno-Komunika-
cyjnych NASK PIB oraz Zakładu Metodologii iPedagogiki Twór-
czości Akademii Pedagogiki Specjalnej im. Marii Grzegorzewskiej.
Prowadzi prace badawcze iwdrożeniowe z zakresu komputeryzacji
kształcenia oraz metodologii badań. Kierował międzynarodowymi
projektami, w tym: Innovation Laboratories in the development of
competences of special pedagogy teachers and people with special edu-
cational needs (i-LAB3).
81
Informacje oNASK PIB
NASK Państwowy Instytut Badawczy jest instytutem badaw-
czym podległym Ministerstwu Cyfryzacji. Kluczowe obszary dzia-
łalności NASK PIB obejmują zadania związane zzapewnieniem bez-
pieczeństwa internetu, atakże zrozwojem polskiej cyberprzestrzeni.
Instytut realizuje działania statutowe działając wróżnych obszarach:
naukowym, doradczym, edukacyjnym igospodarczym.
W ramach NASK PIB działa Narodowe Centrum Cyberbez-
pieczeństwa (NC Cyber). Reagowaniem na zdarzenia naruszające
bezpieczeństwo sieci zajmuje się zespół CERT Polska (Computer
Emergency Response Team). WNC Cyber funkcjonuje także zespół
Dyżurnet.pl, odpowiadający za przeciwdziałanie szkodliwym iniele-
galnym treściom obecnym winternecie.
Instytut prowadzi badania wzakresie opracowywania rozwiązań
zwiększających efektywność, niezawodność i bezpieczeństwo sieci
teleinformatycznych oraz innych złożonych systemów sieciowych.
Istotne miejsce wdziałalności instytutu zajmują badania dotyczące
biometrycznych metod werykacji tożsamości w bezpieczeństwie
usług. NASK PIB prowadzi także rejestr domeny.pl.
Funkcjonująca wstrukturach instytutu Akademia NASK zajmuje
się działalnością edukacyjną, popularyzatorską oraz szkoleniową.
Wieloletnia współpraca z ekspertami oraz przedstawicielami
środowisk naukowych pozwoliła stworzyć szeroką gamę publikacji,
poradników i materiałów edukacyjnych poruszających najbardziej
aktualne zagadnienia związane zbezpieczeństwem dzieci imłodzieży
online. Akademia NASK realizuje projekty adresowane do różnych
grup społecznych, wiekowych oraz zawodowych. Od 2005roku NASK
INFORMACJE ONASK PIB
PIB jest koordynatorem Polskiego Centrum Programu Safer Internet –
programu Komisji Europejskiej mającego na celu promocję bezpiecz-
nego korzystania znowych technologii iinternetu wśród dzieci imło-
dzieży oraz przeciwdziałanie nielegalnym treściom online.
WAkademii NASK prowadzone są unikatowe szkolenia dla rm
i instytucji ze szczególnym uwzględnieniem tematyki bezpieczeń-
stwa ICT. Oferta szkoleniowa Akademii adresowana jest do sektora
biznesu, administracji publicznej iinstytucji akademickich. Posia-
damy także kompleksową propozycję szkoleń społecznych dla samo-
rządów oraz przedstawicieli sektora edukacyjnego.
Winstytucie NASK PIB istotną rolę pełni Pracownia Edukacyj-
nych Zastosowań TIK. Pracownia zajmuje się prowadzeniem badań
społecznych z obszaru społeczeństwa informacyjnego oraz imple-
mentacją technologii informacyjnych ikomunikacyjnych wproce-
sie edukacji. Istotnym zadaniem Pracowni jest diagnoza stanu bez-
pieczeństwa cyfrowego dzieci imłodzieży. Pracownia współpracuje
zwiodącymi ośrodkami akademickimi iinstytucjami naukowo-ba-
dawczymi oraz posiada zaplecze informatyczne i technologiczne
wrealizacji badań zleconych.
NASK – Państwowy Instytut Badawczy
ul. Kolska 12, 01-045 Warszawa
tel. 22 380 82 00, fax 22 380 82 01, nask@nask.pl
www.nask.pl
Wydanie pierwsze
Arkuszy drukarskich 5,25
Skład i łamanie: AnnGraf, Anna Szeląg
Druk ukończono w maju 2019
Druk i oprawa: Fabryka Druku
WYDAWNICTWO AKADEMII
PEDAGOGIK I SPECJALNEJ
www.aps.edu.pl
Raport badawczy NASK PIB
CONTENT 1.0 – prototyp aplikacji do analizy treści in-
ternetu
, przygotowany przez zespół badawczy pod kierunkiem prof. Macieja Tanasia,
wiąże się z nurtem poszukiwania nowych narzędzi do analizy i przetwarzania wielkich
zbiorów danych, oraz ich zastosowania w metodologii badań społecznych i edukacyj-
nych, w czasie gdy gwałtownie rosną przypływ y informacji z wielu różnych źródeł. Dane te
mają ogromną użyteczność dla nauki, edukacji, gospodarki czy polityki, co rodzi pilną
potrzebę tworzenia nowych metod i technik analizy Big Data, oraz nowych rozwiązań
technologicznych, otwierających zupełnie nowe perspektywy poznawcze przed nauką
i edukacją, pozwalające zdobyć bezcenną wiedzę o przestrzeni, w jakiej żyjemy.
Temu właśnie ma służyć m.in. przedstawiony w Raporcie projekt CONTENT 1.0, umoż-
liwiający podejmowanie takich analiz z zastosowaniem wielowymiarowej analizy seman-
tycznej treści zeskanowanych danych źródłowych ze stron internetowych i portali
społecznościowych. Pierwsze eksperymenty z jego zastosowaniem pokazały, że stwa-
rza on nie tylko duże możliwości analityczne, ale jego otwarty charakter pozwala też
na wzbogacanie go o nowe elementy, co wydatnie umożliwia dalszy rozwój i zwiększa
potencjalne możliwości jego wykorzystania w badaniach nad edukacją, czy szerzej –
w obszarze nauk społecznych.
dr hab. Barbara Galas, prof. UKSW
Stanisław Lem przyrównał zjawisko internetu do biblijnego potopu, czyli nadmiaru
wód, w którym można ze wszystkim utonąć, jeżeli nie zdołamy dla ratunku, jak Noe,
zbudować sobie „Arki Noego Internetu”. Człowiek potrafi takie łodzie budować, czego
przykładem opiniowany produkt nazwany CONTENT 1.0, będący efek tem pracy zespołu
badawczego w składzie: mgr Mariusz Fila, dr inż. Mariusz Kamola, dr Rafał Lange oraz
dr hab., prof. APS Maciej Tanaś – kierownik. Wynikiem pracy tego zespołu jest skon-
struowana z myślą o przeszukiwaniu zasobów internetu aplikacja, stanowiąca swoiste
narzędzie uży teczne w wyszukiwaniu haseł w postaci słów, pojedynczych zdań lub ciągu
tych zdań.
Otrzymany rezultat charakteryzuje się zamierzoną adaptatywnością oraz wysoką
efektywnością, co potwierdziły przeprowadzone test y. Testy te […] dowodzą, że umie-
jętne wykorzystanie w ytworzonego narzędzia może prowadzić do interesujących
poznawczo wyników. Rze telność oraz niez w ykła wnikliwość przepr owadzonych ekspe-
rymentów potwierdza, znaną od dawna prawdę, że nietrywialne sposoby przetwarzania
danych dają nietrywialne w swej treści syntezy. CONTENT 1.0 […] posiada niezaprze-
cz alne cec hy dok on ania twórczego, jes t bowiem eg ze mpli fikacją je dn ej z definicji tw ór-
czości, mówiącej, że twórczość to także algorytmizacja niealgory tmizowalnego.
dr hab. Jan Łaszczyk, prof. APS
BigData
w edukacji
CONTENT 1.0 – prototyp aplikacji
do analizy treści internetu
Maciej Tanaś, Mariusz Kamola
Rafał Lange, Mariusz Fila
PAŃSTWOWY INSTYTUT BADAWCZY
BigData w edukacji g 4.indd All Pages 29/05/19 19:28