BookPDF Available

BigData w edukacji. CONTENT 1.0 - prototyp aplikacji do analizy treści internetu.

Authors:
WYDAWNICTWO AKADEMII
PEDAGOGIK I SPECJALNEJ
www.aps.edu.pl
Raport badawczy NASK PIB
CONTENT 1.0 – prototyp aplikacji do analizy treści in-
ternetu
, przygotowany przez zespół badawczy pod kierunkiem prof. Macieja Tanasia,
wiąże s z nurtem poszukiwania nowych narzędzi do analizy i przetwarzania wielkich
zbiorów danych, oraz ich zastosowania w metodologii badań społecznych i edukacyj-
nych, w czasie gdy gwałtownie rosną przypływ y informacji z wielu różnych źródeł. Dane te
mają ogromną użyteczność dla nauki, edukacji, gospodarki czy polityki, co rodzi pilną
potrzebę tworzenia nowych metod i technik analizy Big Data, oraz nowych rozwiązań
technologicznych, otwierających zupełnie nowe perspektywy poznawcze przed nauką
i edukacją, pozwalające zdobyć bezcenną wiedzę o przestrzeni, w jakiej żyjemy.
Temu właśnie ma służyć m.in. przedstawiony w Raporcie projekt CONTENT 1.0, umoż-
liwiający podejmowanie takich analiz z zastosowaniem wielowymiarowej analizy seman-
tycznej treści zeskanowanych danych źródłowych ze stron internetowych i portali
społecznościowych. Pierwsze eksperymenty z jego zastosowaniem pokazały, że stwa-
rza on nie tylko duże możliwości analityczne, ale jego otwarty charakter pozwala też
na wzbogacanie go o nowe elementy, co wydatnie umożliwia dalszy rozwój i zwiększa
potencjalne możliwości jego wykorzystania w badaniach nad edukacją, czy szerzej
w obszarze nauk społecznych.
dr hab. Barbara Galas, prof. UKSW
Stanisław Lem przyrównał zjawisko internetu do biblijnego potopu, czyli nadmiaru
wód, w którym można ze wszystkim utonąć, jeżeli nie zdołamy dla ratunku, jak Noe,
zbudować sobie „Arki Noego Internetu”. Człowiek potrafi takie łodzie budować, czego
przykładem opiniowany produkt nazwany CONTENT 1.0, będący efek tem pracy zespołu
badawczego w składzie: mgr Mariusz Fila, dr inż. Mariusz Kamola, dr Rafał Lange oraz
dr hab., prof. APS Maciej Tanaś – kierownik. Wynikiem pracy tego zespołu jest skon-
struowana z myślą o przeszukiwaniu zasobów internetu aplikacja, stanowiąca swoiste
narzędzie uży teczne w wyszukiwaniu haseł w postaci słów, pojedynczych zdań lub ciągu
tych zdań.
Otrzymany rezultat charakteryzuje się zamierzo adaptatywnością oraz wysoką
efektywnością, co potwierdziły przeprowadzone test y. Testy te […] dowodzą, że umie-
jętne wykorzystanie w ytworzonego narzędzia może prowadzić do interesujących
poznawczo wyników. Rze telność oraz niez w ykła wnikliwość przepr owadzonych ekspe-
rymentów potwierdza, znaną od dawna prawdę, że nietrywialne sposoby przetwarzania
danych dają nietrywialne w swej treści syntezy. CONTENT 1.0 […] posiada niezaprze-
cz alne cec hy dok on ania twórczego, jes t bowiem eg ze mpli fikacją je dn ej z definicji tw ór-
czości, mówiącej, że twórczość to także algorytmizacja niealgory tmizowalnego.
dr hab. Jan Łaszczyk, prof. APS
BigData
w edukacji
CONTENT 1.0 prototyp aplikacji
do analizy treści internetu
Maciej Tanaś, Mariusz Kamola
Rafał Lange, Mariusz Fila
PAŃSTWOWY INSTYTUT BADAWCZY
BigData w edukacji g 4.indd All Pages 29/05/19 19:28
BigData
w edukacji
CONTENT 1.0 – prototyp aplikacji
do analizy  treści internetu
WYDAW NIC T WO AKADEMII PEDAGOGIKI SPECJALNEJ
BigData
w edukacji
CONTENT 1.0 – prototyp aplikacji
do analizy  treści internetu
Słowo  wstępne  –   Marcin  Bochenek
Dyrektor  Pionu  Rozwoju  Społeczeństwa 
Informacyjnego NASK PIB
Maciej  Tanaś,  Mariusz  Kamola
Rafał  Lange,  Mariusz  Fila
Naukowa  i  Akademicka  Sieć  Komputerowa
Państ wowy  Ins tytut  Bad awczy
Naukowa  i  Akademicka  Sieć  Komputerowa
Państ wowy  Ins tytut  Bad awczy
WYDAW NIC T WO AKADEMII PEDAGOGIKI SPECJALNEJ
BigData
w edukacji
CONTENT 1.0 – prototyp aplikacji
do analizy  treści internetu
Słowo  wstępne  –   Marcin  Bochenek
Dyrektor  Pionu  Rozwoju  Społeczeństwa 
Informacyjnego NASK PIB
Maciej  Tanaś,  Mariusz  Kamola
Rafał  Lange,  Mariusz  Fila
Naukowa  i  Akademicka  Sieć  Komputerowa
Państ wowy  Ins tytut  Bad awczy
Naukowa  i  Akademicka  Sieć  Komputerowa
Państ wowy  Ins tytut  Bad awczy
Recenzenci:
dr hab. Barbara Galas, prof. UKSW
dr hab. Jan Łaszczyk, prof. APS
Zespół badawczy:
dr hab. Maciej Tanaś, prof. APS – kierownik
dr inż. Mariusz Kamola
dr Rafał Lange
mgr Mariusz Fila
Projekt okładki
Anna Gogolewska
Ilustracja na okładce
lightwise/123RF
Redakcja
Monika Bielska-Łach
Korekta
Zespół
©Copyright by Wydawnictwo Akademii Pedagogiki Specjalnej
©Copyright by NASK – Państwowy Instytut Badawczy
Wydanie I
Warszawa 2019
ISBN: 978-83-66010-29-1
SPIS TREŚCI
Słowo wstępne 7
1. Big Data – informatyka wmetodologii nauk
pedagogicznych 9
2. Aplikacja 25
2.1. Funkcjonalność 26
2.2. Architektura 34
3. Eksperyment 37
3.1. Zbieranie danych 37
3.2. Analiza statystyczna 38
3.3. Analiza jakościowa 44
4. Wyniki 49
4.1. Analiza statystyczna danych 49
4.2. Analiza jakościowa danych 66
5. Konkluzje ipostulaty 71
5.1. Bariery iszanse 71
5.2. Kierunki rozwoju 73
Bibliograa 75
O autorach 79
7
SŁOWO WSTĘPNE
Marcin Bochenek
Dyrektor Pionu Rozwoju Społeczeństwa
Informacyjnego NASK PIB
Rozwój cyfrowego świata wpływa na nasze codzienne życie. Zmiany
cywilizacyjne, społeczne postępują z nieznaną dotąd prędkością.
Mamy dostęp do ogromnej, stale rosnącej, liczby danych. Wciągu
krótkiego okresu internet, będący teraz siecią naukową, awcześniej
systemem przygotowywanym na potrzeby militarne, stał się medium
i kreatorem naszej rzeczywistości. Jego obecność wnaszym życiu
publicznym, naukowym, zawodowym, prywatnym, powoduje, że
stał się światem wymykającym się zram opisu, których używamy do
tworzenia obrazu świata.
Dzisiejsza rzeczywistość, dynamicznie zmieniająca się, charakte-
ryzująca się ciągłym ruchem, stanowi wyzwanie dla naukowców.
Także dla specjalistów w dziedzinie badań społecznych. Opisanie,
dostrzeżenie, awreszcie zrozumienie współczesności ma kluczowe
znaczenie dla naszej teraźniejszości i przyszłości. Nie jest to zna-
czenie stricte poznawcze. To również materiał mogący wspoma-
gać konkretne decyzje i rozwiązania dotyczący przyszłości, a być
może nawet być albo nie być naszej cywilizacji. Bo przecież już dziś
sztuczna inteligencja iinternet to nie twory science ction, arealne
SŁOWO WSTĘPNE
rozwiązania istniejące wnaszym świecie. Wtych dziedzinach jeste-
śmy na początku drogi, ale jej kierunek powinny wyznaczać nie tylko
możliwość techniczne, lecz także, amoże przede wszystkim, zasady
kreowane wramach życia społecznego, wpolityce. Nauki społeczne
mają wtym procesie szczególne znaczenie. Zjednej strony oczywi-
ście uczeni nie są powołani do samodzielnego kształtowania świata,
zdrugiej zaś ich wiedza ibadania powinny pomagać wbudowaniu
irealizacji koncepcji rozwoju.
Obecnie nauki społeczne to także analityka, badania oparte na roz-
wiązaniach stricte technologicznych. Prezentowane opracowanie sta-
nowi przyczynek wrealizacji tego procesu. Jest to propozycja roz-
wiązania, które wprowadzane wświat analiz społecznych, może dać
konkretne rezultaty. To droga do analizy danych, których sprawdza-
nie, analizowanie metodami znanymi od wieków byłoby wtej skali
niemożliwe. To także otwarcie drogi do dalszych prac badawczych
właśnie nad analizą wielkich zbiorów danych iinformacji.
Dziś deniujemy problemy, opisujemy środowisko, ekosystem, wktó-
rym funkcjonujemy, wskazujemy wstępne rozwiązania i stawiamy
kolejne pytania. Opisywany projekt jasno iklarownie wskazuje, że
wnaukach społecznych dziś potrzebne są na pewno dwa elementy.
Rzetelna analiza, przetwarzanie dużych ilości danych, ale także praca
naukowców nad otrzymanymi wynikami, stawianie hipotez, ich
werykacja, wreszcie precyzowanie wniosków, prognoz i zaleceń.
Dziś badacze procesów społecznych otrzymują do ręki narzędzia
dające ogromne możliwości, ale wostatecznym rachunku to po ich
stronie leży wykorzystanie efektów ich działania iopisanie świata.
9
1
BIG DATA  INFORMATYKA
WMETODOLOGII NAUK
PEDAGOGICZNYCH
Maciej Tanaś
Współczesny człowiek funkcjonuje wdwóch, przenikających się
wzajem przestrzeniach: realnej iwirtualnej. Pierwsza – fizyczna,
świat życia iśmierci, ale ibogactwa doznań polisensorycznych,
to przestrzeń tętniąca kolorami i kształtami, świat zapachów,
smaków i dotyku, łez i miłości. Druga – wirtualna, zrodzona
zodwiecznych marzeń człowieka olikwidacji barier czasu, odle-
głości inadmiernego trudu, to świat dźwięków oraz barwnych,
statycznych iruchomych obrazów. To przestrzeń oplatająca ziem-
ski glob siecią ludzkich konfliktów itwórczości, ale też pole wojen
gospodarczych, ideologicznych ipolitycznych, agora społecznego
dyskursu, świat marzeń, bazar handlu ludzkimi organami, glo-
balny rynek przedsięwzięć ekonomicznych i– pole człowieczych
podłości.
Oile pierwsza z owych przestrzeni, ta zyczna – od wieków jest
legislacyjnie kodykowana, otyle druga – wirtualna, występując
pod złudnym parasolem nieograniczonej wolności, jest miejscem
kontroli człowieka i zbiorowości społecznych, które on tworzy.
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
1010
Jestprzestrzenią ludzkiej aktywności, ale też pracy służb policyj-
nych oraz bezwzględnych, lokalnych i globalnych działań ban-
dytów. Zbyt często ginie wniej człowiek, zaplątany izniewolony
w rynsztoku informacji oraz migotliwych, cyfrowych obrazów.
Zbyt często…
Ta przestrzeń wymaga mądrych działań prawnych. Działań pro-
wadzonych nie w imię kontroli człowieka, zwiększania cenzury
iuprawnień policji oraz służb specjalnych, niewimię ograniczenia
jego twórczej ispołecznej aktywności, lecz wimię odwiecznych praw
do ludzkiej godności ibezpieczeństwa, do życia iochrony zdrowia,
do wolności myśli, sumienia iwyznania, dopodmiotowości prawnej
iszczęścia. Tymczasem demokratycznej idei powszechnego dostępu
do dobra wspólnego: informacji, wiedzy iinnych osiągnięć, przeciw-
stawia się toczona wcyberprzestrzeni bezwzględna gra interesów,
jakże często naruszająca te iinne prawa człowieka.
Sieć internetowa jest globalnym medium, przez które przepływają
niezliczone informacje. Jak ujawnił roczny raport NASK: zinter-
netu korzysta 3,8 miliarda ludzi, czylimniej więcej połowa ludzko-
ści. Coroku przybywa na świecie kolejne 83 miliony ludzi, ale użyt-
kowników internetu zdecydowanie więcej, bo ponad 354 milionów
rocznie1.
Za utrzymanie bezpieczeństwa istabilności internetu wsensie spój-
nej adresacji usług iurządzeń odpowiedzialna jest ICANN (ang.Inter-
net Corporation for Assigned Names and Numbers), która zarządza
parametrami technicznymi sieci, decyduje otransporcie cyfrowym
1
Anna Gniadek, Weronika Rakowska, Tomasz Szladowski, Rynek nazw domeny.pl.
Raport roczny. Wersja elektroniczna zob.: https://www.dns.pl/NASK-raport-ry-
nek-nazw-domeny-pl-2017.pdf, dn. 10.07.2018.
1111
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
iodpowiada za adresacje ruchu2. Nie jest to jednak jedyna organi-
zacja, dbająca ozasady funkcjonowania sieci. Do tej roli pretendu
także globalne korporacje, związane zrynkiem cyfrowym idysponu-
jące olbrzymim kapitałem. Zabieganie przez nie owpływ nakształto-
wanie zasad regulujących funkcjonowanie internetu oraz na sprawo-
wanie nad nim kontroli jest ich żywotnym interesem inie powinno
to nikogo dziwić, że podejmują je Facebook, Google iinni cyfrowi
giganci.
Permanentnie rosnące przypływy informacji pochodzące zróżnych
źródeł, azatem oróżnej charakterystyce, atakże ich rosnąca użytecz-
ność dla różnych obszarów nauki, zarządzania, administracji, usług
iprodukcji wywołują pilną potrzebę tworzenia nowych technik ana-
lizy danych oraz rozwiązań technologicznych isprawiają, że Big Data
stały się jednym znajważniejszych współcześnie wyzwań informa-
tycznych. Rodzą się problemy równoległego przetwarzania danych
oraz odejścia od klasycznego schematu ich przechowywania, atakże
zróżnicowania danych, ich wolumenu, redukcji wymiaru i jakości
oraz możliwości wnioskowania.
Współczesne urządzenia mobilne: laptopy, tablety oraz smartfony
i coraz liczniejsze urządzenia przenośne (Wearable Computers),
wzrost pamięci masowej w chmurze, jak również rozwijające się
pola zastosowań: rozszerzona rzeczywistość (Augmented Reality),
sztuczna inteligencja (Articial Intelligence) oraz internet rze-
czy (Internet of ings), przynoszą dane ocoraz większej złożono-
ści, onowych formach iźródłach pochodzenia. Doanalizy bardzo
dużych, różnorodnych zbiorów danych semistrukturalnych, prawie-
strukturalnych iniestrukturalnych, pochodzących zróżnych źródeł
2
Anna Gniadek: Internet? Kto tu rządzi? [w:] Anna Gniadek, Weronika Rakow-
ska, Tomasz Szladowski, Rynek nazw domeny.pl. Raport roczny…, op. cit., s.18.
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
1212
i w różnych rozmiarach (od terabajtów do zettabajtów, tj. od 1012
do 1021 bajtów3), stosuje się coraz bardziej zaawansowane techniki
analityczne.
Big Data to termin stosowany do takich zestawów danych, których
rozmiar lub typ wykracza poza zdolność do przechwytywania, zarzą-
dzania iprzetwarzania za pomocą tradycyjnych algorytmów irelacyj-
nych baz danych. Dane te posiadają jedną lub więcej znastępujących
cech: dużą objętość (high volume), dużą intensywność strumienia
(high velocity), dużą różnorodność (high variety) lub zróżnicowaną
wiarygodność (high veracity)4. Big Data pochodzą zczujników, urzą-
dzeń multimedialnych, dzienników aktywności programów kompu-
terowych, aplikacji transakcyjnych, stron internetowych i mediów
społecznościowych – większość znich generowana jest wczasie rze-
czywistym ina bardzo dużą skalę.
Denicja Big Data przez lata ewoluowała od takich, które koncen-
trowały się na desygnatach nazwy, do tych, które odwoływały się
do jej konotacji. Przykładem denicji pierwszego typu jest ta, którą
zaproponowali Michael Cox iDavid Ellsworth. Ich zdaniem Big Data
to po prostu duże dane, których liczbę należy maksymalizować dla
wydobycia wtrakcie analizy ich wartości informacyjnych5. Podobnie
3
Jednostki używane do określania rozmiaru największychpamięci masowych,
zasobów plików i baz danych dawno przekroczyły kilobajt (103) i mega-
bajt(106). Po gigabajtach(109), nastąpiły terabajty (1012), petabajty (1015), eks-
abajty (1018) izettabajty (1021). Kolejne to jottabajty (1024), xenottabajty (1027)
ishilentnobajty (1030).
4
Zob. szerzej https://www.ibm.com/analytics/hadoop/big-data-analytics, dn.
13.07.2018.
5
Michael Cox iDavid Ellsworth, Managing Big Data for Scientic Visualiza-
tion, 1997, ACM SIGGRAPH ‘97 Course #4, Exploring Gigabyte Datasets
in Real-Time: Algorithms, Data Management, and Time-Critical Design,
Los Angeles, zob.: https://www.researchgate.net/prole/David_Ellsworth2/
1313
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
Avita Katal, Mohammad Wazid i R.H. Goudar wyjaśniali pojęcie
przez wskazanie, że to duża liczba danych, która wymaga zastosowa-
nia nowych technologii iarchitektur, tak by możliwa była ekstrakcja
wartości płynącej ztych danych poprzez uchwycenie ianalizę procesu6.
Dobrym przykładem denicji drugiego typu jest ta przyjęta w tej
pracy za IBM izacytowana wcześniej. Sformułował ją Doug Laney
już w2001roku7.
Analiza Big Data pozwala podejmować decyzje na podstawie danych,
które wcześniej były niedostępne lub nieużyteczne. Dzięki zaawan-
sowanym technikom analitycznym, takim jak uczenie maszynowe,
analiza predykcyjna, eksploracja danych, statystyki iprzetwarzanie
języka naturalnego, można analizować wcześniej niewykorzysty-
wane źródła danych niezależnie lub razem zistniejącymi itradycyj-
nie dostępnymi (badania sondażowe itd.). Dzięki temu pozyskuje
się nowe informacje, niezwykle użyteczne w procesie wnioskowa-
nia ipodejmowania decyzji ito na wielu polach. Owa użyteczność
ma swe źródło w stosunkowo niskich kosztach oraz w szybkości
publication/238704525_Managing_big_data_for_scientic_visualization/
links/54ad79d20cf2213c5fe4081a/Managing-big-data-for-scientic-visuali-
zation.pdf, pobrane dn. 13.07.2018.
6
Avita Katal, Mohammad Wazid, R.H. Goudar, Big Data: Issues, Challenges,
Tools and Good Practices, 2013, Sixth International Conference on Contem-
porary Computing (IC3), IEEE, Noida, s.404–409, za: Marta Tabakow, Jerzy
Korczak, Bogdan Franczyk, Big Data – denicje, wyzwania itechnologie infor-
matyczne, „Informatyka Ekonomiczna. Business Informatics” 2014, nr 1(31),
s.141.
7
Wspomniany autor sformułował ją jako 3V, anie 4V, pominął bowiem zróżni-
cowaną wiarygodność (high veracity). Por. Doug Laney, 3D DataManagement:
Controlling Data Volume, Velocity, and Variety, „Application Delivery Stra-
tegies” 2001, META Group Inc. Zob.: https://blogs.gartner.com/doug-laney/
les/2012/01/ ad949-3D-Data-Management-Controlling-Data-Volume-Velo-
city-and-Variety.pdf, pobrane dn. 13.07.2018.
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
1414
pozyskiwania wiarygodnych informacji zolbrzymiej masy danych,
niemożliwych do zdobycia wtej liczbie iwtakim tempie przy użyciu
metod tradycyjnych.
Bez wątpienia badanie zachowań i opinii użytkowników por-
tali internetowych, azwłaszcza sieci społecznościowych otwiera
zupełnie nowe perspektywy poznawcze ito nie tylko przed glo-
balnymi korporacjami (korzystającymi już przecież z tej drogi
pozyskiwania informacji), ale też przed naukami społecznymi,
wtym naukami pedagogicznymi. Możliwe jest oczywiście także
wykrywanie źródeł zagrożeń społecznych i ekonomicznych,
działań terrorystycznych, konfliktów politycznych imilitarnych,
stosunkowo precyzyjne śledzenie ich rozprzestrzeniania, skali,
odbioru społecznego itd.
Jeśli teza sieci społecznościowe mają ogromną wiedzę onaszej rze-
czywistości itym wszystkim, co się wokół nas dzieje jest prawdziwa,
anie ma powodu, żeby wnią wątpić, tonie wystarczy prosta kon-
statacja, ale konieczne jest też opisanie dostępnych metod, tech-
nik inarzędzi poznania. Niezbędna jest metodologiczna reeksja
nad wartością poznawczą źródeł, sposobów idróg pozyskiwania
danych, metod analizy zbieranego materiału empirycznego oraz
interpretacji wyników badań. Wyzwania badawcze dotyczą także
sfery technologicznej: opracowanie innowacyjnej architektury,
identykacja źródeł danych, określenie ltrów danych, automa-
tyczne generowanie metadanych, niezwłoczna (bieżąca) obsługa
napływu nowych, strumieniowych danych i ich aktualizacja,
zarządzanie stosem danych wszybkich iskalowalnych warstwach
przechowywania i przetwarzanie zapytań, integracji pochodzą-
cych z różnych źródeł danych pojawiających się wróżnych for-
matach imodelach. Jedno jest pewne – skrzynie pełne skarbów
czekają naswoich odkrywców.
1515
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
Według prognoz CISCO System Inc.8 roczny globalny ruch wsieci
doroku 2021 osiągnie 3,3 zettabajtów (ZB) rocznie, czyli 278 eksa-
bajtów (EB) miesięcznie. W2016roku stopa realizacji dla globalnego
ruchu winternecie wynosiła 1,2 ZB rocznie, czyli 96 EB miesięcz-
nie. Wciągu najbliższych lat wzrośnie on kilkakrotnie. Miesięczny
ruch w internecie z 13 GB na osobę w 2016roku sięgnie 35 GB
w2021roku.
Smartfony okażą się bardziej użyteczne od komputerów. Jeszcze
w2016roku poprzez komputery odbywało się 46 procent całkowi-
tego przepływu informacji, ale w2021 roku będzie to już jedynie
25procent ruchu. Równocześnie smartfony przejmą 33 procent cał-
kowitego ruchu winternecie. Wprawdzie przepływ informacji wzro-
śnie do 2021roku także nakomputerach, ale dla telewizorów, table-
tów, smartfonów imodułów M2M (Machine-to-Machine) wskaźnik
wzrostu ruchu w2021roku będzie większy iwyniesie odpowiednio
21procent, 29 procent, 49 procent i49 procent. Wlatach 2016–2021
wzrosną też 20-krotnie współczynniki udziału wsieci wirtualnej rze-
czywistości (VR) i rozszerzonej rzeczywistości (AR). Warto sobie
uświadomić, że tylko obejrzenie wszystkich lmów, które będą prze-
syłane wsieci wkażdym miesiącu 2021roku musiałoby trwać ponad
5milionów lat.
Ilość danych powstających iwędrujących po sieci jest porażająca.
Stanowi to poważne wyzwanie technologiczne, ale jest też obiecują-
cym polem badań. Truizmem jest stwierdzenie, że media społeczno-
ściowe są ważnym czynnikiem wpływającym na zachowania ludzkie
wsieci iwświecie realnym. Jeśli tak, to zistoty rzeczy powinny stać
8
e Zettabyte Era: Trends and Analysis, White Papers, Cisco,https://www.
cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-
-index-vni/vni-hyperconnectivity-wp.html, pobrane dn. 13.07.2018.
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
1616
się przedmiotem eksploracji iwnioskowania. Idodajmy – nie tylko
one. Polem niezwykle interesujących poznawczo badań mogą być
portale internetowe, sieć blogów itp., anawet gwałtownie rozwija-
jący się internet rzeczy (IoT). Już dziś liczba urządzeń podłączonych
do sieci ikomunikujących się ze sobą jest większa niż liczba ludzi
na świecie9. Tymczasem internet rzeczy może być równie groźny co
pomocny. Zjednej strony jest podstawą tzw. inteligentnego domu
i pozwalając urządzeniom na wzajemną komunikację, poprawia
komfort życia ipozorne bezpieczeństwo jego mieszkańców. Zdru-
giej strony jednak, na skutek niedostatecznych działań rewidujących
jakość technologii, dużej liczby urządzeń i taniej przepustowości,
staje się źródłem ataków cyberprzestępców, naraża na inwigilację
izagrożenie także zycznego bezpieczeństwa10.
Przykładem niech służy groźny, globalny atak z wykorzystaniem
urządzeń IoT, który miał miejsce w 2016 roku. Złośliwe oprogra-
mowanie umożliwiło wówczas stworzenie za pomocą botneta Mirai
„armii” kamerek internetowych oraz Smart TV i sparaliżowanie
takich serwisów, jak Reddit, Twitter, Spotify, Netix, New York Times
czy PayPal. WPolsce zaobserwowano wtedy nawet 14054 przejętych
urządzeń dziennie.
Warto przywołać wtym miejscu również projekt OSE – Ogólno-
polskiej Sieci Edukacyjnej – jednej z najważniejszych inwestycji
9
Według instytutu badawczego Gartner, liczba inteligentnych urządzeń – zgrupy
IoT – może wzrosnąć z8,4 mld w2017 r. do 20,4 mld w 2021 r. Zob. Inteli-
gentne urządzenia wokół nas. Aco znaszym bezpieczeństwem?, „Interia Biz-
nes” 17.02.2018, www.biznes.interia.pl, pobrano dn. 13.07.2018.
10 Por. Krajobraz bezpieczeństwa polskiego internetu 2016. Raport roczny zdzia-
łalności CERT Polska, NASK/CERT Polska 2016, s.23–29.
1717
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
technologicznych ioświatowych wPolsce11. Koszty tego niezwykłego
projektu, realizowanego przez NASK Państwowy Instytut Badawczy,
zostaną pokryte z budżetu Państwa oraz Programu Operacyjnego
Polska Cyfrowa. Polska wpisuje się tym projektem wtrendy euro-
pejskie. Na przykład, unijny program WiFi4EU ma zapewnić oby-
watelom oraz osobom przybywającym do Unii Europejskiej dostęp
do bezpłatnego WiFi wprzestrzeniach publicznych, takich jak parki,
place, budynki publiczne, biblioteki, ośrodki zdrowia. Projekt polski
jest jednym znajwiększych programów cyfryzacji szkół, podejmo-
wanych wUE ipowinien przyczynić się nie tylko do wspomagania
edukacji tradycyjnej – cyfrową, lecz także zwiększyć arsenał środ-
ków, metod itreści kształcenia, umożliwić rzeczywisty rozwój kom-
petencji cyfrowych uczniów orazwyrównać ich szanse edukacyjne.
Budowana błyskawicznie przez NASK sieć szkolna powinna stać się
nade wszystko polem badań dla tych osób iinstytucji, dla których
los dzieci imłodzieży, poprawa jakości procesu nauczania-uczenia
się, szerzej otwierania przed człowiekiem świata kultury i nauki
oraz prowadzenia ku życiu wartościowemu itwórczemu, stanowi cel
iprzedmiot działania. Te badania powinny być prowadzone zgod-
nie zprzepisami prawa ibezwzględnie respektować kodeks etyczny
badań naukowych.
11 Inicjatywa OSE została przyjęta przez Radę Ministrów 13.06.2017 r. jako
Uchwała 100 Mega na 100-lecie i ma na celu zapewnienie powszechnego
irównego dostępu szkół do bardzo szybkiego (co najmniej 100 Mb/s), bez-
piecznego oraz bezpłatnego internetu. Zgodnie zzałożeniami projektu wszyst-
kie szkoły podstawowe iponadpodstawowe zostaną do 2021roku podłączone
do OSE. Por. Marcin Bochenek, Rok pilotażu OSE, [w:] Akademia NASK,
O OSE, https://akademia.nask.pl/projekt-48/o-projekcie.html, pobrano dn.
17.07.2018. Ustawa o Ogólnopolskiej Sieci Edukacyjnej została jednogłośnie
przyjęta przez Senat RP 10.11.2017, anastępnie podpisana przez Prezydenta
RP iogłoszona 28 listopada wDzienniku Ustaw 2017, poz. 2184, tom 1.
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
1818
Dopóki nie było stosownych idostępnych programów informatycz-
nych, pozwalających na intencjonalne prowadzenie badań, na eko-
nomicznie uzasadnione zbieranie iskuteczną selekcję Big Data, ani
też metod pozwalających na analizę tak wielu danych, byłoto po pro-
stu zadanie niewykonalne. Działaniom wtym zakresie nie sprzyjały
także: brakpowszechnej świadomości wartości poznawczej tego typu
badań oraz równoczesna dominacja tradycyjnych, już sprawdzonych
metod empirycznych.
Nie znaczy to, że nie było wyprzedzających prób teoretycznego opisu
iwyjaśnienia problemu Big Data oraz pionierskich badań wnaukach
społecznych. Z pewnością największy wkład poznawczy, ale też
organizacyjny ipopularyzatorski wPolsce wniósł prof.drhab. inż.
Włodzimierz Gogołek. Liczne prace naukowe profesora, porywa-
jące wykłady na sympozjach oraz konferencjach naukowych, atakże
prekursorskie eksperymenty są kamieniami milowymi naukowych
odkryć w tym zakresie12. Włodzimierz Gogołek jest również auto-
rem pojęć określających wjęzyku polskim proces iautorską metodę
badań Big Data. Proces ten określił mianem ranacji sieciowej przez
analogię do procesu oczyszczania iuszlachetniania substancji natu-
ralnych lub produktów przemysłowych wcelu nadania im odpowied-
niej czystości, barwy, zapachu13. Przyjęta denicja, zaczerpnięta ze
12 Włodzimierz Gogołek, Big Data. Sieciowe źródło informacji dla edukacji,
[w:]Cyfrowa przestrzeń kształcenia, Seria Cyberprzestrzeń – Człowiek – Edu-
kacja. Tom 1. Praca zbiorowa pod red. Macieja Tanasia iSylwii Galanciak,
Ocyna Wydawnicza „Impuls”, Kraków 2015, s.97–104; tenże, Ranacja infor-
macji sieciowej, [w:] Informatyka wdobie XXI wieku. Nauka, Technika, Eduka-
cja anowoczesne technologie informatyczne. Praca zbiorowa pod red. Aleksan-
dra Jastriebowa, BeatyKuźmińskiej-Sołśnia, Marii Raczyńskiej, Politechnika
Radomska, Radom 2011. Zob. też przywoływane wtym art. inne prace tego
autora.
13 Mieczysław Szymczak, Słownik języka polskiego, Państwowe Wydawnictwo
Naukowe, Warszawa 1978.
1919
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
Słownika języka polskiego, trafnie opisuje istotę isposób procesu ana-
lizy Big Data, pozyskiwanych zsieci lub zdużych zbiorów informa-
cyjnych dostępnych poza siecią14.
Przebieg procesu ranacji Big Data sprowadza się do kilku etapów. Po
określeniu typu izakresu materiałów źródłowych zsieci lub innego
źródła, atakże czasu iczęstotliwości ich pobierania należy ustalić
hasła, związane zbadanym zjawiskiem iwystępujące wobsługiwa-
nych przez system źródłach danych. Takimi hasłami mogą być słowa
wraz zich formami eksyjnymi, wyrażenia czy też całe zestawy słów.
Hasła noszą nazwę słupów. Specyka języka polskiego powoduje,
że słup może obejmować wybrane lub wszystkie możliwe odmiany
słowa lub wyrażenia przez osoby, liczby, rodzaje, przypadki, czasy,
tryby, strony, imiesłowy, formy bezosobowe inieregularne, anawet
możliwe błędy ortograczne, neologizmy isynonimy. Może też obej-
mować tzw.hashtagi, czyli pojedyncze słowa lub wyrażenia poprze-
dzone symbolem # (zang. hash, hashtag, ale też octothorp, octothorpe,
octathorp, octatherp, fence, mesh, w Singapurze hex, a w muzyce
sharp), bezużycia spacji. Pełnią one funkcję nieustrukturyzowanych
metadanych, ułatwiających znajdowanie wiadomości ookreślanym
temacie lub zawartości isą używane wsieciach społecznościowych,
takich jak Twitter oraz winnych usługach mikroblogowania.
Pobierane dane mogą występować wpostaci artykułu (artykuł na
stronie, komunikat, post), bloku (tytuł, autor, pod- i śródtytuł,
tekst, podpisy, także treść komentarzy), atakże pojedynczego zda-
nia lub słowa. Kolejnym krokiem jest określenie tzw.sentymen-
tów, będących wyrażeniami niosącymi pozytywny, neutralny lub
14 Włodzimierz Gogołek, Paweł Kuczma, Ranacja informacji sieciowych na
przykładzie wyborów parlamentarnych. Część 1. Blogi, fora, analiza sentymen-
tów, „Studia Medioznawcze” 2013, nr 2(53).
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
2020
negatywny ładunek emocjonalny. Sentymenty są ocenami słupów
i występującymi w lub obok badanych tekstów, obrazów, plików
audio czy video. Identykacja sentymentów powinna być poprze-
dzona tzw. obróbką przygotowującą materiał źródłowy15. Polega
ona na odltrowaniu treści podlegających badaniu, oczyszczeniu
danych oraz przekształceniu ich do postaci czytelnej dla programu.
Zebrany materiał badawczy podlega następnie analizie ilościowej
(statystycznej) ijakościowej oraz – co ważne – autorskiej interpre-
tacji uzyskanych wyników.
Jest wprocesie ranacji sieciowej Big Data urok nowości, jest jednak
nade wszystko potencjał poznawczy. Wiąże się on zwielkością zbio-
rów danych, szybkością ich napływu oraz olbrzymią różnorodnością.
Równocześnie pojawiają się coraz doskonalsze technologie ich zbie-
rania iranacji, atakże wspomagane informatycznie coraz skutecz-
niejsze iprecyzyjniejsze metody ich analizowania iwnioskowania.
Bez wątpienia użyteczna okazała się wtym względzie chmura obli-
czeniowa (cloud computing). Pojęcie to oznacza zazwyczaj skalowalną
platformę, zawierającą sprzęt IT wraz zoprogramowaniem, dostępną
u zewnętrznego operatora jako usługa internetowa. Dodajmy, że
cloud computing oznacza również system rozproszenia, zdolność
uruchamiania programu lub aplikacji na wielu połączonych kompu-
terach wtym samym czasie lub dynamiczną obsługę danego żądania,
polegającą na przydzieleniu zadania do jednego zdostępnych ser-
werów. Jeśli chodzi oinformatyczne narzędzia użyteczne wranacji
Big Data, to należy koniecznie wspomnieć oprojekcie Stratoshpere16
15 Włodzimierz Gogołek, Dariusz Jaruga, Zbadań nad systemem ranacji sie-
ciowej. Identykacja sentymentów, „Studia Medioznawcze” 2016, nr 4(67),
s.104–105.
16
Zob. szerzej. http://stratosphere.eu/.
2121
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
oraz Apache Hadoop17 iinnych technologiach Big Data, takich jak:
Apache Storm18, Apache Kaa19 iApache Impala20.
Stratosphere to projekt badawczy, którego celem było stworzenie
platformy Big Data Analytics następnej generacji. Podjęły go nie-
mieckie ośrodki akademickie: Technische Universität Berlin, Hum-
boldt-Universität oraz Hasso-Plattner-Institut. Dzięki projektowi Stra-
tosphere opracowano iprzyczyniono się do powstania platformy, która
w2014roku stała się projektem Apache pod nazwą Apache Flink21.
Najczęściej wykorzystywaną stała się jednak Apache Hadoop –
otwarta platforma programistyczna, napisana wjęzyku Java, aprze-
znaczona do rozproszonego składowania iprzetwarzania wielkich
zbiorów danych przy pomocy klastrów komputerowych. Zapewne jej
popularność wynika właśnie zfaktu, że wspomniana platforma jest
zbiorem narzędzi open-source. Projekt obejmuje obecnie: Hadoop
Common, Hadoop Distributed File System, Hadoop Yarn, Hadoop
MapReduce oraz inne projekty, jak: AmbariTM, AvroTM, CassandraTM,
ChukwaTM, HBaseTM, HiveTM, MahoutTM, PigTM, SparkTM, Te z TM czy
ZooKeeperTM22.
Obok wcześniej wymienionych tworzone są także inne architektury
informatyczne, dedykowane Big Data. Opisany wprezentowanym
raporcie projekt CONTENT1.0 jest przykładem poszukiwań badaw-
czych, które zakończyły się, zdaniem autorów, pierwszym, jeszcze
wstępnym sukcesem.
17 Ocjalna strona https://hadoop.apache.org/.
18
Zob. szerzej http://storm.apache.org/.
19
Zob. https://kaa.apache.org/.
20
Zob. https://impala.apache.org/.
21
Strona projektu: https://ink.apache.org/.
22
http://hadoop.apache.org/.
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
2222
Inspiracją do prac nad projektem ijego rozpoczęciem była towarzy-
ska ijakże cenna rozmowa, dotycząca poznawczego igospodarczego
znaczenia Big Data, podjęta niegdyś zdrAgnieszką Wrońską – kie-
rownikiem Działu Akademia NASK. Niezwykle pomocna okazała się
również sugestia prof. dr hab. inż. Ewy Niewiadomskiej-Szynkiewicz
– Dyrektora Pionu Naukowego NASK-PIB, żeby do zespołu zaprosić
dr inż. Mariusza Kamolę, absolwenta nauk technicznych wzakre-
sie automatyki oraz robotyki i– co było szczególnie istotne wtym
przypadku – specjalistę od sieci społecznych itechnologicznych. Bez
rady ipomocy Pani Profesor projekt spaliłby na panewce. Ponadto
do zespołu zostali włączeni także dr Rafał Lange i mgr Mariusz
Fila zkierowanej przeze mnie Pracowni Edukacyjnych Zastosowań
Technologii Informacyjno-Komunikacyjnych NASK-PIB. Życzliwe
i mądre wsparcie Marcina Bochenka – Dyrektora Pionu Rozwoju
Społeczeństwa Informacyjnego NASK-PIB spowodowało, że projekt
nabrał realnych kształtów imożliwe stało się jego ostateczne opraco-
wanie izłożenie. Wkrótce, dzięki pozytywnej ocenie Komisji Kon-
kursowej NASK-PIB można było rozpocząć realizację pierwszego,
apóźniej drugiego etapu.
Raz jeszcze okazało się, że dzięki świadomym decyzjom ludzi
dobrej woli, rzeczywistej zarządczej i organizacyjnej sprawności
Dyrekcji NASK, umiejętności współpracy wzespole oraz bardzo
wysokim kompetencjom jego członków w zakresie informatyki
inauk społecznych, projekt CONTENT 1.0 został zaakceptowany
przez Komisję oraz podjęty i zrealizowany. Stało się tak dzięki
tymwszystkim niezwykłym osobom, które rozumiały ideę, jaką się
kierowaliśmy inie pozwoliły zgasić pokładanej wprojekcie nadziei.
Dlatego też tym, którzy nas inspirowali i umożliwili skuteczną
realizację planów, słowem, okazali nieocenioną pomoc iwsparcie,
składam wimieniu własnym iwszystkich członków zespołu wyrazy
głębokiej wdzięczności.
2323
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
Metody analizy Big Data są poważnym wyzwaniem informatycz-
nym. Ich opis i wyjaśnienie wydają się być istotne dla rozwoju
naukowego igospodarczego. Dostęp do informacji i możliwości
przetwarzania dużych zbiorów danych oróżnym typie izłożono-
ści oraz źródłach pochodzenia jest bezcenny dla każdego przed-
siębiorstwa. Przemawiających za tym iwystarczających argumen-
tów dostarcza ekonomia, gospodarka oparta na wiedzy ipraktyka
społeczna. Już przecież w 2013 roku Kenneth Cukier i Viktor
Mayer-Schönberger – współautorzy książki dotyczącej Big Data,
dostrzegając olbrzymi wpływ tego zjawiska na gospodarkę, naukę
ispołeczeństwo, nadali jej znamienny tytuł: Big Data: Rewolucja,
która zmieni sposób naszego życia, pracy imyślenia23. Idodajmy –
już przeobraziła izmieniać nadal będzie.
Zcałą pewnością technologie Big Data tworzą też nowe, atrakcyjne
perspektywy poznawcze. Przy czym nie chodzi wyłącznie oliczbę
danych, ale też o ich wiarygodność, unikatowość oraz możliwość
podejmowania pionierskich badań naukowych, na dotychczas nieeks-
plorowanych polach. Coraz bardziej prawdopodobne empirycznie
staje się zatem intencjonalne wykorzystanie Big Data tak w bada-
niach wysokospecjalistycznych, jak iinter- czy transdyscyplinarnych.
Big Data bezsprzecznie już udowodniły swoją znaczną, naukową
przydatność. Analizy obszernych zbiorów danych przyniosły atrak-
cyjne owoce na wielu polach: od eksplozji wbiologii, wraz zjej rozra-
stającymi się bazami danych genomów ibiałek, poprzez astronomię,
zpetabajtami płynącymi zobserwacji nieba, do nauk społecznych,
zmiliardami postów itweetów krążących wInternecie. Potok danych
jest zbyt duży, by mógł go precyzyjnie analizować „nieuzbrojony”
23
Viktor Mayer-Schönberger, Kenneth Cukier, ARevolution that will transform
how we live, work andthink, Boston–New York 2013.
1. BIG DATA  INFORMATYKA WMETODOLOGII NAUK PEDAGOGICZNYCH
ludzki umysł, ale rozwój nauk informatycznych oraz postęp tech-
nologiczny, które pomogły w dostarczeniu tych danych, stworzyły
także nowe, potężne narzędzia, które już dziś okazują się niezwykle
użyteczne nie tylko wprocesie zbierania iprzesyłania, lecz także –
analizy izrozumienia. Nadszedł czas na podjęcie badań zwykorzy-
staniem Big Data także wnaukach pedagogicznych. Terra incognita
czeka na swych odkrywców. Drogę do wysp nieznanych otworzyła
informatyka.
25
APLIKACJA
Wydawać by się mogło, że obecnie rynek usług analitycznych obecno-
ści ipercepcji zadanych pojęć, wyrażających się wcyberprzestrzeni,
jest zapełniony w stopniu odpowiadającym zupełnie potrzebom
użytkowników. Istnieją na nim serwisy ukierunkowane na analizę
określonych portali społecznościowych […], agregację i selekcję
istotnych doniesień […] – atakże aplikacje uniwersalne, dokonujące
łącznej analizy wzmianek na temat zadanego pojęcia występujących
wwielu różnych źródłach […]. Użytkownik otrzymuje wyniki analiz
na żądanie, watrakcyjnej wizualnie formie, albo adhoc, wsytuacji
pojawienia się nowego zjawiska lub istotnej zmiany jego dynamiki.
Wielość iróżnorodność dostępnych aplikacji może sprawiać wraże-
nie, ich umiejętny wybór anastępnie świadome znich korzystanie
zaspokajają obecne potrzeby analizy obecności interesujących użyt-
kownika pojęć winternecie. Wistocie tak nie jest, co najmniej ztrzech
powodów. Po pierwsze, istnieje potrzeba elastyczniejszej iprecyzyj-
niejszej parametryzacji algorytmów wyszukiwania i przetwarzania
danych surowych tak, odpowiadającej rzeczywistym potrzebom
świadomego iwymagającego użytkownika. Po drugie, sam sposób
działania iwynik algorytmów powinien być jawny (większość obec-
nych usług, chociażby szeregowania wyników wyszukiwania taka nie
2
2. APLIKACJA
26
jest). Po trzecie, łańcuch przetwarzania wyników składa się wyłącz-
nie z algorytmów komputerowych, nie pozostawiając miejsca na
ingerencję ekspertów dziedzinowych wkluczowych etapach analizy.
Funkcjonalność izwiązana znią architektura systemu CONTENT1.0
usuwają wszystkie powyższe niedostatki istanowią jego cechy wyróż-
niające spośród innych istniejących rozwiązań.
2.1. Funkcjonalność
Działanie systemu można przedstawić najczytelniej, omawiając
typowe scenariusze korzystania zniego przez użytkownika, czyli
tzw.przypadki użycia. Użytkownik, tj. klient końcowy albo wspie-
rający go idoradzający mu ekspert dziedzinowy, deniuje zlecenie
analizy obecności określonego hasła wobsługiwanych przez system
źródłach danych. Ponieważ jakakolwiek analiza danych wymaga
ich uprzedniego zgromadzenia, system rozpoczyna okresowe ska-
nowanie określonych w zleceniu źródeł danych i gromadzenie
tych, które będą przydatne do dalszej analizy. Obecnie obsługiwa-
nymi źródłami danych są portale twitter.com, facebook.com oraz
onet.pl.
Aby udostępnić możliwość formułowania precyzyjnych i elastycz-
nych kryteriów wyszukiwania, zaproponowano ustalony podział
pobieranych danych na następujące jednostki:
• artykuł – odpowiada pojedynczemu artykułowi na stronie onet.
pl, komunikatowi (tweet) w serwisie twitter.com oraz wpisowi
(post) wserwisie facebook.com;
• blok – podjednostka artykułu, odpowiadająca części artykułu lub
pojedynczemu komentarzowi do artykułu;
2.1. FUNKCJONALNOŚĆ
27
• zdanie – pojedyncze zdanie;
• słowo – pojedyncze słowo.
Podstawowym parametrem zlecenia jest kwerenda, czyli wyrażenie,
którego wartość jest wyznaczana dla każdego napotkanego arty-
kułu wskanowanych źródłach. Składnia kwerendy jest następująca
(nawiasy kwadratowe oznaczają element opcjonalny, kreska pionowa
oznacza alternatywę, [...] oznacza dowolną liczbę powtórzeń bezpo-
średnio poprzedzającego elementu wyrażenia):
hasło [[op_logiczny] hasło [...]]]
gdzie hasło ma postać:
[id_typu_bloku[id_typu_bloku[...]]]słowo[końcówka[|końcówka[...]][|.|?|*]
op_logiczny ma postać:
|
lub ma postać:
[&[+|-]liczba[w|s]]]
Wyjaśnienie oznaczeń:
hasło–pojedyncze słowo wraz zjego formami eksyjnymi,
op_logiczny– złożony operator logiczny,
id_typu_bloku– jednocyfrowy specykator, precyzujący typ
bloku dokumentu, wobrębie którego poszukiwane będą hasła,
słowo– część nieodmienna szukanego terminu (niekoniecznie
temat gram.),
końcówka– końcówka eksyjna (dowolny ciąg znaków),
. – wystąpienie zera lub jednego znaku,
?– wystąpienie dokładnie jednego znaku,
*– wystąpienie dowolnej liczby znaków (do separatora słowa),
|– alternatywa (wystąpienie jednego zhaseł jest wystarczające),
2. APLIKACJA
28
&– koniunkcja (wystąpienie obu haseł jest konieczne),
+–- następujące hasło musi występować po poprzednim,
- – następujące hasło musi występować przed poprzednim,
liczba– liczba słów lub zdań, w zakresie których ma nastąpić
wystąpienie określone przez + lub -,
w– określona liczba powyżej dotyczy słów,
s – określona liczba powyżej dotyczy zdań.
Domyślne działanie polega na wyszukaniu koniunkcji haseł wfor-
mie dokładnie podanej przez użytkownika, wcałym artykule itowa-
rzyszącym mu komentarzach, bez uwzględniania kolejności wystę-
powania haseł.
Opracowana i przedstawiona tu składnia wywodzi się ze składni
wyrażeń regularnych. Została ona istotnie zmodykowana, aby
umożliwić wygodne, intuicyjne specykowanie wariantowego zakoń-
czenia haseł, ltrować hasła ze względu na ich położenie wartykule
oraz ze względu na wzajemne oddalenie haseł wtekście. W przy-
padku tej ostatniej opcji, wystarczy poprzedzić wyszukiwane hasło
ciągiem cyfr, np. 145pies, aby ograniczyć wyszukiwanie wystąpienia
słowa pies do trzech typów bloków, identykowanych cyframi 1, 4
i5. Wodniesieniu do wszystkich rodzajów źródeł, przyjęto podział
artykułu na bloki następujących typów:
0. Tytuł artykułu
1. Autor artykułu
2. Podtytuły iśródtytuły
3. Tekst zasadniczy (pomiędzy tytułami)
4. Podpisy pod infograkami
5. Treści komentarzy
Oszacowanie wartości kwerendy dla konkretnego artykułu zwraca
wartość całkowitą. Jeśli struktura zapytania powoduje, żeostatnim
2.1. FUNKCJONALNOŚĆ
29
oszacowywanym operatorem jest koniunkcja (&), wówczas wynik
zapytania może przyjmować wartość zero (fałsz, treść artykułu nie
pasuje do kwerendy) lub jeden (prawda). Jeśli ostatnim oszacowywa-
nym operatorem jest alternatywa, wartość kwerendy może być więk-
sza od jedności. Wtaki przypadku odpowiada on liczbie wszystkich
wystąpień wartykule obu argumentów alternatywy.
Istotną innowacją wstosunku do standardowych wyrażeń regular-
nych jest umożliwienie wyspecykowania maksymalnej odległości
wtekście pomiędzy wyszukiwanymi hasłami. Obsługiwanymi jed-
nostkami odległości są słowo izdanie. Jeśli kwerenda dotyczy tylko
niektórych typów bloków artykułu, przyjmuje się roboczo, że pozo-
stałe bloki nie istnieją, w związku zczym przeszukiwane bloki są
traktowane tak, jakby następowały bezpośrednio po sobie.
W systemie CONTENT 1.0 wprowadzono szereg predeniowa-
nych metryk, tj. algorytmów wyznaczających określone statystyki
dla pojedynczego artykułu. Większość znich może być parametry-
zowana przez użytkownika, jak to przedstawia tabela 1. Użytkow-
nik może zdeniować widoki, czyli zestawy metryk użyte do przed-
stawienia wyników eksperymentu. Dzięki uniwersalności metryk,
można wykorzystywać te widoki wielokrotnie, wodniesieniu do
różnych eksperymentów, traktując je jako swoistą perspektywę
badawczą stanowiącą punkt wyjścia do dalszej, subiektywnej lub
obiektywnej analizy szczegółowej wyników. Dzięki zaś parametry-
zacji można wykorzystywać większość metryk wielokrotnie, nawet
w obrębie pojedynczego widoku, np. zestawiając liczbę znaków
przestankowych wzasadniczym tekście artykułu oraz wkomenta-
rzach. Ekran deniowania widoku przestawiono na rys. 1; nato-
miast rys. 2 prezentuje wyniki zlecenia ukazane wtymże widoku.
Zauważmy, że każdej denicji metryki odpowiada pojedyncza
kolumna tabeli.
2. APLIKACJA
30
Tabela 1. Zestawienie metryk
Id.
metryki Wartość Parametr 1 Parametr 2
1 Liczba wystąpień hasła
wartykule ikomentarzach
Typy bloków
uwzględnionych
Typy bloków
pominiętych
2 Pozycja względna pierw-
szego wystąpienia hasła
zkwerendy (0–100%)
j.w. j.w.
3 Liczba zdań wartykule
ikomentarzach
j.w. j.w.
4 Średnia liczba znaków
wzdaniu
j.w. j.w.
9 Liczba znaków
przestankowych
j.w. j.w.
16 Liczba ilustracji j.w. j.w.
19 Liczba hashtagów j.w. j.w.
21 Treść wybranych bloków j.w. j.w.
23 Ilustracje j.w. j.w.
11 Liczba słów ze słownika Identykator
słownika
j.w.
5 Źródło artykułu
6 Względna pozycja arty-
kułu na portalu (0–100%)
Moment pomiaru
(0–100% ogól-
nego czasu trwa-
nia zlecenia)
10 Średnia liczba znaków
przestankowych
wkomentarzu
12 Średnia liczba emotiko-
nów wkomentarzu
101 Ocena subiektywna Identykator
oceny
Wartość począt-
kowa oceny
Rys. 1. Formularz wyboru metryk tworzących widok
Rys. 2. Ekran wyników analizy wg określonego widoku, wraz z okienkiem inspekcji pełnej treści artykułu
2.1. FUNKCJONALNOŚĆ
33
Aby umożliwić elastyczną ekspercką ocenę wyników, wprowadzono
specjalny typ metryki (101) pozwalający użytkownikowi wprowa-
dzać własne oceny poszczególnych artykułów. Ocena ma postać
liczby zczęścią ułamkową; takie ograniczenie umożliwia późniejsze,
jednolite przetwarzanie ocen. Denicja typów ocen ma charakter
opisowy; można wprowadzić dowolną liczbę typów ocen.
Kolejnym szczególnym typem metryki, powiązanych podobnie jak
oceny zdodatkowym słownikiem danych, jest liczba słów należących
do określonego, nazwanego zbioru. System CONTENT 1.0 wyposa-
żono wzbiory słów polskich wformach podstawowych, mających
wydźwięk pozytywny, negatywny, atakże kojarzących się zemocjami
podstawowymi (radość, zaufanie, cieszenie się na coś oczekiwanego,
smutek, złość, strach, wstręt, zaskoczenie czymś nieprzewidywanym)
oraz wartościami uniwersalnymi (użyteczność, dobro drugiego czło-
wieka, prawda, wiedza, piękno, szczęście, nieużyteczność, krzywda,
niewiedza, błąd, brzydota, nieszczęście). Zbiory te pochodzą ze Sło-
wosieci+ emo, czyli polskiego odpowiednika słownika Wordnet24.
Konsekwentna reprezentacja wyników zlecenia w postaci widoku
wukładzie tabelarycznym umożliwia eksport wstępnie przetworzo-
nych danych do dalszej obróbki. Wyniki ujęte wkonkretnym widoku
można zapisać do pliku wformacie Microso Excel (.xls). Dla ilu-
stracji powiązanych zartykułem (metryka typu 23) zapisywane są
wyłącznie adresy URL, dla zapewnienia przenośności iredukcji roz-
miaru pliku wynikowego.
24 Słowosieć, TBC.
2. APLIKACJA
34
2.2. Architektura
Odpowiadając na współczesne potrzeby itrendy, a także perspek-
tywy dalszego rozwoju, system CONTENT 1.0 został zaprojekto-
wany z użyciem obecnie stosowanych, nowoczesnych technologii
informatycznych. System składa się zszeregu powiązanych mikro-
usług, tj. wielu komponentów realizujących ściśle zdeniowane, sto-
sunkowo niewielkie fragmenty aplikacji. Możemy więc wyróżnić
mikrousługę obróbki dokumentów, realizującą centralnie algorytm
wykonywania kwerend, trzy mikrousługi skanujące odpowied-
nie źródła sieciowe oraz usługę koordynującą działanie wszystkich
pozostałych iwszczególności odpowiedzialną za terminowe wyko-
nywanie poszczególnych zleceń.
Graczny interfejs użytkownika zaimplementowano wformie apli-
kacji sieciowej, w której formularze budowane są dynamicznie
zwykorzystaniem biblioteki Angular JS po stronie przeglądarki. Kod
aplikacji idenicje formularzy serwowane są przez statyczny serwer
WWW; natomiast za kontrolę nad danymi do wyświetlenia odpo-
wiada dedykowana mikrousługa. Wten sposób, realizując współ-
czesne paradygmaty projektowania, rozdzielono logikę aplikacji,
denicje wyglądu poszczególnych ekranów użytkownika, oraz mani-
pulację właściwymi danymi. Wszczególności odseparowano logikę
aplikacji od bazy danych. Podobny zabieg wykonano po stronie usług
skanowania.
Dekompozycja systemu na szereg możliwie bezstanowych usług oraz
wprowadzenie warstwy abstrakcji dla przechowywania danych sta-
nowią cenny kapitał – są bowiem bardzo dobrym punktem wyjścia
do zadania skalowania wydajności systemu, niezbędnego w miarę
wzrostu przetwarzanych danych.
2.2. ARCHITEKTURA
Ztych samych powodów, system został od samego początku uru-
chomiony na maszynie wirtualnej dużego dostawcy usług hostingo-
wych. Pozwala to mieć nadzieję na jego dalszy harmonijny wzrost,
który wymagać będzie wdrożenia kolejnych rozwiązań właściwych
dla systemów obsługi ianalizy danych masowych (np. wdrożenia baz
NoSQL iwprowadzenie kontenerowej architektury mikrousług).
37
EKSPERYMENT
3.1. Zbieranie danych
Eksperyment 1: szukamy artykułów zawierających gdziekolwiek
słowa zaczynające się od „bezpieczeństw” oraz „cyfrow” (tj. bez-
pieczeństwo cyfrowe z uwzględnieniem końcówek eksyjnych).
Skanowano wszystkie źródła od 10 do 30 maja, powtarzając zbiera-
nie danych co 6 godzin. Znaleziono łącznie zaledwie 35 artykułów,
zczego trzy pochodzące zserwisu onet.pl, apozostałe znastępują-
cych proli Facebooka popularnych witryn branżowych: Techno-
winki oraz niebezpiecznik.
Niewielka liczba wyników wynika zdynamicznych zmian wstruktu-
rze stron serwisu onet.pl, która spowodowała niedomagania wdzia-
łaniu modułów skanujących ten serwis bezpośrednio, jak również
jego bliźniaczy prol na Facebooku. Niestety, odświeżenie układu
stron i wprowadzanie nowych funkcjonalności przez dostawców
treści powodują najczęściej konieczność natychmiastowego dosto-
sowania do nich programów skanujących. Dlatego pozyskiwanie
danych poprzez web scraping jest uznawane za bardzo kosztowne
w utrzymaniu w porównaniu zkorzystania z API, i stosuje się je
wostateczności.
3
3. EKSPERYMENT
38
Eksperyment 2: szukamy artykułów zawierających słowo NASK
(wielkość liter bez znaczenia). Skanowano te same źródła co powy-
żej, od 21 marca do 30 kwietnia, co trzy godziny.
3.2. Analiza statystyczna
Do projektu wybrano przetwarzanie wsadowe, które wymaga skom-
pletowania pełnego/zamkniętego zbioru danych wejściowych. Każdy
rekord musi być zapisany wpostaci ilościowej (lub zrekodowanej do
takiej formy).
Podstawą analizy ilościowej są miary tendencji centralnej oraz miary
rozproszenia (wzależności od skali pomiarowej).
Przetwarzanie danych zostanie przeprowadzone metodą funkcji
podobieństwa (metodą liniową). Transformacja danych uzupełniona
zostanie ekstrakcją wstępną, czyli sprowadzeniem zbioru danych
do możliwe optymalnego podzbioru cech, które dają jak największe
możliwości eksploracyjne. Transformacja iekstrakcja wstępna zosta-
nie przeprowadzona za pomocą statystycznej analizy skupień (przy
wykorzystaniu SPSS).
Analiza skupień to zbiór metod wielowymiarowej analizy statystycz-
nej, służących wyodrębnianiu jednorodnych podzbiorów obiektów
badanej populacji obiektów. Metody analizy skupień są stosowane
wówczas, gdy nie dysponujemy hipotezami apriori, abadania są
wfazie eksploracyjnej. Dzięki analizie skupień można wykryć, czy
otrzymane skupienia wskazują na jakąś prawidłowość, dokonać
redukcji dużego zbioru danych do średnich poszczególnych grup,
3.2. ANALIZA STATYSTYCZNA
39
Tabela 2. Statystyki – miary tendencji centralnej imiary rozproszenia.
Liczba
wystąpień hasła
Liczba zdań
wartykule
Średnia liczba
znaków
wartykule
ikomentarzach
Liczba znaków
przestankowych
wartykule
Liczba znaków
przestankowych
wkomentarzach
NWażne 325 325 323 325 17
Braki 0 0 2 0 308
Średnia 2,1969 10,6338 60,38427 19,8615 3,6341
Mediana 2,0000 5,0000 57,40000 6,0000 4,0909
Dominanta 2,00 3,00 57,400 6,00 1,00
Odchylenie standardowe 1,25388 23,97603 25,927020 62,20612 1,37328
Wariancja 1,572 574,850 672,210 3869,601 1,886
3. EKSPERYMENT
40
potraktować rozdzielenie na grupy jako wstęp do dalszych wielo-
wymiarowych analiz25.
Statystyczna analiza skupień będzie zatem dla naszego zbioru suro-
wego (ilościowego) algorytmem selekcji, gdzie ltrem wbudowanym
do wyboru podzbiorów cech będzie podobieństwo/niepodobieństwo
obiektów akryterium stopu: kompletność przeszukania, specyczna
granica ilości iteracji lub ilości cech, brak przyrostu nowych związa-
nych obiektów wklastrze, określony błąd pomiaru.
Istnieją dwa sposoby aglomeracji danych: metody hierarchiczne oraz
grupowanie metodą k-średnich. Wprojekcie zostanie zastosowana
metoda hierarchiczna, która jest nieparametryczna, niewrażliwa na
występowanie szumu ibraków danych oraz nie wymaga apriorycz-
nej konieczności ustalenia dokładnej, zamkniętej struktury zbioru
zmiennych26. Dodatkowo, zaletą wykorzystania hierarchicznych
metody aglomeracyjnej jest zastosowanie jednej, centralnej proce-
dury aglomeracyjnej, podczas której proces grupowania można śle-
dzić awyniki kontrolować.
Do realizacji metody hierarchicznej najczęściej wykorzystywane są
techniki aglomeracyjne, wktórych początkowo każdy obiekt stanowi
osobne skupienie, następnie obiekty leżące najbliżej siebie są łączone
wnowe skupienie aż do uzyskania jednego skupienia. Problemem jest
określenie odległości (czyli zasady wiązania) między nowymi sku-
pieniami, powstającymi zpołączonych obiektów. Istnieje szereg róż-
nych zasad wiązania, które między sobą różnią się jedynie sposobami
25 Brian S. Everitt, Sabine Landau, Morven Leese, Daniel Stahl, Cluster analysis,
5th edition, John Wiley & Sons, Chichester 2011.
26
Kamila Migdał-Najman, Krzysztof Najman, Samouczące się sztuczne sieci neu-
ronowe wgrupowaniu iklasykacji danych. Teoria izastosowania wekonomii,
Wydawnictwo Uniwersytetu Gdańskiego, Gdańsk 2013.
3.2. ANALIZA STATYSTYCZNA
41
obliczania odległości między skupieniami (single linkage metod, com-
plete linkage, UPGMA – unweighted pair-group metod using arithme-
tic averages, WPGMA – weighted pair-group metod using arithmetic
averages, UPGMC – unweighted pair-group metod using the centroid
average, weighted pair-group metod using the centroid average, War d’s
method). Do projektu została wybrana metoda Warda27. Tametoda
różni się od wszystkich pozostałych, ponieważ do oszacowania odle-
głości między skupieniami wykorzystuje podejście analizy wariancji
– zmierza do minimalizacji sumy kwadratów odchyleń dowolnych
dwóch skupień, które mogą zostać uformowane na każdym etapie.
Metoda ta zmierza do minimalizacji sumy kwadratów odchyleń
wewnątrz skupień. Miarą zróżnicowania skupienia względem warto-
ści średnich jest ESS (Error Sum of Squares), zwane również błędem
sumy kwadratów. ESS jest określone wzorem:
=
= −
2
1
()
k
i
i
ESS x x
xi wartość zmiennej będącej kryterium segmentacji dla i-tego
obiektu,
k liczba obiektów wskupieniu.
Wybór tej metody wynika z jej ponadprzeciętnej efektywności,
tzn.tworzy skupienia statystycznie homogeniczne.
Algorytmy aglomeracyjne są uniwersalne, mogą być stosowane
dla danych ilościowych ijakościowych (zrekodowanych do postaci
numerycznych). Ponadto charakteryzuje je szybkość działania.
Niemniej jednak, do ustalenia końcowej liczby skupień konieczna
jest analiza dendrogramu, który jest ilustracją graczną procesu
27 Joe H. Ward, Hierarchical Grouping in Optimize an Objective Function, „Jour-
nal of the American Statistical Association” 1963, vol. 58.
3. EKSPERYMENT
42
łączenia obiektów. Procedura łączenia zostaje wstrzymana po prze-
kroczeniu ustalonej, progowej wartości miary odmienności pomię-
dzy skupieniami.
Rys. 3. Dendrogram – wynik agregacji metodą Warda
Wzależności od przyjętych założeń badania, wtym zwłaszcza akcep-
towanej odległości taksonomicznej między obiektami ze względu na
zaproponowany zestaw cech, możemy wyróżniać większe lub mniej-
sze skupienia, aco za tym idzie – mniejszą lub większą ich liczbę.
Celem obserwacji kolejności połączeń grup z miernikami charak-
teryzującymi odległość oraz wykluczenia wiązań pozornych (wyni-
kłych np. zpowodu wystąpienia outlayersów), interpretacja iokreśle-
nie granic zbioru cech zostaną przeprowadzone (dla każdej operacji
agregowania) przez badacza.
3.2. ANALIZA STATYSTYCZNA
43
Dodatkowo, na podstawie hierarchicznej analizy skupień, zostaną
skonstruowane numeryczne, zagregowane zmienne czynnikowe,
pozwalające na dalszą analizę data mining ikońcową interpretacje
wyników pomiaru. Wybrany statystyczny algorytm przetwarzania
danych jest optymalny, gdyż zapewnia reprezentację dużych ilości
danych, atakże agreguje te dane, przez co przyspiesza proces prze-
szukiwania, przetwarzania, klasykacji, oraz dyskryminacji wzorców.
Dobór próby do analizy jakościowej.
W sytuacji pomiarów, gdzie wystąpi duża liczba rekordów, zosta-
nie zastosowanydobór systematyczny losowania próby do analizy
jakościowej. Dobór systematyczny polega na wyborze z uporząd-
kowanego zbioru odpowiedniej liczby jednostek wrównych odstę-
pach (interwałach). Najpierw ustala się liczebność (N) całej zbioro-
wości, anastępnie liczebność (n) próby ina tej podstawie ustala się
interwał losowania k = N/n. Poczynając następnie od losowo obranej
jednostki pierwszego interwału dobiera się kolejno co k jednostek
zkażdego interwału po jednej jednostce, aż osiągnie się pożądaną
wielkość próby losowej.
Wielkość próby dla takiego losowania będzie liczona ze wzoru:
α
=
+
2
2
( 1)
1
b
N
ndN
z pq
N – liczność populacji;
p spodziewany rząd wielkości szacowanej frakcji;
q 1 – p;
z
α
1,64 dla
α
= 0,10;
1,96 dla
α
= 0,05;
2,58 dla
α
= 0,01;
d dopuszczalny błąd szacunku frakcji p.
3. EKSPERYMENT
44
3.3. Analiza jakościowa
Projekt miał na celu stworzenie aplikacji umożliwiającej gromadze-
nie danych oraz realizację analizy jakościowej zgodnie zzałożeniami
metodologicznymi teorii ugruntowanej opracowanej przez Glasera
iStraussa28.
Filarami teorii ugruntowanej są trzy zasady:
• Badania należy rozpoczynać bez przyjmowania wstępnej hipo-
tezy, dzięki temu unikamy sytuacji, w której istniejące teorie
wpłyną na spostrzeganie badanego zjawiska.
• Druga zasada polega na nieustannym porównywaniu ze sobą
zebranych fragmentów materiału empirycznego. To porówna-
nie prowadzi do określenia kodów służących do porządkowania
izinterpretowania materiału wcelu wyróżnienia najważniejszych
kategorii, zktórych zostanie zbudowana teoria dotycząca bada-
nego zjawiska.
• Trzecia zasada to teoretyczne pobieranie próbek. Polega na tym,
że materiał do badania wybieramy wtaki sposób, by poszerzyć
naszą znajomość problemu, a nie by uzyskać jedynie próbkę
reprezentatywną.
Teoria ugruntowana wymaga od badacza przestrzegania wyznaczo-
nych reguł postępowania. Zgodnie z założeniami metody należy
podchodzić do badanego przedmiotu wsposób otwarty, bez przy-
wiązywania większej wagi do tworzenia hipotez już wpoczątkowym
stadium badania. Jednak oczywiste jest, że każdy badacz wnosi do
procesu badawczego swój sposób myślenia, przekonania izałożenia,
28 Barney Glaser iAnselm L. Strauss, Odkrywanie teorii ugruntowanej. Strategie
badania jakościowego, Zakład Wydawniczy Nomos, Kraków 2009.
3.3. ANALIZA JAKOŚCIOWA
45
które nabył wtrakcie życia29. Ważne jest, żeby badacz miał świado-
mość, wjakim stopniu jego sposób interpretacji wynika zbadanej
rzeczywistości, awjakim zjego uprzedzeń, przekonań ipreferencji.
Proces badania zgodnie zzałożeniami teorii ugruntowanej składa się
ztrzech rodzajów działań:
• zbierania danych;
• kodowania iidentykowania idei lub koncepcji;
• generowania teorii.
Przy zbieraniu danych wbadaniach prowadzonych zgodnie zzalece-
niami teorii ugruntowanej należy kierować się zasadą teoretycznego
pobierania próbek. Dane należy zbierać tak długo, aż osiągniemy
stan nasycenia teoretycznego, co oznacza, że dalsze zbieranie danych
nie wzbogaci już wiedzy obadanym zjawisku inie pomoże wdal-
szym rozwijaniu tworzonej przez badacza teorii.
Oprogramowanie zostało tak zaprojektowane, żeby wwymaganym
stopniu umożliwiać tworzenie właściwego zbioru danych. Dane skła-
dają się ze zbioru artykułów pozyskiwanych według zadanego przez
badacza zapytania zbudowanego zinteresującego go hasła bądź kilku
haseł. Progi nasycenia teoretycznego mogą być ustalone na dwa spo-
soby: pierwszy to liczba artykułów wzbiorze, drugi to czas zbiera-
nia artykułów. Czas zbierania artykułów jest szczególnie istotny przy
badaniu dynamiki zjawisk, zwłaszcza tych pojawiających się nagle
iszybko przemijających.
29 Constance T. Fischer, Bracketing in qualitative research: Conceptual and
practical matters, „Psychotherapy Research” 2009, 19(4–5), s. 583–590.
doi:10.1080/10503300902798375.
3. EKSPERYMENT
46
Zwiększenie wiarygodności badań zapewnia triangulacja danych,
która wpraktyce realizowana jest poprzez sięganie po dane zróżnych
źródeł. Stworzona aplikacja umożliwia w każdym uruchomionym
eksperymencie pobieranie danych zwielu źródeł, np. portali twitter.
com, facebook.com oraz onet.pl. Ponadto dane te mogą być pobiera-
nie wróżnym, określonym przez badacza czasie.
Zgromadzone wten sposób dane powinny być poddane kodowaniu.
Kodowanie to jeden znajważniejszych etapów projektu badawczego
prowadzonego zgodnie z zaleceniami teorii ugruntowanej. W tej
fazie badania przechodzimy od danych do kategorii abstrakcyjnych,
zktórych wkońcowym etapie powstanie teoria średniego zasięgu.
Badacze stosują różne strategie kodowania materiału empirycznego:
słowo po słowie, wiersz po wierszu, zdarzenie po zdarzeniu30. Wszyst-
kie trzy strategie mają na celu dostrzeżenie nowych zjawisk wdobrze
znanym na pozór materiale31. Kodowanie słowo po słowie pozwala
skoncentrować uwagę na niuansach. Kodowanie wiersz po wierszu
narzuca spojrzenie na kodowany tekst przez pryzmat podziału na
wiersze. Najbardziej zbliżoną do naturalnego sposobu spostrzegania
narracji wydaje się być analiza ikodowanie zdarzenie po zdarzeniu.
Jednakże wybór strategii kodowania jest uzależniony od wielu czyn-
ników, między innymi od długości analizowanego tekstu.
Zaprojektowane oprogramowanie posiada możliwość quasi kodowa-
nia, które może być przeprowadzone przezzastosowanie specjalnego
typu metryki pozwalający użytkownikowi wprowadzać własne oceny
30 Kathy Charmaz, Teoria Ugruntowana. Praktyczny przewodnik po analizie jako-
ściowej, WN PWN, Warszawa 2009.
31 Judith A. Holton, e Coding Process and Its Challenges, „e Grounded e-
ory Review” 2010, vol. 9, nr 1, s.21–38.
3.3. ANALIZA JAKOŚCIOWA
poszczególnych artykułów. Ocenama postać liczby zczęścią ułam-
kową; takie ograniczenie umożliwia późniejsze, jednolite przetwa-
rzanie ocen. Denicja typów ocen ma charakter opisowy; użytkow-
nik może wprowadzić dowolną liczbę typów ocen.
Kodowanie idalsze etapy badania mogą być realizowane poprzez
wykorzystanie specjalistycznego oprogramowania zewnętrznego,
takiego jak MAXQDA, Nvivo lub Atlas. Programy te nie tylko uła-
twiają kodowanie, ale także oferują graczną wizualizację struktury
badanego materiału. Stworzone oprogramowanie nie będzie stwa-
rzało badaczowi ograniczeń wkorzystaniu zzewnętrznych progra-
mów do analizy pogłębionej, dzięki eksportowi danych do pliku
wpopularnym formacie xlsx.
W kolejnym etapie zakodowane opisy powinny być grupowane
wkategorie, co ułatwia porzucenie myślenia okonkretnych zdarze-
niach na rzecz analizy wkategoriach na wyższym poziomie abstrak-
cji. Analiza kategorii może doprowadzić do tworzenia teorii odnoś-
nie do badanego zjawiska.
49
WYNIKI
4.1. Analiza statystyczna danych
Eksperyment „NASK”
Małe zróżnicowanie źródeł obserwacji, które wynikało zdynamicz-
nych zmian w strukturze stron serwisu Onet.pl, ma swój wyraz
wotrzymanej strukturze rekordów. Dominują obserwacje zTwittera
(89,5%), rekordy zFacebooka stanowią 8,3%, a z Onet.pl jedynie
2,2% (patrz tabela 3).
Tabela 3. Rozkład procentowy i częstości źródeł rekordów weksperymen-
cie „NASK”
Częstość Procent
Twitter 291 89,5
Facebook 27 8,3
Onet 7 2,2
Ogółem 325 100,0
Miary tendencji centralnej imiary rozproszenia
Średnio liczba wystąpień hasła „NASK” wartykule wyniosła 2 razy,
średnia (mediana) pozycja pierwszego wystąpienia hasła to 19,0%
wstosunku do pierwszego słowa wartykule, średnia (mediana) liczba
4
4. WYNIKI
50
zdań wartykule ikomentarzach – 5, średnia (mediana) liczba znaków
wartykule iwkomentarzach – ok. 58, aznaków przestankowych – 6
(wtym wkomentarzach – 4) oraz hashtagów – 0, natomiast średnia
(mediana) liczba emotikonów wkomentarzach – 0,26, średnia liczba
słów pozytywnych inegatywnych lub zkategorii: błąd, zaufanie, uży-
teczność, nieużyteczność, wiedza, niewiedza – 0 (patrz tabela 4).
Transformacja iekstrakcja – analiza skupień
Analiza skupień pozwala na eksploracje danych i poszukiwanie
zależności całych grup zmiennych. Przykładowo odnotowano nastę-
pujące korelacje:
• Częściej hasło „NASK” występowało na Twitterze niż Facebo-
oku czy Onet.pl, natomiast na FB iOnet.pl, „NASK” jest częściej
pozycjonowane wtytule ilub na początku wpisu/artykułu (patrz
rys.4).
• Emocjonalny charakter wypowiedzi (negatywnej lub pozytywnej)
mocniej jest związana zliczbą wystąpień samego hasła „NASK”
niż zjego pozycją wartykule (patrz rys.5).
• Emocjonalnanaturatreści (negatywna lub pozytywna) mocniej
jest także związana zliczbą zdań wartykule, im większa liczba
zdań wartykule, tym częściej występowały narracje uczuciowe
(patrz rys.6).
• Treści ocharakterze pozytywnym lub negatywnym zdecydowa-
nie częściej występują na Facebook i Onecie niż na Twitterze
(patrz rys. 7).
• Artukuły/wpisy na Facebooku iOnet.pl zdecydowanie częściej
zawierają słowa owydźwięku – ‘błąd’, niewiedza, ‘nieużyteczność’,
natomiast wmniejszym stopniu słowa owydźwięku – ‘zaufanie’,
‘wiedza’i‘użyteczność’. Wpisy na Twitterze nie korelują zżadnymi
zbiorami słów o wspomnianym wcześniej wydźwięku (patrz
rys.8).
4.1. ANALIZA STATYSTYCZNA DANYCH
51
Rys. 4. Dendrogram – wynik agregacji zmiennych „źródło”, „pozycja hasła wartykule”, „liczba
wystąpień hasła”
4. WYNIKI
52
Tabela 4. Statystyki – miary tendencji centralnej imiary rozproszenia – eksperyment „NASK”
L. wyst. hasła
Poz.1.wyst
L.zdan.artykule.i.kom.
Sred.l.znak.w.art.kom
Znaki.przest
S.l.znaków.kom
S.l.emotikon.kom
L.hash.w.art.i.kom
L.slow.pozytyw.
art.i.kom
N325 325 325 323 325 17 24 325 325 325
bd 0 0 2 0 308 301 0 0 0
M 2,197 23,499 10,6338 60,384 19,862 3,634 0,266 1,132 2,846
Me 2,000 19,000 5,000 57,400 6,000 4,091 0,261 0,000 0,000
D 2,00 2,00 3,00 57,400 6,00 1,00 0,00 0,00 0,00
Σ 1,254 20,685 23,976 25,927 62,206 1,373 0,178 1,781 13,834
Var 1,572 427,850 574,850 672,210 3869,601 1,886 0,032 3,171 191,377
4.1. ANALIZA STATYSTYCZNA DANYCH
53
L.slow.negatyw.art.i.ko
L.slow.błąd.art.i.kom
L.slow.zaufanie.art.i.kom
L.slow.uzytecznosc.art.i.kom
L.slow.nieuzytecznosc.ar.kom
L.slow.wedza.art.i.kom
L.slow.niewiedza.art.i.kom
NN 325 325 325 325 325 325 325
bd. 0 0 0 0 0 0
M4,0400 1,4308 1,9477 2,5908 1,3385 0,7692 0,4985
Me 0,00 0,00 0,00 0,00 0,00 0,00 0,00
D0,00 0,00 0,00 0,00 0,00 0,00 0,00
Σ 15,51647 6,51108 7,54822 8,98019 6,60312 3,72417 2,38129
Var 240,761 42,394 56,976 80,644 43,601 13,869 5,671
4. WYNIKI
54
Rys. 5. Dendrogram – wynik agregacji zmiennych „liczba wystąpień słów pozytywnych”, „liczba
wystąpień słów pozytywnych”, „liczba wystąpień hasła”
4.1. ANALIZA STATYSTYCZNA DANYCH
55
Rys. 6. Dendrogram – wynik agregacji zmiennych „liczba wystąpień słów pozytywnych”, „liczba
wystąpień słów pozytywnych”, „liczba zdań wartykule”, „średnia liczba znaków wartykule”
4. WYNIKI
56
Rys. 7. Dendrogram – wynik agregacji zmiennych „źródło”, „liczba wystąpień słów pozytywnych”,
„liczba wystąpień słów negatywnych”
4.1. ANALIZA STATYSTYCZNA DANYCH
57
Rys. 8. Dendrogram – wynik agregacji zmiennych „źródło”, „liczba wystąpień słów ‘błąd’, „liczba
wystąpień słów ‘zaufanie’, „liczba wystąpień słów ‘wiedza”, „liczba wystąpień słów ‘użyteczność’”,
„liczba wystąpień słów ‘niewiedza”, „liczba wystąpień ”, „liczba wystąpień słów ‘nieużyteczność’
4. WYNIKI
58
Pokazana tu ranacja nie ma charakteru reprezentatywności, ponie-
waż eksperyment został przeprowadzony wmomentach czasowych
wybranych przypadkowo, a samo zbieranie danych zostało obar-
czone błędem zmian wstrukturze stron serwisu Onet.pl. Jednakże,
powyższe analizy są przykładami obrazującymi możliwości proto-
typu aplikacji.
Eksperyment „bezpieczeństwo cyfrowe”
W eksperymencie „Bezpieczeństwo cyfrowe, małe zróżnicowanie
próby badawczej jest jeszcze większe niż weksperymencie „NASK”,
przyczyny tego zostały już wyjaśnione wcześniej. Dominują tutaj
obserwacje zFacebooka (91,2%), rekordy zOnet.pl stanowią jedynie
8,9%, azTwittera jest ich wpróbie brak (patrz tabela 5).
Tabela 5. Rozkład procentowy iczęstości źródeł rekordów weksperymencie
„Bezpieczeństwo cyfrowe”
Częstość Procent
Twitter 0 0,0
Facebook 31 91,2
Onet 3 8,9
Ogółem 34 100,0
Miary tendencji centralnej imiary rozproszenia
Średnio (mediana) liczba wystąpień hasła „Bezpieczeństwo cyfrowe
wartykule wyniosła 1, średnia (mediana) pozycja pierwszego wystą-
pienia hasła to 34,0% wstosunku do pierwszego słowa wartykule,
średnia (mediana) liczba zdań wartykule ikomentarzach – 88, śred-
nia (mediana) liczba znaków wartykule i w komentarzach – 271,
a znaków przestankowych – 4, hashtagów – 0, natomiast średnia
4.1. ANALIZA STATYSTYCZNA DANYCH
59
(mediana) liczba emotikonów wkomentarzach – 0,30, średnia liczba
słów pozytywnych – 35 inegatywnych – 45, azkategorii: błąd – 21,
zaufanie – 22, użyteczność – 27, nieużyteczność – 20, wiedza – 10,
niewiedza – 9 (patrz tabela 6).
Transformacja iekstrakcja – analiza skupień
Również tutaj, celom poglądowym została wykonana analiza sku-
pień, celem wstępnej ekstrakcji zmiennych onajwyższym ładunku
predykcji. Przykładowo odnotowano następujące korelacje:
• Zarówno negatywny, jak ipozytywny wydźwięk koreluje pozy-
tywnie z liczbą wystąpień hasła. W przypadku pozycji pierw-
szego hasła wartykule brak jest zależności zwydźwiękiem (patrz
rys.9).
• Pozytywny wydźwięk artykułu/wpisu koreluje pozytywnie
zliczbą zdań iznaków wartykule/wpisie (patrz rys. 10).
• Średnia liczba emotikonów i znaków przestankowych nie ma
wpływu na wydźwięk artykułu/wpisu (patrz rys. 11).
• Wydźwięk pozytywny, dodatnio koreluje zsłowami zkategorii:
„błąd”, „nieużyteczność”, „niewiedza, natomiast negatywny ze
słowami z kategorii: „zaufanie, „wiedza, „użyteczność” (patrz
rys. 12).
4. WYNIKI
60
Tabela 6. Statystyki – miary tendencji centralnej imiary rozproszenia – eksperyment „Bezpieczeństwo cyfrowe”
L.wyst.hasla
Poz.1.wyst
L.zdan.artykule.i.kom.
Sred.l.znak.w.art.kom
Znaki.przest
Sred.l.emot.w.kom
L.hash.w.art.i.kom
L.slow.pozytyw.art.i.kom
N34 34 34 34 31 31 34 34 34
000033000
M 1,2059 33,9706 97,9706 300,3824 4,03800 ,35639 ,6176 55,2941
Me 1,0000 34,0000 87,5000 271,0000 3,98148 ,30435 ,0000 34,5000
D 1,00 34,00 64,00a10,00a2,562a,050a,00 ,00a
Σ ,59183 24,61520 73,23209 239,89215 1,076111 ,193556 1,53770 51,20105
Var ,350 605,908 5362,939 57548,243 1,158 ,037 2,365 2621,547
4.1. ANALIZA STATYSTYCZNA DANYCH
61
L.slow.negatyw.art.i.ko
L.slow.błąd.art.i.kom
L.slow.zaufanie.art.i.kom
L.slow.uzytecznosc.art.i.kom
L.slow.nieuzytecznosc.ar.kom
L.slow.wedza.art.i.kom
L.slow.niewiedza.art.i.kom
N34 34 34 34 34 34 34 34
0 0 0 0 0 0 0 0
M68,3235 27,7941 34,6765 42,0588 25,2059 14,1176 9,5294
Me 45,0000 20,5000 22,0000 27,0000 19,5000 10,0000 8,5000
D 1,00a,00a22,00 1,00a,00 8,00 ,00
Σ67,75210 25,58856 36,01071 42,07853 24,61680 13,59092 9,21210
Var 4590,347 654,775 1296,771 1770,602 605,987 184,713 84,863
4. WYNIKI
62
Rys. 9. Dendrogram – wynik agregacji zmiennych: „liczba wystąpień hasła”, „liczba wystąpień
słów pozytywnych”, „liczba wystąpień słów negatywnych”, „pozycja wystąpienia 1 hasła”
4.1. ANALIZA STATYSTYCZNA DANYCH
63
Rys. 10. Dendrogram – wynik agregacji zmiennych „liczba zdań wartykule”, „średnia liczba zna-
ków awartykule ikomentarzach, „liczba wystąpień słów pozytywnych”, „liczba wystąpień słów
negatywnych”
4. WYNIKI
64
Rys. 11. Dendrogram – wynik agregacji zmiennych „liczba znaków przestankowych, „średnia
liczba emotikonów w artykule i komentarzach”, „liczba wystąpień słów pozytywnych”, „liczba
wystąpień słów negatywnych”
4.1. ANALIZA STATYSTYCZNA DANYCH
65
Rys. 12. Dendrogram – wynik agregacji zmiennych „liczba wystąpień słów pozytywnych”, „liczba
wystąpień słów negatywnych”, „liczba wystąpień słów błąd, „liczba wystąpień słów zaufa-
nie”, „liczba wystąpień słów wiedza”, „liczba wystąpień słów użyteczność”
4. WYNIKI
66
Reasumując, przedstawione wcześniej ekstrakcje przy użyciu hie-
rarchicznej analizy skupień są jedynie przykładem możliwości two-
rzenia pogłębionej analizy danych zebranych za pomocą prototypu
CONTENT1.0. Aby dokonać selekcji zmiennych (istotnych zpunktu
widzenia poprawienia efektywności wyboru), należy przeprowadzić
dodatkowe eksperymenty na rozszerzonych zbiorach treści interneto-
wych. Niemniej jednak, już na tym etapie analizy, głębokość zbierania
danych prototypu (wraz zzakładanym algorytmem ekstrakcji zmien-
nych) pozwala stwierdzić, że wchwili obecnej nie ma polskim rynku
tak zaawansowanego oprogramowania do analizy ilościowej tekstów
internetowych.
4.2. Analiza jakościowa danych
Głównym celem przeprowadzonej analizy danych było sprawdzenie,
czy zaprojektowane iwyprodukowane oprogramowanie umożliwia
taką analizę ina ile jest ona funkcjonalna.
Zbieranie danych iich jakość
Zbieranie danych zostało przetestowane wtrakcie realizacji głównego
eksperymentu „NASK”, który zebrał 325 artykułów zportali Twitter
(n=291), Facebook (n=27) iOnet (n=7). Wtrakcie analizy oka-
zało się jednak, że 45 artykułów nie ma związku zbadanym hasłem,
które wystąpiło jedynie jako część innego wyrazu, np. naskoczyć,
naskórek. Pozostałe 280 artykułów spełniało wymagania i zostało
poddane dalszej analizie.
4.2. ANALIZA JAKOŚCIOWA DANYCH
67
Program umożliwiał wstępne przeglądanie danych iczytanie całych
artykułów woknach typu pop-up. Co ważne prawidłowo wyświe-
tlały się również wprowadzone wtwittach emotikony (rys. 13).
Rys. 13. Przykładowe okno zwpisem zwidocznymi emotikonami
Przetestowano wprowadzanie ocen w zdeniowanych metrykach.
Zwykorzystaniem przygotowanej metryki „zgodność” została zre-
alizowana wstępna ocena związku artykułu zwyszukiwanym hasłem.
Zastosowano kodowanie 0-brak związku; 1-jest związek.
Eksport danych
Wkolejnym kroku przeprowadzono export danych do pliku wfor-
macie xlsx. Eksport przebiegł pomyślnie, plik wynikowy zawierał
wszystkie kategorie danych: artykuły oraz oceny. Artykuły zawierały
pełne treści zemotikonami ihiperłączami.
Następnie w programie Excel, plik z pozyskanymi danymi został
przygotowany doexportu do specjalistycznego programu MAXQDA
poprzez dodanie nagłówków kolumn zgodnie z wymaganiami
programu MAXQDA. Dane z tak przetworzonego pliku zostały
zpowodzeniem zaimportowane do programu MAQDA, wktórym
zostały poddane dalszemu procesowi nadawania kodów oraz ich
kategoryzacji.
4. WYNIKI
68
Rezultaty analizy jakościowej
Wtrakcie analizy artykułów ujawniły się następujące kody:
• Informacje oOSE
• Nagroda dla OSE
• Akademia NASK
• Dzień Nowych technologii wEdukacji
• Mistrzowie kodowania/programowania
• Konkurs dla studentów
• Badania
• Edukacja
• Innowacja
• Cyberbezpieczeństwo
• NASK jako dostawca Internetu
• NASK rejestracja domen
• Konferencja SECURE
• Wysokie kompetencje
• Nowy minister
• EDZ
Wkolejnym kroku dokonano połączenia kodów wkategorie:
• Profesjonalizm informatyczny
o NASK jako dostawca Internetu
o NASK rejestracja domen
o Cyberbezpieczeństwo
o Konferencja SECURE
o Wysokie kompetencje
• Edukacja wspołeczeństwie informacyjnym
o OSE
Informacje oOSE
Nagroda dla OSE
4.2. ANALIZA JAKOŚCIOWA DANYCH
69
Tabela 7. Kategoria: Edukacja wspołeczeństwie informacyjnym – częstości
wystąpień kodów składowych
Kod Częstość wystąpień
OSE 76
Edukacja 10
Innowacja 10
Mistrzowie kodowania/programowania 8
Akademia NASK 4
Dzień Nowych Technologii wEdukacji 4
Konkurs dla studentów 4
Badania 2
Razem 118
Tabela 8. Profesjonalizm informatyczny – częstości wystąpień kodów skła-
dowych
Kod Częstość wystąpień
Cyberbezpieczeństwo 58
NASK rejestracja domen 11
Konferencja SECURE 4
Wysokie kompetencje rmy 3
Dostawca Internetu 2
Razem 78
o Edukacja
o Innowacja
o Akademia NASK
o Dzień Nowych technologii wEdukacji
4. WYNIKI
o Mistrzowie kodowania/programowania
o Konkurs dla studentów
o Badania
• Ministerstwo
o Nowy minister
o EDZ
Na podstawie przeprowadzonej analizy można stwierdzić, żewprze-
szukiwanych źródłach „NASK” najczęściej występował wzwiązku
zrealizacją projektu OSE oraz działań edukacyjnych narzecz roz-
woju społeczeństwa informacyjnego. Często również pojawiały się
informacje oprofesjonalnej działalności informatycznej rmy, szcze-
gólnie wzakresie cyberbezpieczeństwa irejestracji domen.
Szczególnie popularne były twitty o nagrodzie dla projektu OSE
(44wystąpienia) oprzykładowej treści:
„RT @MC_GOV_PL: 🏆 Projekt Ogólnopolskiej Sieci Edukacyjnej #OSE
😁🏫 zdobył prestiżową nagrodę @ITU 🏅WSIS Prizes 2018 💪 @MC_
GOV_PL @NASK_pl @M ”
lub
„RT @NASK_pl: To wielki sukces! Dziękujemy internautom, ekspertom
z@ITU @WSISprocess iwszystkim wspierającym program #OSE – to nas
w i e l k i …”
Wysoka częstość tego typu informacji wynikała głównie ztego, że
była ona przesyłana dalej przez kolejnych użytkowników internetu,
natomiast źródłowe informacje wychodziły zMinisterstwa Cyfryza-
cji oraz NASK PIB. Podobnie sytuacja wyglądała wprzypadki ogól-
nych informacji odnośnie realizacji projektu OSE.
71
KONKLUZJE IPOSTULATY
5.1. Bariery iszanse
Dalej przedstawiono wyniki analizy SWOT dla dostarczonego sys-
temu informatycznego:
Silne strony:
• uwzględnienie struktury artykułu we wszelkich zadaniach anali-
tycznych;
• złożona, elastyczna składnia kwerendy;
• szerokie możliwości parametryzacji widoków wyników;
• tabelaryczny układ wyników, ułatwiający współpracę z innymi
narzędziami;
• najlepszy aktualnie dostępny słownik pojęć nacechowanych emo-
cjonalnie;
• możliwość rozwijania iedycji słownika;
• możliwość wystawiania własnych ocen artykułów;
• nowoczesna, rozwojowa architektura informatyczna systemu;
• całkowita kontrola nad kodem źródłowym aplikacji;
• stosunkowo szybka prędkość edycji macierzy danych.
5
5. KONKLUZJE IPOSTULATY
72
Słabe strony:
• konieczność zastosowania web scrapingu, podatnego nazmianę
układu stron www skanowanego serwisu onet.pl;
• ograniczenie wydajności skanowania serwisów Facebook iTwit-
ter zuwagi na politykę korzystania zAPI dostawców;
• ograniczona kontrola nad sposobem wyszukiwania www. serwi-
sach;
• sens niektórych metryk ograniczony tylko do niektórych źródeł
danych;
• złożona architektura kodu źródłowego, wymagająca zespołu
oodpowiednich kwalikacjach wcelu dalszego rozwoju systemu;
• kod źródłowy nie został gruntownie przetestowany ani poddany
audytom;
• brak pełnej kompatybilności do eksportu do SPSS Statistics;
• brak obsługi polskiej eksji isynonimów;
• brak możliwości oznaczania kodem wybranych fragmentów
artykułu.
Szanse:
• łatwość rozbudowy do wpełni funkcjonalnej aplikacji sieciowej
ikomercjalizacji wmodelu SaaS;
• gotowość do bieżącego używania przez specjalistów w celu
świadczenia komercyjnych usług analitycznych oraz prowadze-
nia badań naukowych;
• możliwość obudowania wtórnym API dla danych przetworzonych;
• skalowalność pozioma (skanowanie kolejnych, nowych źródeł)
ipionowa (większa wydajność skanowania aktualnych serwisów
poprzez zrównoleglenie);
• możliwość zawarcia umów partnerskich z dostawcami treści
iskanowania na uprzywilejowanych zasadach;
• możliwość adaptacji do pogłębionej ilościowej analizy danych –
nieobecnej na polskim rynku;
5.2. KIERUNKI ROZWOJU
73
• łatwość wdrożenia mechanizmów głębszej analizy języka natu-
ralnego.
Zagrożenia:
• restrykcje wpolityce dostępu do obecnych iinnych źródeł danych;
• rozwiązania konkurencyjne – ograniczona dostępność do dużych
zbiorów danych;
• brak czytelnych, uzgodnionych ipopartych zasobami ścieżek dal-
szego rozwoju.
5.2. Kierunki rozwoju
Pod względem architektonicznym, system CONTENT 1.0 umożli-
wia płynny dalszy rozwój. Już obecnie działa jako aplikacja sieciowa
na dzierżawionej maszynie wirtualnej, co umożliwia dalsze skalowa-
nie wydajności zarówno poprzez zwiększenie wydajności maszyny
wirtualnej (tj. bez ingerencji warchitekturę), jak ipoprzez zwielo-
krotnienie instancji mikrousług iwprowadzenie narzędzi koordynu-
jących (kontenery, kolejki).
Architektura, a zwłaszcza architektura mikrousługowa, wiąże się
ściśle zfunkcjonalnością, gdyż kluczowe operacje analityczne oraz
interfejs do bazy danych realizowane są poprzez dedykowane kom-
ponenty. Oznacza to, że modykacje określonych aspektów funkcjo-
nowania systemu (np. logiki ltrowania artykułów, zapisu do bazy,
a w przyszłości np. uwierzytelnienia i płatności) dokonywane są
zazwyczaj tylko wjednym, odpowiedzialnym komponencie. Ułatwia
to modykacje i dodawanie nowych źródeł danych oraz narzędzi
analitycznych.
5. KONKLUZJE IPOSTULATY
Wykorzystany słownik „Słowosieć” daje możliwość edycji itworze-
nia własnych sub-słowników na podstawie analizy semantycznej
indukowanych eksperymentów, niemniej jednak, aby wpełni wyko-
rzystać jego zalety, należy podjąć prace nad rozbudową słownika
okatalog polskich eksji isynonimów.
Osobnym zagadnieniem jest dostęp i agregacja dużych zbiorów
danych (co wiąże się zdodatkowymi kosztami), dlatego też, należy
podjąć kroki celem tworzenia NASK-owej bazy danych interneto-
wych zarówno dla dominujących mediów, jak i mediów specjali-
stycznych, np.: edukacja, bankowość, telekomunikacja, technologie
cyfrowe itp. Opracowany prototyp aplikacji może być także wyko-
rzystany do analizy danych zastanych czyli archiwów cyfrowych.
75
BIBLIOGRAFIA
Bochenek Marcin, Rok pilotażu OSE, [w:]Akademia NASK, OOSE,
https://akademia.nask.pl/projekt-48/o-projekcie.html, pobrane
dn. 17.07.2018.
Charmaz Katchy, Teoria Ugruntowana. Praktyczny przewodnik po
analizie jakościowej, WN PWN, Warszawa 2009.
Cox Michael i Ellsworth David, Managing Big Data for Scientic
Visualization, 1997, ACM SIGGRAPH ‘97Course #4, Explo-
ring Gigabyte Datasets in Real-Time: Algorithms, Data Mana-
gement, and Time-Critical Design, Los Angeles, zob.: https://
www.researchgate.net/profile/David_Ellsworth2/publica-
tion/238704525 _Managing_big_data_for_scientic_visualiza-
tion/links/54ad79d20cf2213c5fe4081a/Managing-big-data-for-
-scientic-visualization.pdf, pobrane dn. 13.07.2018.
Everitt Brian S., Landau Sabine, Leese Morven, Stahl Daniel, Cluster
analysis, 5th edition, John Wiley & Sons, Chichester 2011.
Fischer, Constance T., Bracketing in qualitative research: Conceptual
and practical matters, „Psychotherapy Research” 2009, 19(4–5),
s.583–590.
Glaser Barney i Strauss Anselm L., Odkrywanie teorii ugruntowa-
nej. Strategie badania jakościowego, Zakład Wydawniczy Nomos,
Kraków 2009.
76
BIBLIOGRAFIA
76
Gniadek Anna, Rakowska Weronika, Szladowski Tomasz, Rynek
nazw domeny.pl. Raport roczny. Wersja elektroniczna zob.:
https://www.dns.pl/NASK-raport-rynek-nazw-domeny-pl-2017.
pdf, pobrane dn. 10.07.2018.
Gogołek Wodzimierz, Big Data. Sieciowe źródło informacji dla edu-
kacji, [w:] Cyfrowa przestrzeń kształcenia, Seria Cyberprzestrzeń
– Człowiek – Edukacja. Tom 1. Praca zbiorowa pod red. Macieja
Tanasia iSylwii Galanciak, Ocyna Wydawnicza „Impuls”, Kra-
ków 2015, s.97–104.
Gogołek Wodzimierz, Kuczma Paweł, Ranacja informacji sieciowych
na przykładzie wyborów parlamentarnych. Część 1. Blogi, fora,
analiza sentymentów, „Studia Medioznawcze” 2013, nr 2(53).
Gogołek Wodzimierz, Ranacja informacji sieciowej, [w:] Informa-
tyka wdobie XXI wieku. Nauka, Technika, Edukacja anowoczesne
technologie informatyczne. Praca zbiorowa pod red. Aleksandra
Jastriebowa, BeatyKuźmińskiej-Sołśnia, Marii Raczyńskiej, Poli-
technika Radomska, Radom 2011.
Gogołek Wodzimierz, Jaruga Dariusz, Zbadań nad systemem rana-
cji sieciowej. Identykacja sentymentów, „Studia Medioznawcze”
2016, nr 4 (67), s.104–105.
Holton Judith A., e Coding Process and Its Challenges, „e Groun-
ded eory Review” 2010, vol. 9, nr 1, s.21–38.
Inteligentne urządzenia wokół nas. Aco znaszym bezpieczeństwem?,
„Interia Biznes” 17.02.2018, www.biznes.interia.pl, pobrane dn.
13.07.2018.
Katal Avita, Wazid Mohammad, Goudar R.H., Big Data: Issues,
Challenges, Tools and Good Practices, 2013, Sixth International
Conference on Contemporary Computing (IC3), IEEE, Noida,
s.404–409.
Korczak J., Franczyk B., Big Data – denicje, wyzwania itechnologie
informatyczne, „Informatyka Ekonomiczna. Business Informa-
tics” 2014, nr 1(31), s.141.
7777
BIBLIOGRAFIA
Krajobraz bezpieczeństwa polskiego internetu 2016. Raport roczny
zdziałalności CERT Polska, NASK/CERT Polska 2016, s.23–29.
Laney Doug, 3D DataManagement: Controlling Data Volume,
Velocity, and Variety, „Application Delivery Strategies” 2001,
META Group Inc. Zob.: https://blogs.gartner.com/doug-laney/
les/2012/01/ ad949-3D-Data-Management-Controlling-Data-
-Volume-Velocity-and-Variety.pdf, pobrane dn. 13.07.2018.
Locke Karen (2001), Grounded eory in Management Research,
Sage, London 2001.
Mayer-Schönberger Wiktor, Cukier Kenneth, ARevolution that will
transform how we live, work and think, Boston–New York 2013.
Migdał-Najman Kamila, Najman Krzysztof, Samouczące się sztuczne
sieci neuronowe wgrupowaniu iklasykacji danych. Teoria izasto-
sowania w ekonomii, Wydawnictwo Uniwersytetu Gdańskiego,
Gdańsk 2013.
Słowosieć, TBC.
Ustawa oOgólnopolskiej Sieci Edukacyjnej została jednogłośnie przy-
jęta przez Senat RP 10.11.2017, anastępnie podpisana przez Pre-
zydenta RP iogłoszona 28 listopada wDzienniku Ustaw 2017,
poz. 2184, tom 1.
Ward Joe H., Hierarchical Grouping in Optimize an Objective Func-
tion, „Journal of the American Statistical Association” 1963,
vol.58.
e Zettabyte Era: Trends and Analysis, White Papers, Cisco,https://
www.cisco.com/c/en/us/solutions/ collateral/service-provider/
visual-networking-index-vni/vni-hyperconnectivity-wp.html,
pobrane dn. 13.07.2018.
Strony internetowe
http://hadoop.apache.org/.
http://storm.apache.org/.
BIBLIOGRAFIA
http://stratosphere.eu/.
https://ink.apache.org/.
https://hadoop.apache.org/.
https://impala.apache.org/.
https://kaa.apache.org/.
79
O AUTORACH
Maciej Tanaś – kierownik Pracowni Edukacyjnych Zastosowań
Technologii Informacyjno-Komunikacyjnych oraz przewodniczący
Naukowego Kolegium Ekspertów NASK. Profesor APS i NASK PIB.
Doktor honoris causa Winnickiego Państwowego Uniwersytetu Peda-
gogicznego im.Michała Kociubińskiego na Ukrainie (2017). Dziekan
Wydziału Nauk Pedagogicznych Akademii Pedagogiki Specjalnej im.
Marii Grzegorzewskiej (od 2012). Kierownik Zespołu Pedagogiki
Medialnej przy Komitecie Nauk Pedagogicznych PAN, b.doradca
społeczny i kierownik Zespołu ds. Bezpieczeństwa Dziecka wCyber-
przestrzeni przy Rzeczniku Praw Dziecka. Członek Rady Naukowej
Muzeum Harcerstwa. Kierownik oraz uczestnik wielu międzynaro-
dowych zespołów badawczych. Autor iwspółautor ponad 250 publi-
kacji naukowych, redaktor naczelny międzynarodowego czasopisma
naukowego „International Journal of Pedagogy, Innovation and New
Technologies” oraz członek wielu komitetów naukowych polskich
i zagranicznych czasopism. Członek Kapituły Medalu KNP PAN
„ZaZasługi DlaRozwoju Polskiej Pedagogiki” oraz Sekcji Pedago-
giki Społecznej i Sekcji Pedagogiki Specjalnej przy KNP PAN, Pol-
skiego Towarzystwa Naukowego Edukacji Internetowej, Polskiego
Towarzystwa Technologii i Mediów Edukacyjnych, Sekcji Arteterapii
O AUTORACH
Polskiego Towarzystwa Psychiatrycznego, Jury Międzynarodowego
Konkursu Fotogracznego „Matematyka w obiektywie”. Naukowo
zajmuje się dydaktyką ogólną, metodologią nauk społecznych, peda-
gogiką medialną iedukacją informatyczną oraz edukacją dla pokoju.
Mariusz Kamola – od 2002 r. stale związany zawodowo z Naukową
i Akademicką Siecią Komputerową oraz z Politechniką Warszawską,
na której w 2003 r. uzyskał stopień naukowy doktora w dziedzinie
automatyki. Jest autorem lub współautorem ponad 50 publikacji
naukowych ipromotorem pond 40 prac dyplomowych. Prowadził
prace badawcze z zakresu symulacji ioptymalizacji numerycznej,
inżynierii ruchu sieciowego, analizy danych i modelowania matema-
tycznego. Brał udział i kierował projektami badawczymi nansowa-
nymi w ramach 5. i 7. Programu Ramowego UE. Obecne zaintere-
sowania naukowe dra Kamoli obejmują analizę języka naturalnego
i Big Data, Internet Rzeczy oraz badania nad sztuczną inteligencją.
Rafał Lange – doktor socjologii; kierownik Pracowni Badań Spo-
łecznych w NASK PIB; zajmuje się przede wszystkim metodologią
badań, analiza statystyczną, socjologią młodzieży i internetu.
Mariusz Fila – psycholog, pedagog twórczości, pracownik Pracowni
Edukacyjnych Zastosowań Technologii Informacyjno-Komunika-
cyjnych NASK PIB oraz Zakładu Metodologii iPedagogiki Twór-
czości Akademii Pedagogiki Specjalnej im. Marii Grzegorzewskiej.
Prowadzi prace badawcze iwdrożeniowe z zakresu komputeryzacji
kształcenia oraz metodologii badań. Kierował międzynarodowymi
projektami, w tym: Innovation Laboratories in the development of
competences of special pedagogy teachers and people with special edu-
cational needs (i-LAB3).
81
Informacje oNASK PIB
NASK Państwowy Instytut Badawczy jest instytutem badaw-
czym podległym Ministerstwu Cyfryzacji. Kluczowe obszary dzia-
łalności NASK PIB obejmują zadania związane zzapewnieniem bez-
pieczeństwa internetu, atakże zrozwojem polskiej cyberprzestrzeni.
Instytut realizuje działania statutowe działając wróżnych obszarach:
naukowym, doradczym, edukacyjnym igospodarczym.
W ramach NASK PIB działa Narodowe Centrum Cyberbez-
pieczeństwa (NC Cyber). Reagowaniem na zdarzenia naruszające
bezpieczeństwo sieci zajmuje się zespół CERT Polska (Computer
Emergency Response Team). WNC Cyber funkcjonuje także zespół
Dyżurnet.pl, odpowiadający za przeciwdziałanie szkodliwym iniele-
galnym treściom obecnym winternecie.
Instytut prowadzi badania wzakresie opracowywania rozwiązań
zwiększających efektywność, niezawodność i bezpieczeństwo sieci
teleinformatycznych oraz innych złożonych systemów sieciowych.
Istotne miejsce wdziałalności instytutu zajmują badania dotyczące
biometrycznych metod werykacji tożsamości w bezpieczeństwie
usług. NASK PIB prowadzi także rejestr domeny.pl.
Funkcjonująca wstrukturach instytutu Akademia NASK zajmuje
się działalnością edukacyjną, popularyzatorską oraz szkoleniową.
Wieloletnia współpraca z ekspertami oraz przedstawicielami
środowisk naukowych pozwoliła stworzyć szeroką gamę publikacji,
poradników i materiałów edukacyjnych poruszających najbardziej
aktualne zagadnienia związane zbezpieczeństwem dzieci imłodzieży
online. Akademia NASK realizuje projekty adresowane do różnych
grup społecznych, wiekowych oraz zawodowych. Od 2005roku NASK
INFORMACJE ONASK PIB
PIB jest koordynatorem Polskiego Centrum Programu Safer Internet –
programu Komisji Europejskiej mającego na celu promocję bezpiecz-
nego korzystania znowych technologii iinternetu wśród dzieci imło-
dzieży oraz przeciwdziałanie nielegalnym treściom online.
WAkademii NASK prowadzone są unikatowe szkolenia dla rm
i instytucji ze szczególnym uwzględnieniem tematyki bezpieczeń-
stwa ICT. Oferta szkoleniowa Akademii adresowana jest do sektora
biznesu, administracji publicznej iinstytucji akademickich. Posia-
damy także kompleksową propozycję szkoleń społecznych dla samo-
rządów oraz przedstawicieli sektora edukacyjnego.
Winstytucie NASK PIB istotną rolę pełni Pracownia Edukacyj-
nych Zastosowań TIK. Pracownia zajmuje się prowadzeniem badań
społecznych z obszaru społeczeństwa informacyjnego oraz imple-
mentacją technologii informacyjnych ikomunikacyjnych wproce-
sie edukacji. Istotnym zadaniem Pracowni jest diagnoza stanu bez-
pieczeństwa cyfrowego dzieci imłodzieży. Pracownia współpracuje
zwiodącymi ośrodkami akademickimi iinstytucjami naukowo-ba-
dawczymi oraz posiada zaplecze informatyczne i technologiczne
wrealizacji badań zleconych.
NASK – Państwowy Instytut Badawczy
ul. Kolska 12, 01-045 Warszawa
tel. 22 380 82 00, fax 22 380 82 01, nask@nask.pl
www.nask.pl
Wydanie pierwsze
Arkuszy drukarskich 5,25
Skład i łamanie: AnnGraf, Anna Szeląg
Druk ukończono w maju 2019
Druk i oprawa: Fabryka Druku
WYDAWNICTWO AKADEMII
PEDAGOGIK I SPECJALNEJ
www.aps.edu.pl
Raport badawczy NASK PIB
CONTENT 1.0 – prototyp aplikacji do analizy treści in-
ternetu
, przygotowany przez zespół badawczy pod kierunkiem prof. Macieja Tanasia,
wiąże s z nurtem poszukiwania nowych narzędzi do analizy i przetwarzania wielkich
zbiorów danych, oraz ich zastosowania w metodologii badań społecznych i edukacyj-
nych, w czasie gdy gwałtownie rosną przypływ y informacji z wielu różnych źródeł. Dane te
mają ogromną użyteczność dla nauki, edukacji, gospodarki czy polityki, co rodzi pilną
potrzebę tworzenia nowych metod i technik analizy Big Data, oraz nowych rozwiązań
technologicznych, otwierających zupełnie nowe perspektywy poznawcze przed nauką
i edukacją, pozwalające zdobyć bezcenną wiedzę o przestrzeni, w jakiej żyjemy.
Temu właśnie ma służyć m.in. przedstawiony w Raporcie projekt CONTENT 1.0, umoż-
liwiający podejmowanie takich analiz z zastosowaniem wielowymiarowej analizy seman-
tycznej treści zeskanowanych danych źródłowych ze stron internetowych i portali
społecznościowych. Pierwsze eksperymenty z jego zastosowaniem pokazały, że stwa-
rza on nie tylko duże możliwości analityczne, ale jego otwarty charakter pozwala też
na wzbogacanie go o nowe elementy, co wydatnie umożliwia dalszy rozwój i zwiększa
potencjalne możliwości jego wykorzystania w badaniach nad edukacją, czy szerzej
w obszarze nauk społecznych.
dr hab. Barbara Galas, prof. UKSW
Stanisław Lem przyrównał zjawisko internetu do biblijnego potopu, czyli nadmiaru
wód, w którym można ze wszystkim utonąć, jeżeli nie zdołamy dla ratunku, jak Noe,
zbudować sobie „Arki Noego Internetu”. Człowiek potrafi takie łodzie budować, czego
przykładem opiniowany produkt nazwany CONTENT 1.0, będący efek tem pracy zespołu
badawczego w składzie: mgr Mariusz Fila, dr inż. Mariusz Kamola, dr Rafał Lange oraz
dr hab., prof. APS Maciej Tanaś – kierownik. Wynikiem pracy tego zespołu jest skon-
struowana z myślą o przeszukiwaniu zasobów internetu aplikacja, stanowiąca swoiste
narzędzie uży teczne w wyszukiwaniu haseł w postaci słów, pojedynczych zdań lub ciągu
tych zdań.
Otrzymany rezultat charakteryzuje się zamierzo adaptatywnością oraz wysoką
efektywnością, co potwierdziły przeprowadzone test y. Testy te […] dowodzą, że umie-
jętne wykorzystanie w ytworzonego narzędzia może prowadzić do interesujących
poznawczo wyników. Rze telność oraz niez w ykła wnikliwość przepr owadzonych ekspe-
rymentów potwierdza, znaną od dawna prawdę, że nietrywialne sposoby przetwarzania
danych dają nietrywialne w swej treści syntezy. CONTENT 1.0 […] posiada niezaprze-
cz alne cec hy dok on ania twórczego, jes t bowiem eg ze mpli fikacją je dn ej z definicji tw ór-
czości, mówiącej, że twórczość to także algorytmizacja niealgory tmizowalnego.
dr hab. Jan Łaszczyk, prof. APS
BigData
w edukacji
CONTENT 1.0 prototyp aplikacji
do analizy treści internetu
Maciej Tanaś, Mariusz Kamola
Rafał Lange, Mariusz Fila
PAŃSTWOWY INSTYTUT BADAWCZY
BigData w edukacji g 4.indd All Pages 29/05/19 19:28
Article
Rapid development of Artificial Intelligence is influencing most of the human’s domains. It impacts our reality in quantitative and qualitative way. This situation is challenging, also for the educational system – in many aspects. Analysis of this situation in the educational context is important and urgent matter. In the article author is attempting to explain and to structure the problem, pointing out, both chances and the threats, of the phenomenon, focusing on the area of educational content the measures.
Article
Full-text available
Dostępny potencjał mocy obliczeniowych i pamięci komputerowych stworzył niedostępne wcześniej warunki do analizy dużych zasobów informacyjnych – Big Data. W procesie tej analizy można wykorzystywać procedury kolekcjonowania informacji i ich analizy do trafnej oceny – w kategoriach emocjonalnych (sentymentów – dobry, zły) badanych zjawisk w przeszłości, w czasie rzeczywistym, a także do predykcji. Artykuł jest prezentacją kluczowej części tej procedury – istoty automatyzacji procesu identyfikacji sentymentów.
Article
Full-text available
Coding is the core process in classic grounded theory methodology. It is through coding that the conceptual abstraction of data and its reintegration as theory takes place. There are two types of coding in a classic grounded theory study: substantive coding, which includes both open and selective coding procedures, and theoretical coding. In substantive coding, the researcher works with the data directly, fracturing and analysing it, initially through open coding for the emergence of a core category and related concepts and then subsequently through theoretical sampling and selective coding of data to theoretically saturate the core and related concepts. Theoretical saturation is achieved through constant comparison of incidents (indicators) in the data to elicit the properties and dimensions of each category (code). This constant comparing of incidents continues until the process yields the interchangeability of indicators, meaning that no new properties or dimensions are emerging from continued coding and comparison. At this point, the concepts have achieved theoretical saturation and the theorist shifts attention to exploring the emergent fit of potential theoretical codes that enable the conceptual integration of the core and related concepts to produce hypotheses that account for relationships between the concepts thereby explaining the latent pattern of social behaviour that forms the basis of the emergent theory. The coding of data in grounded theory occurs in conjunction with analysis through a process of conceptual memoing, capturing the theorist’s ideation of the emerging theory. Memoing occurs initially at the substantive coding level and proceeds to higher levels of conceptual abstraction as coding proceeds to theoretical saturation and the theorist begins to explore conceptual reintegration through theoretical coding.
Conference Paper
Big data is defined as large amount of data which requires new technologies and architectures so that it becomes possible to extract value from it by capturing and analysis process. Due to such large size of data it becomes very difficult to perform effective analysis using the existing traditional techniques. Big data due to its various properties like volume, velocity, variety, variability, value and complexity put forward many challenges. Since Big data is a recent upcoming technology in the market which can bring huge benefits to the business organizations, it becomes necessary that various challenges and issues associated in bringing and adapting to this technology are brought into light. This paper introduces the Big data technology along with its importance in the modern world and existing projects which are effective and important in changing the concept of science into big science and society too. The various challenges and issues in adapting and accepting Big data technology, its tools (Hadoop) are also discussed in detail along with the problems Hadoop is facing. The paper concludes with the Good Big data practices to be followed.
Article
Bracketing is presented as two forms of researcher engagement: with data and with evolving findings. The first form is the well-known identification and temporary setting aside of the researcher's assumptions. The second engagement is the hermeneutic revisiting of data and of one's evolving comprehension of it in light of a revised understanding of any aspect of the topic. Both of these processes are ongoing, and they include the careful development of language with which to represent findings. Extensive everyday examples of bracketing and of interviewing are presented. As a form of disclosure in qualitative research, the background from which this article was written is shared. At that point, Husserl's and Heidegger's historical introductions of bracketing are presented briefly, followed by a discussion of reflexivity and hermeneutics. The article closes with warnings of how residual positivism can work against qualitative rigor and with a suggested qualitative research study on bracketing.
Praktyczny przewodnik po analizie jakościowej, WN PWN
  • Charmaz Katchy
  • Teoria Ugruntowana
Charmaz Katchy, Teoria Ugruntowana. Praktyczny przewodnik po analizie jakościowej, WN PWN, Warszawa 2009.
Exploring Gigabyte Datasets in Real-Time: Algorithms, Data Management, and Time-Critical Design
  • Cox Michael I Ellsworth
  • David
Cox Michael i Ellsworth David, Managing Big Data for Scientific Visualization, 1997, ACM SIGGRAPH '97Course #4, Exploring Gigabyte Datasets in Real-Time: Algorithms, Data Management, and Time-Critical Design, Los Angeles, zob.: https:// www.researchgate.net/profile/David_Ellsworth2/publication/238704525 _Managing_big_data_for_scientific_visualiza-tion/links/54ad79d20cf2213c5fe4081a/Managing-big-data-for--scientific-visualization.pdf, pobrane dn. 13.07.2018.
Odkrywanie teorii ugruntowanej. Strategie badania jakościowego, Zakład Wydawniczy Nomos
  • Glaser Barney I Strauss Anselm
Glaser Barney i Strauss Anselm L., Odkrywanie teorii ugruntowanej. Strategie badania jakościowego, Zakład Wydawniczy Nomos, Kraków 2009.
Rynek nazw domeny.pl. Raport roczny. Wersja elektroniczna zob
  • Gniadek Anna
  • Rakowska Weronika
  • Szladowski Tomasz
Gniadek Anna, Rakowska Weronika, Szladowski Tomasz, Rynek nazw domeny.pl. Raport roczny. Wersja elektroniczna zob.: https://www.dns.pl/NASK-raport-rynek-nazw-domeny-pl-2017. pdf, pobrane dn. 10.07.2018.
Sieciowe źródło informacji dla edukacji
  • Gogołek Wodzimierz
  • Big Data
Gogołek Wodzimierz, Big Data. Sieciowe źródło informacji dla edukacji, [w:] Cyfrowa przestrzeń kształcenia, Seria Cyberprzestrzeń -Człowiek -Edukacja. Tom 1. Praca zbiorowa pod red. Macieja Tanasia i Sylwii Galanciak, Oficyna Wydawnicza "Impuls", Kraków 2015, s. 97-104.
Rafinacja informacji sieciowych na przykładzie wyborów parlamentarnych. Część 1. Blogi, fora, analiza sentymentów
  • Gogołek Wodzimierz
  • Kuczma Paweł
Gogołek Wodzimierz, Kuczma Paweł, Rafinacja informacji sieciowych na przykładzie wyborów parlamentarnych. Część 1. Blogi, fora, analiza sentymentów, "Studia Medioznawcze" 2013, nr 2(53).