ArticlePDF Available

Abstract

Wikipedia nổi tiếng là một bách khoa toàn thư mở lớn nhất hiện nay với mục đích phổ cập kiến thức cho tất cả mọi người trên thế giới. Với việc áp dụng robot trong khâu tạo bài tự động, dự án tiếng Việt là một trong 13 dự án ngôn ngữ có hơn một triệu bài viết. Tuy nhiên, điều đó tạo cho Wikipedia tiếng Việt nhiều thách thức trong việc nâng cao chất lượng bài, sắp xếp thể loại, chống phá hoại nội dung và nhiều công tác khác. Trong bài báo này, chúng tôi phân loại thể loại ở Wikipedia tiếng Việt, chi tiết hơn là cấu trúc và các quy ước đặt tên thể loại. Phương pháp chính là áp dụng các tiêu chuẩn và cấu trúc thể loại sẵn có ở tiếng Anh, một dự án Wikipedia lớn nhất về mặt thông tin đóng góp, từ đó áp dụng cho phiên bản tiếng Việt. Tuy nhiên, điều đó không thực hiện dễ dàng, do đó chúng tôi phải kết hợp nhiều phương pháp xã hội cũng như chuyên môn để đạt được sự kỳ vọng. Việc phân tích tên thể loại và dữ liệu từ Wikidata được chúng tôi áp dụng là một tiền đề xây dựng một công cụ chuyển dịch tên thể loại từ tiếng Anh sang tiếng Việt.
TP CHÍ KHOA HỌC ĐI HỌC ĐÀ LẠT Tp 7, S 2, 2017 217230 217
PHÂN LOẠI TÊN THỂ LOẠI Ở WIKIPEDIA TIẾNG VIỆT
T Hoàng Thnga
*
aKhoa Công ngh Thông tin, Trưng Đại học Đà Lạt, Lâm Đồng, Vit Nam
Lch s bài báo
Nhn ngày 09 tháng 01 năm 2017 | Chỉnh sa ngày 17 tháng 04 năm 2017
Chp nhận đăng ngày 17 tháng 05 năm 2017
Tóm tt
Wikipedia ni tiếng là một bách khoa toàn thư mở ln nht hin nay vi mục đích phổ cp
kiến thc cho tt c mọi người trên thế gii. Vi vic áp dng robot trong khâu to bài t
động, d án tiếng Vit là mt trong 13 d án ngôn ng có hơn một triu bài viết. Tuy nhiên,
điều đó to cho Wikipedia tiếng Vit nhiu thách thc trong vic nâng cao chất lượng bài,
sp xếp th loi, chng phá hoi ni dung và nhiu công tác khác. Trong bài báo này, chúng
tôi phân loi th loi Wikipedia tiếng Vit, chi tiết hơn là cu trúc và các quy ước đặt tên
th loại. Phương pháp chính là áp dụng các tiêu chun và cu trúc th loi sn tiếng
Anh, mt d án Wikipedia ln nht v mặt thông tin đóng góp, từ đó áp dụng cho phiên bn
tiếng Việt. Tuy nhiên, điều đó không thực hin d dàng, do đó chúng tôi phi kết hp nhiu
phương pháp xã hội cũng như chuyên môn để đạt được s k vng. Vic phân tích tên th
loi và d liu t Wikidata được chúng tôi áp dng là mt tiền đề xây dng mt công c
chuyn dch tên th loi t tiếng Anh sang tiếng Vit.
T khóa: Phân loi th loại; Quy ước đặt tên; Th loi Wikipedia.
1. GII THIU
Cây th loi ti d án Wikipedia tiếng Anh là đối tượng nghiên cu ca nhiu hc
gi trên thế gii vi nhiu bài báo v tái cu trúc th loi, loi b th loi dư thừa và phân
tích cu trúc th loi, rút trích các quan h ng nghĩa trên thể loi… Việc qun lý cu trúc
th loi khó thc hin mt cách hiu qu các d án ngôn ng Wikipedia nh và trung
bình vì vấn đề hn chế v mt nhân lực. Do đó, nhu cu qun th loi ti các d án
cũng hết sc cn thiết. Trước hết, chúng tôi phân tích tên th loi tiếng Anh và tiếng Vit
thành các cu trúc mẫu NLP tương ứng vi nhau, t đó áp dụng vic dch thuật để to
mi tên th loi tiếng Vit t tiếng Anh thông qua các cu trúc này. Tiếp đến, da vào
cu trúc th loi tiếng Anh, chúng tôi cũng có thể sp xếp các bài viết vào các th loi
*
Tác gi liên h: Email: thangth@dlu.edu.vn
218 TP CHÍ KHOA HỌC ĐI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGH THÔNG TIN]
tiếng Vit va mi to mt cách hợp lý. Điều này giúp tăng độ mn cu trúc th loi ti
d án Tiếng Vit, gim bt vic thao tác to th loi mi bng tay nhằm thúc đẩy cht
ng cng tác ti Wikipedia tiếng Vit.
2. CÁC NGHIÊN CU LIÊN QUAN
Trong bài báo này, chúng tôi da ch yếu vào bài báo ca Nastase Strube
(2008) v vic phân loi các dng tên th loi trong tiếng Anh. Nghiên cu này ch ra tên
và cu trúc th loi trong Wikipedia mt ngun quan h gia các khái nim. T các
phân tích thc nghim ch ra các th loi th phân tích thành dng th loi, mu
phân tích và các quan h kèm theo. Tên th loi khi được phân tích thành các mu vi các
t ni có ký hiu da theo tp Penn Treebank (Santorini, 1990).
Vic phân loi quy mô ln thông tin các quan h được xây dng da trên h thng
th loi Wikipedia, được phân tích t các mi quan h gia các th loi s dng các
phương pháp dựa trên kết ni trong mạng lưới và vic so khp cú pháp t vng. Các mu
phân tích t tên th loi cũng tương tự như cách của Nastase Strube (2008), nhưng tập
trung sâu vào các mu isa và nonisa. Nghiên cu ca Nguyn, Lê, Tôn, và Nguyn (2012)
cũng chứa các mu isa và nonisa cho th loi, tuy nhiên nhóm xây dng cách tiếp cn
hình Ontology tiếng Việt hơn là tập trung vào th loi.
Tên th loại còn được s dụng là đầu vào ca vic phân loại văn bản trong bài báo
ca Barak, Dagan, Shnarch (2009). Kết qu nghiên cu da vào tính ging nhau trong
không gian LSA, t đó nhận biết s tương tự v bi cnh dng thô. Barak và ctg. (2009)
cũng nhn din các tham chiếu bn vng theo ng nghĩa tên thể loi, cha biến th đặc
biệt để m rng t vựng. Ngoài ra, cũng có nghiên cứu ch yếu v cu trúc th loi
Wikipedia t đó để đo độ tương đồng gia 2 th loi c th nào đó dựa theo các mi quan
h th loi cha, con (Xu, Takeda, Hamasaki, & Wu, 2010) hay là xây dựng đồ th th loi
Wikipedia da trên các thut toán x lý ngôn ng t nhiên (Zesch & Gurevych, 2007).
Các nghiên cu trên ch đơn thuần thc hin tiếng Anh, ý tưởng ca chúng tôi
là chuyn hóa thành tiếng Việt để cho thy s tương đồng v tên th loi trong tiếng Vit,
T Hoàng Thng 219
t đó xây dựng mt tiêu chun so khp gia tiếng Anh và tiếng Vit, đồng thời hướng ti
vic tiếp cn dch mu tên th loi t tiếng Anh sang tiếng Vit.
3. TIÊU CHUẨN ĐẶT TÊN TH LOI WIKIPEDIA TING VIT
Để phân loi tên th loi tiếng Việt, trước hết chúng ta cũng phải xem xét đến mt
s tiêu chuẩn đặt tên th loi Wikipedia tiếng Vit. Tiêu chun v th loi và cách đặt
tên th loi ch yếu kế tha t phiên bn tiếng Anh tương đương và kèm theo sự đóng
góp ca các biên tp ti d án tiếng Vit. Nhìn chung tên th loi phi ngn gn, súc tích
mà vn mô t đầy đủ ý nghĩa của các bài viết, th loi con cha bên trong th loi đó. Ni
dung các tiêu chun v th loi và các thông tin liên quan có th tìm thy ti bài viết
tên Wikipedia: Th loi Wikipedia1.
Theo đó, mt s quy ước v tên th loi ph biến
như sau.
S dng th loại "năm" với tt c các th loi, ví d Th loi:Khoa học năm
1990 thay vì Th loi:Khoa hc 1990. S dng th loi cha tên các quc gia ph biến
trong tiếng Việt như Th loại:Văn hóa Úc thay vì Th loại:Văn hóa Australia.
Ưu tiên sử dng s nhiu cho th loi, ví d Category:Cities of France được dch
Th loi:Các thành ph Pháp thay vì Th loi:Thành ph Pháp. Tuy nhiên, theo
d án v th loi (Wikimedia, 2015) thì trường hp này vn nên dùng s ít. Vì vy, kết
qu vn là Th loi:Thành ph Pháp được ưu tiên. Do đó, trong bài viết này chúng tôi
khuyến cáo s dng s ít trong tiếng Vit khi dch t các cm t s nhiu tiếng Anh.
4. PHÂN LOI TÊN TH LOI
Để phc v cho mục đích chủ yếu là dch tên th loi t tiếng Anh sang tiếng Vit,
chúng tôi phân loi tên th loi theo s ng biến trong mẫu phân tích được. Phương
pháp gn ging cách phân tích v dng th loi ca Nastase Strube (2008), ch khác
ch chúng tôi chú trng v s ng biến hơn là các dạng th loi mang tính ng pháp.
Cách tiếp cận này giúp chúng tôi định rõ s ng t/cm t cn dịch để phc v cho mc
1https://vi.wikipedia.org/wiki/Wikipedia:Th_loi
220 TP CHÍ KHOA HỌC ĐI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGH THÔNG TIN]
đích dịch tên th loi t tiếng Anh sang tiếng Vit trong công c dch thut và các nghiên
cu tiếp theo.
4.1. Mẫu đơn
Các mẫu đơn (mẫu mt biến) s dng mt biến đ định nghĩa tên thể loi. Biến
này thường là mt danh t, cm danh t hay mt s, và không cha các liên t và cũng
như không th phân chia thành các thành phn nh hơn. hiệu mẫu đơn được định
nghĩa là p = x1. Mt s ví d v mẫu đơn như trong Bng 1.
Bng 1. Phân tích mt s trường hp mu đơn
Tên th loi
Mu
Dng th loi
Khoa hc
Science
p = x1, x1 = Khoa hc
mẫu đơn
Động vật đặc hu
Endemic fauna
p = x1, x1 = Động vật đặc hu
(endemic fauna = adj + noun)
mẫu đơn
1990
p = x1, x1 = 1990
mẫu đơn
Trong Bng 1, th loi Khoa hc mt mẫu đơn vì nó chỉ cha duy nht mt t.
Th loi Động vật đặc hu mẫu đơn đó mt cm danh t không th phân tách
thành các cm nh hơn. Các thể loi v s cũng có thể coi mt mẫu đơn, chẳng hạn như
1990.
4.2. Mu hai biến
Mu này cha 2 biến (x1, x2) cha mt liên t (c1) hoc không có liên t. Chúng
tôi mô t mu này bng ký hiu p=x1c1x2, và mt vài ví d v mu hai biến được lit
như Bng 2.
Trong Bng 2, các liên t (conjunction) ch yếu là các gii t, mệnh đề quan h
giản lược hay đôi khi là rỗng. Chúng tôi nhn ra rng không có th loi nào có tên có liên
t v trí đầu hoc cui. Vì vy, các th loi tiếng Anh dạng như By country, Cities in
hay By country in chc chn s không tn tại vì không đủ nghĩa cấu thành tên th loi.
Th loi Films directed by Charles Frend có mu phân tích theo Nastase
Strube (2008) là X [VBN] Y. Trong đó [VNB] là dạng giản lược của động t quá kh 3
T Hoàng Thng 221
trong tiếng Anh. Th loại này khi được dch sang tiếng Vit theo d án Wikimedia (2015)
thì có 2 trường hợp đó là:
Phim được đạo din bi Charles Frend: Mang tính b động, ít tính
thun Vit, rt d nhn diện đây là cách dịch tng t t tiếng Anh.
Phim do Charles Frend đạo din: Mang tính thun Việt hơn.
Bng 2. Mt s mu th loi là dng 2 biến
Mu p=x1c1x2
x1
c1
x2
Nông nghip
Agriculture
theo
by
quc gia
country
Thành ph
Cities
in
Pháp
France
Người
People
t
from
California
California
Phim
Films
được đạo din bi
directed by
Charles Frend
Charles Frend
Giao thông
Transport
Văn hóa
Culture
năm 2015
2015
-
in
Khoa hc
Science
Sách
Books
v
about
Vit Nam
Vietnam
Th loi Transport culture là trường hp mu 2 biến mà không có liên t gia.
Mẫu này đưc xem mt cm danh t. Theo Nastase Strube (2008) thì mu này có
dng XY vi X = transportY = culture. Khi dch v tiếng Vit thì mu thành tr thành
YX. Th loi Transport culture được dch trong tiếng Vit là Văn hóa giao thông.
Th loi 2015 in science là th loi có chứa năm, theo tiêu chuẩn đặt tên th loi
ca Wikipedia tiếng Vit, các mu này đều phi có ch "năm" ở trước s năm để xác định
rõ ràng nghĩa. Trường hp này th loi 2015 in science được dch ngược thành Khoa hc
năm 2015không có dch gii t in. Cách dch gii t tiếng Anh sang tiếng Việt cũng
khá đa dạng và phc tp và tùy theo nhiều trường hp vì vy s không đề cập đến trong
bài viết này.
222 TP CHÍ KHOA HỌC ĐI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGH THÔNG TIN]
4.3. Mu ba biến
Mu này bao gm 3 biến (x1, x2, x3) và có t 0 đến 2 liên t, là mt mu kết hp
gia mu hai biến và mẫu đơn. Chúng ta có thể biu din mu 3 thành hiu p =
x1c1x2c2x3. Các danh mc, thuc v mẫu này, thường ít ph biến hơn các mẫu đơn và mẫu
2 biến Wikipedia. Bng 3 mô t mt s ví d ca mu ba biến.
Bng 3. Mt s th loại được lit kê là dng mu ba biến
Tên th loi
Mu p=x1c1x2c2x3
x1
c1
x2
c2
x3
Khoa hc và công ngh theo quc gia
Science and technology by country
Khoa hc
Science
and
công ngh
technology
theo
by
quc gia
country
N chính ph theo quc gia
Government debt by country
Chính ph
Goverment
n
debt
theo
by
quc gia
country
Tiu thuyết khoa hc gi ng
Science fiction novels
Khoa hc
science
gi ng
fiction
tiu thuyết
novels
Th loi Government debt by country là một trường hp ph biến ca mu 3 biến
khi mà thường ch cha mt liên t (trong trường hp này là gii t by). Th loi được
phân tích thành 2 cm da theo gii t by đó là: Government debtcountry, trong đó
cm Government debt chính là mt mu 2 biến kiu XY. Th loại được dch trong tiếng
Vit là N chính ph theo quc gia.
Th loi Science fiction novels một trường hp đặc bit ca mu 3 biến khi
không h có bt k liên t nào, trường hp này được xem là mt cm danh t vi 3 danh
t kết hp liên tiếp nhau. Vic dch cm này ra tiếng Việt cũng là một vấn đề, trường hp
có 2 cách dịch như sau:
Tiu thuyết khoa hc gi ng: Đây là cách dịch thông thường, tức là đi t
bên phi sang, ly tng t dch, phn còn li xem có th din dịch được hay
không, nếu không li tiếp tách cụm như trên cho đến khi tt c mi cụm đều
được dịch, ngược li thì s không dịch được cm này. Chng hn, ly novels
dch thành tiu thuyết, tiếp đến cm t Science fiction dch thành Khoa hc
gi ng. Đảo ngược các cm dịch được thì có kết quTiu thuyết khoa
hc gi ng. Các cm t dịch được hoàn toàn ly giá tr t Wikidata vi
T Hoàng Thng 223
các cm t được liên kết vi nhau các phiên bn ngôn ng (Vrandečić &
Krötzsch, 2014).
Tiu thuyết gi ng khoa hc: Kiu dch này ngược với cách trên là đi từ
bên trái sang, ly tng t, và dch các t này và cm còn lại cho đến khi dch
hết toàn b từ. Trong trường hp này, chúng ta có th tách làm 2 cm: science
fiction novels. Sau đó tiến hành dịch thì được kết qu là: Khoa hc và tiu
thuyết gi ng, đảo ngược thì kết qu như trên. Tuy nhiên, khi lấy g
tr t Wikidata, chúng ta không th dịch được cm t fiction novels, vì vy
cm t này nếu dùng t điển dch hay các công c khác thì đây có thể là cách
dch sai hoc không ph biến.
4.4. Các mu nhiều hơn ba biến
Ngoài ra, tên th loi Wikipedia còn được phân tích thành các mu vi s biến
lớn hơn 3. Các mẫu này đều có th phân tách thành các mu con, t đó có thể hiểu được
cu trúc các mu. Chng hn, th loi tiếng Anh Science fiction novels by nationality
th phân tách thành mu 3 biến Science fiction novelsmẫu đơn nationality vi liên t
là gii t by. Th loại này được dch ra tiếng Vit là Tiu thuyết khoa hc gi ng theo
quc tch.
5. MT S TRƯỜNG HP DCH THUT
T vic phân tích tên th loi thành các mu s dng s ng biến trong bài,
chúng tôi th áp dng các mu này trong vic dch thut thông qua công c chúng tôi t
to. Trong bài báo này, chúng tôi s không nêu chi tiết cách thc thc hin và tp d liu
đầu vào mà cũng như phương pháp thực hin mà ch nêu mt sd v dch thuật được
s dng thông qua công c dch thut. Các phần trên được chúng tôi tiếp tc nghiên cu
và xut bn các nghiên cu khác.
5.1. Quy trình dch thut
Trong phn này, chúng tôi trc tiếp đề cp các quy trình chính v cách dch mu
thay vì trình bày toàn b các x lý chi tiết mà công c dch thut thc hin. Vì vic dch
224 TP CHÍ KHOA HỌC ĐI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGH THÔNG TIN]
không đơn giản vi mt s mu phc tp, chúng tôi chn la các mu gii t, mu
mt biến mu không cha liên t làm các mu th nghim trong công c dch. Các
quy trình dch trong công c chia làm các bước chính sau đây:
c 1 (Dch mu mt biến): Đầu tiên, đầu vào chúng tôi có các tên th
loi tiếng Anh cn dch, chúng tôi xem các đầu vào này mặc định là mu mt
biến, chúng tôi kim tra xem các tên này Wikidata hay không, nếu
thì dng vic dch và cho ra kết qu. Nếu không thì cho ra kết qu là không
dịch được.
c 2 (Dch mu cha gii t): Chúng tôi dò tìm xem trong tên th loi có
cha gii t hay không, nếu không có chúng tôi chuyển sang Bước 3. Trường
hp tên th loi cha gii t thì tách tên th loi thành 3 phn, phần trước
gii t, gii t, phn sau gii t. Tiếp tc lp lại Bước 1 vi ba phn này, sau
đó gom các kết qu có được li. Ch cn một trong các bước cho ra kết qu
không tìm thy kết qu dịch được t Wikidata thì dng ngay quá trình dch
và cho kết qu không dịch được.
c 3 (Dch mu là cm danh tính t): Tên th loại được tách làm 2 phn
gm t cui cùng ca th loi và phn còn li. Tiếp tc lp Bước 1 cho hai
phn này. Nếu mt trong 2 phn không dịch được, thì chúng tôi li tách cm
thành 2 t cui cùng ca th loi và phn còn li. Tiếp tc lp Bước 1 cho hai
phần này cho đến khi th loại được tách thành 2 phn: T đầu tiên và phn
còn li mà vn không cho ra kết qu dch thì dng vic dch. Kết qu dch
được s được đảo ngược v trí.
c 4 (So khp và giám sát tay): Chúng tôi s dng mt module ca tác gi
Dao và Simpson (2015) để so khp cm t kết qu vi các cm t dch được
trước đó. Nếu kết qu cho ra kết qu tng điểm trung bình >0.5 (tng trung
bình ca phn so khp vi cm tiếng Anh và cm tiếng Vit vi mt th loi
tương tự) thì chúng tôi gi kết qu này. Tiếp tc, chúng tôi kim tra s tương
t gia cách dch ca th loi cn dch và th loi tương tự thông qua cu trúc
T Hoàng Thng 225
tên phân tích được (NameAnalysis) để đồng b v cách dch cho các th loi
cùng mt cụm đặc trưng. Cui cùng, chúng tôi s dụng phương pháp giám
sát bằng tay để kim tra kết qu dch có hợp lý trước khi đưa ra kết qu chính
xác cui cùng.
5.2. Các ví d dch thut
Dịch trường hp mt biến: Đầu tiên, xét đến trường hp dch mt biến. Đầu
vào như sau:
Category:Honiara---Q7403236---Real Kakamora FC
Trong đó Category:Honiara có ch s Q-id là Q7403236 nội dung đặc t các
liên kết ngôn ng, mệnh đề RDF, ngun và nhiu phn khác Wikidata. Nếu dch thành
công tên th loi này thì tên bài viết Real Kakamora FC s được xếp vào th loi mi
này. Tiếp đến ly t Honiara (tên th đô của quần đảo Solomon) tìm kiếm Wikidata thì
nhn thy Q40921 liên kết vi tên ging vi mt bài viết trong tiếng Việt. Do đó,
Category:Honiara dch thành Th loi:Honiara trong tiếng Việt. Trường hp chúng tôi
đặt điểm chính xác (điểm so khp) mt vì hin nhiên là ly trc tiếp t Wikidata vi
tên bài tương ứng.
Trường hp khác ca mu mt biến có th là mt th loại có tên được dch trc
tiếp t Wikidata mc dù nó có th cha cm danh tính t được phân tích thành các cm
nh hơn và chứa gii từ. Chúng tôi xét đến trường hp sau:
Category:French Republican Calendar---Q8472929---Lch
Th loi trên có th phân tích thành 2 cm Calendar French Republican, tuy
nhiên do khi dịch để nguyên cm Frech Republican Calendar chúng ta có kết qu tương
ng Wikidata Lch cng hòa. Trong công c dch, chúng tôi vn xem là đây là mẫu
mt biến vì nó được dch trc tiếp nguyên cm t Wikidata.
Dch mu cha gii t: Mu cha gii t (liên t) th cha nhiều hơn
mt gii từ. Xét đến trường hp mẫu như sau:
Category:Poets from Melbourne---Q8767587---Diane Fahey
226 TP CHÍ KHOA HỌC ĐI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGH THÔNG TIN]
Sau khi kim tra c 1 trên thì tên th loi trên không phi là mu mt biến
cũng không thể dch nguyên mt cm t được t Wikidata. Chúng ta xét đến xem mu
này có gii t hay không, vì có gii t from trong tên th loi nên chúng ta tách tên này
thành 3 phn: Poets, from Melbourne. Khi dò tìm Wikidata, chúng ta được các kết
qu tương ứng vi các phn: Nhà thơ, từ (dch mặc định trong chương trình) và
Melbourne. Ghép các cm kết qu chúng ta th loi dịch được ra tiếng Vit Th
loi:Nhà thơ từ Melbourne. V vấn đề gii t fromth dch thành t, rng hoc đến
từ, … Chúng tôi mặc định dch from thành t. Sau đó, chúng tôi tìm mẫu tương tự vi tên
th loi tiếng Anh để xem cách dịch trước đó như thế nào để cho ra tên gii t phù hp
như trong Hình 1.
Trong Hình 1, Th loại:Nhà thơ từ Melbourne th loại tương tự là Th loi:Nhà
thơ từ Thiên Tân với điểm so khp là 0.79, da vào vic so khp cu trúc phân tích tên
(NameAnalysis) chúng tôi xác định được vì th loại tương ứng dch gii t from thành t
vy chúng i gi cách dịch này. Hơn nữa, chức năng More similars cũng cho phép
xem nhiều hơn các thể loi tương tự.
Hình 1. Ví d v phân tích tên th loi ca
Th loại:Nhà thơ từ Melbourne
Dch mu không cha liên t: Để tăng độ chính xác ca các mu này, chúng
tôi s dụng đa số 2 bước cui cùng ca quy trình dch (được nêu trong Mc
5.1): So khớp độ tương đương với các kết qu trước đó và giám sát bằng tay
các kết qu dch trên các mẫu này. ràng, chúng tôi cũng nhận thy mt
vài cách dch sai trong các mẫu này, tuy nhiên thông qua 2 bước dịch trên đã
gim thiu phn ln các kết qu b dch sai. Chúng tôi xét đến trường hp
T Hoàng Thng 227
đầu tiên như sau:
Category:Water technology---Q6968052---Thm thu
Trong đó Category:Water technology được phân tích là mt mu 2 biến và không
cha liên t, chúng ta da vào Bước 3 để tách thành 2 cm: Water technology. Da
vào Wikidata, chúng ta cũng dịch được sang tiếng Vit là: Nước và công ngh. Chúng ta
đảo ngược các thành phn kết qu để có kết qu cui cùng Th loi:Công ngh nước.
Tuy nhiên, đây là trường hợp đơn giản cũng khá dễ dch. Chúng tôi xét đến trường
hợp khác như sau:
Category:Satellite navigation systems---Q6392458--- Dẫn đường chi tiết
Da theo Bước 3, th loi trên cũng được tách thành 2 phn: Satellite navigation
và Systems. Dựa vào Wikidata, chúng ta thu được các tên dịch được là: GNSS h thng.
Đảo ngược 2 phn này tkết qu Th loi:H thng GNSS. Tiếp đến chúng tôi so
khp vi th loi tương tự và dùng phương pháp giám sát bằng tay thì được kết qu vn
Th loi:H thng GNSS. phần này, chúng tôi đ xut một phương pháp b sung có
th là xem xét độ ph bin ca cm t Google và đánh giá bằng một thang điểm nào đó
để đưa ra kết lun cui cùng v kết qu dch. Chng hn, nếu dùng Google chúng ta có
cm t H thng GNSS vi 977 kết qu tìm được.
Cui cùng, với các trường hp phc tp và có th dẫn đến trường hp dch sai
mu không cha liên t. Gii pháp cui cùng có th đưa vào danh sách đen để tránh
dch các t, cm t này trong tương lai và tìm kiếm các phương pháp giải quyết tốt hơn.
6. KT LUẬN VÀ HƯỚNG PHÁT TRIN
Bài viết đã phân tích một s dng tên th loi Wikipedia tiếng Vit, ch yếu da
trên s ng biến được s dng trong mu phân tích. Việc phân tích này có ý nghĩa quan
trng trong vic tìm hiu v tên th loi trong tiếng Việt, đặc biệt hơn nữa có vai trò quan
trng trong vic chuyn dch tên th loi t tiếng Anh sang tiếng Vit da trên bng so
khp các mu th loi trong c 2 th tiếng này. Điều đó giúp biên tập viên gim thiu thi
228 TP CHÍ KHOA HỌC ĐI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGH THÔNG TIN]
gian dch tên th loi có th lp li nhiu ln và mang tính th công, t đó tp trung vào
vic nâng cao chất lượng ni dung bài viết Wikipedia.
Hin tại, chúng tôi đang xây dựng công c dch t tên th loi t tiếng Anh sang
tiếng Vit vi mt d án ca Wikimedia (2015). Phương pháp chuyển dch ch yếu là ly
mt th loi tiếng Anh, phân tách th loi này thành các thành phn con, da vào Wikidata
để dch các thành phn con này sang tiếng Vit theo các liên kết ngoi ng, so khp các
cách dịch trước đó để đạt được s đồng nht v cách dch thut ng, cho phép con người
giám sát quá trình dch và lp li thao tác dch thuật này cho đến khi đạt kết qu như yêu
cu. Công c này đã dịch bán t động hơn 5000 thể loi mới cũng như các tập triple kèm
theo để sp xếp bài viết vào tng th loi. Chúng tôi cũng sử dng b nh đệm gm hơn
56000 th loi, 10000 trang bài viết để tăng tốc độ ly d liu dch thut. Đánh giá một
cách ch quan, kết qu mang li là kh quan và có những đóng góp quan trọng trong vic
xây dng và phát trin chất lượng bài viết ti Wikipedia tiếng Vit. Công c dch thut
không được chúng i k vọng để dch tt c các th loi t Wikipedia tiếng Anh sang
Wikipedia tiếng Vit mà là mt công c giúp ích cho quá trình dch thuật và có đóng góp
nhất định Wikipedia tiếng Vit.
Trong tương lai, chúng tôi tiếp tc xây dng các d án nh để dch các mu th
loi mi đa dạng hơn. Chúng tôi cũng xây dựng mô hình Ontology để phân loi các cm
t trong tên th loi, da vào công c Google Translate đo độ ph biến cm t trên
Google để t đó đưa ra kết qu dch chính xác và hoàn thiện hơn. Chúng tôi hi vng mang
li mt cách nhìn khác v cách dch cm tngun tham kho hu ích cho các nghiên
cu tiếp theo.
TÀI LIU THAM KHO
Barak, L., Dagan, I., & Shnarch, E. (2009). Text categorization from category name via
lexical reference. Paper presented at The 2009 Annual Conference of the North
American Chapter of the Association for Computational Linguistics, USA.
Dao, T. N., & Simpson, T. (2005). Measuring similarity between sentences. Retrieved
from http://trac.research.cc.gatech.edu/ccl/export/184/SecondMindProject/SM/
SM.WordNet/Paper/WordNetDotNet_Semantic_Similarity.pdf
T Hoàng Thng 229
Nastase, V., & Strube, M. (2008). Decoding Wikipedia categories for knowledge
acquisition. Paper presented at The Twenty-third AAAI Conference on Artificial
Intelligence, USA.
Nguyn, Q. C., Lê, T. N., Tôn, L. P., & Nguyn, V. T. (2012). Một hướng tiếp cn xây
dng Ontology tiếng Vit. Tạp chí Đại hc Công nghip, 14(6), 23-31.
Ponzetto, S. P., & Strube, M. (2007). Deriving a large-scale taxonomy from Wikipedia.
Paper presented at The AAAI Conference on Artificial Intelligence, USA.
Santorini, B. (1990). Part-of-speech tagging guidelines for the Penn Treebank Project
(3rd revision). Philadelphia, USA: University of Pennsylvania.
Tuc, H. D. (2003). Vietnamese-English bilingualism: Patterns of code-switching.
London, UK: Routledge Curzon Press.
Vrandečić, D., & Krötzsch, M. (2014). Wikidata: A free collaborative knowledgebase.
Communications of the ACM, 57(10), 78-85.
Wikimedia (2015). Project: Semi-automatically generated categories for Vietnamese
Wikipedia. Retrieved from https://meta.wikimedia.org/wiki/Grants:IEG/Semi-
automatically_generate_Categories_for_Vietnamese_Wikipedia
Xu, L., Takeda, H., Hamasaki, M., & Wu, H. (2010). Typing software articles with
Wikipedia category structure. Retrieved from http://www.nii.ac.jp/TechReports/
public_html/10-002E.pdf
Zesch, T., & Gurevych, I. (2007). Analysis of the Wikipedia category graph for NLP
applications. Paper presented at The TextGraphs-2 Workshop, USA.
230 TP CHÍ KHOA HỌC ĐI HỌC ĐÀ LẠT [ĐẶC SAN CÔNG NGH THÔNG TIN]
CLASSIFYING CATEGORY NAMES IN VIETNAMESE
WIKIPEDIA
Ta Hoang Thanga*
aThe Faculty of Information Technology, Dalat University, Lamdong, Vietnam
*Corresponding author: thangth@dlu.edu.vn
Article history
Received: January 09th, 2017 | Received in revised form: April 17th, 2017
Accepted: May 17th, 2017
Abstract
Wikipedia is famous to be the biggest encyclopedia currently, the purpose of which is to
spread knowledge for everyone in the world. By using robots in the process of article
generation, Vietnamese Wikipedia is one of 13 language projects which has more than 1
million articles. However, this raises a lot of challenges for Vietnamese Wikipedia in article
quality improvement, category classification, anti-vandalism and other tasks. In this paper,
we classify categories in Vietnamese Wikipedia, particularly in category taxonomy and
naming conventions. The crucial method is to adopt standards and category taxonomy in the
English project, the biggest Wikipedia project in term of the amount of contributed
information. Then we apply these to Vietnamese Wikipedia. To do this, we have to combine
many social methods as well as techniques to gain expected results. The evaluation of
category names and data results from Wikidata which we obtained is a first step to build a
tool to translate English categories into Vietnamese categories.
Keywords: Naming convention; Name taxonomy; Wikipedia category.
ResearchGate has not been able to resolve any citations for this publication.
Conference Paper
Full-text available
In this paper, we discuss two graphs in Wikipedia (i) the article graph, and (ii) the category graph. We perform a graph- theoretic analysis of the category graph, and show that it is a scale-free, small world graph like other well-known lexi- cal semantic networks. We substantiate our findings by transferring semantic re- latedness algorithms defined on WordNet to the Wikipedia category graph. To as- sess the usefulness of the category graph as an NLP resource, we analyze its cover- age and the performance of the transferred semantic relatedness algorithms.
Article
In this paper we present a low-cost method for typing Named Entities with Wikipedia. Different from other text analysis-based approaches, our approach relies only on the structural features of Wikipidia and the use of external linguistic resources is optional. We perform binary classification of an article by analyzing of the names of its categories as well as the structure. The evaluation shows our method can be successfully applied to the 'software' category (F 80%).
Article
Wikidata allows every user to extend and edit the stored information, even without creating an account. A form based interface makes editing easy. Wikidata's goal is to allow data to be used both in Wikipedia and in external applications. Data is exported through Web services in several formats, including JavaScript Object Notation, or JSON, and Resource Description Framework, or RDF. Data is published under legal terms that allow the widest possible reuse. The value of Wikipedia's data has long been obvious, with many efforts to use it. The Wikidata approach is to crowdsource data acquisition, allowing a global community to edit the data. This extends the traditional wiki approach of allowing users to edit a website. In March 2013, Wikimedia introduced Lua as a scripting language for automatically creating and enriching parts of articles. Lua scripts can access Wikidata, allowing Wikipedia editors to retrieve, process, and display data. Many other features were introduced in 2013, and development is planned to continue for the foreseeable future.
Conference Paper
This paper presents an approach to acquire knowledge from Wikipedia categories and the category network. Many Wikipedia categories have complex names which reect human classication and organizing instances, and thus encode knowledge about class attributes, tax- onomic and other semantic relations. We decode the names and refer back to the network to induce relations between concepts in Wikipedia represented through pages or categories. The category structure allows us to propagate a relation detected between constituents of a category name to numerous concept links. The results of the process are evaluated against ResearchCyc and a subset also by human judges. The results support the idea that Wikipedia category names are a rich source of useful and accurate knowledge.
Conference Paper
We take the category system in Wikipedia as a conceptual network. We label the semantic relations between categories using methods based on connectivity in the network and lexicosyntactic matching. As a result we are able to derive a large scale taxonomy containing a large amount of subsumption, i.e. isa, relations. We evaluate the quality of the created resource by comparing it with ResearchCyc, one of the largest manually annotated ontologies, as well as computing semantic similarity between words in benchmarking datasets.
Một hướng tiếp cận xây dựng Ontology tiếng Việt
  • Q C Nguyễn
  • T N Lê
  • L P Tôn
  • V T Nguyễn
Nguyễn, Q. C., Lê, T. N., Tôn, L. P., & Nguyễn, V. T. (2012). Một hướng tiếp cận xây dựng Ontology tiếng Việt. Tạp chí Đại học Công nghiệp, 14(6), 23-31.
Vietnamese-English bilingualism: Patterns of code-switching
  • H D Tuc
Tuc, H. D. (2003). Vietnamese-English bilingualism: Patterns of code-switching. London, UK: Routledge Curzon Press.
Project: Semi-automatically generated categories for Vietnamese Wikipedia
  • Wikimedia
Wikimedia (2015). Project: Semi-automatically generated categories for Vietnamese Wikipedia. Retrieved from https://meta.wikimedia.org/wiki/Grants:IEG/Semi-automatically_generate_Categories_for_Vietnamese_Wikipedia