Doğal dil işleme çalışmamızın amacı Türkçe dili için paragraf-cümle düzeyinde anlamsal söylem analizi ve paragraf-cümle ve cümle-cümle düzeyinde metinsel benzerlik ölçümlemesi için bir veri kümesi hazırlamaktır. Girdi olarak kullanılan çoktan seçmeli sorular Türkiye Cumhuriyeti Ölçme, Seçme ve Yerleştirme Merkezi tarafından gerçekleştirilen sınavlarda çıkmış çoktan seçmeli Türkçe sorularıdır. Hedeflenen yaklaşımlar için iki kategoride dört farklı soru tipi belirlenmiştir: (i) paragrafın akışının bozulmasının tespit edilmesi, (ii) cümlelerin doğru sırasının bulunması, (iii) paragrafta geçen ifade ile anlatılmak istenen cümlenin bulunması, (iv) anlamca en yakın cümlelerin bulunması. Tüm veri toplama, hazırlama, biçimbilimsel etiketleme ve biçim dönüştürme aşamaları sonucunda nihai olarak anlamsal söylem analizi için 434 soruluk, metinsel benzerlik analizi için de 539 soruluk veri kümesine ulaşılmıştır.