Temat MSc‎ > ‎

Krijimi i një bashkësie të dhënash (dataset) për testimin e algoritmeve të klasifikimit dhe grupimit të lajmeve

Studenti: Arben Myrtaj

Abstrakt

Algoritmet e klasifikimit të lajmeve, klasifikojnë lajmet sipas temave të cilat trajtojnë (politikë, sport, biznes, kulturë, etj.), ndërsa algoritmet e grupimit të lajmeve (clustering) grupojnë lajmet që përshkruajnë të njëjtën ngjarje. Për të testuar saktësinë dhe performancën e tyre, përdoren metrika standarde të vlerësimit të sistemeve të gjetjes së informacionit si precision apo recall. Realizimi i kësaj të fundit realizohet nëpërmjet bashkësive të të dhënave (dataset) të etiketuara sipas rezultatit të pritshëm (pra lajmet që flasin për të njëjtën ngjarje janë të grupuara, gjithashtu çdo lajm është i klasifikuar sipas temës që trajton).

Detyra e kësaj teme është krijimi i një bashkësie të dhënash të etiketuara për lajmet shqip të botuara nga media të ndryshme në internet. Bashkësia duhet të jetë e ngjashme me bashkësi të tilla të krijuara për gjuhë të tjera. Për këtë temë duhet të krijohet një aplikacion që lehtëson procesin e krijimit të këtyre të dhënave si dhe të sigurohet cilësia e këtyrë të fundit.
Comments