Temat MSc‎ > ‎

Analizimi i cilësisë së lidhjeve midis faqeve të internetit

Studenti: Mariglen Jahollari


Abstrakt

Web-i mund të konsiderohet si një graf (rrjet) i drejtuar, ku nyjet janë faqet e internetit dhe brinjët janë lidhjet (links) nga një faqe tek tjetra. Ekzistojnë punime të shumta që analizojnë strukturën e këtij grafi bazuar në parametra statistikorë. P.sh. në strukturën e internetit janë identifikuar të ashtuquajturit “hubs” që janë faqe interneti që përmbajnë një numër të konsiderueshëm lidhjesh drejtuar për tek faqe të tjera të njohura si “authorities”. Kjo është dhe baza e algoritmit të Google të njohur si PageRank, ai tenton të paraqesë më sipër në rezultatet e kërkimit faqet me rëndësi më të madhe.

Si rrjedhojë e këtij fakti, shpesh abuzohet me krijimin e lidhjeve jo cilësore për të rritur artificialisht rëndësinë e një faqeje në internet. Ndërkohë që qëllimi i vërtetë i lidhjeve është që të ndihmojnë përdoruesit në gjetjen e informacioneve shtesë/mbështetëse në lidhje me atë çka po lexojnë apo shqyrtojnë. Në këtë punim do realizohet një studim në lidhje me cilësinë e lidhjeve duke u bazuar tek përmbajtja e dy faqeve që lidhen me njëra tjetrën si dhe elementët etiketues të lidhjeve të ofruara nga HTML.

Duke qenë se përpunimi i grafit të lidhjeve dhe i tekstit të faqeve përkatëse është një proces i rëndë, për realizimin e eksperimenteve, mund të nevojitet përdorimi i teknologjive që shfrytëzojnë ekzekutimin në paralel (Apache Spark, Apache Hadoop, etj.).