Information Retrival untuk Pencarian Dokumen Tugas Akhir Menggunakan Sequential Pattern Mining

ABSTRAK

Abstrak – Selama ini sistem information retrieval menggunakan teknik text mining akan menggunakan representasi kata bag of word. Pada Bag of word setiap kata berdiri sendiri, padahal sebuah term bisa terbentuk dari􀀃 beberapa􀀃 kata,􀀃 misal􀀃 ―sistem􀀃 informasi􀀃 ko mputer‖,􀀃 ―rumah􀀃 sakit‖,􀀃 ―sepeda􀀃 motor‖,􀀃 ―data􀀃 mining‖,􀀃 term tersebut terbentuk dari dua kata atau lebih. Term yang terbentuk dari dua kata atau lebih jika menggunakan bag of word akan mengilangkan semantic dari term tersebut. dengan kata lain bag of word kurang menjaga semantic dari term di da lam doku men teks. Pada paper ini d ila kukan proses information retrieval pada dokumen teksdengan memperhatikan u rutan dari kata (sequential of words) di dalam kalimat. Pembentukan term sequential of words akan dila kukan setelah proses stemming. Term sequential of word yang dibentuk yaitu hanya kata dasar hasil text preprocessing. Dokumen teks yang digunakan untuk pengujian yaitu 1000 doku men skripsi / TA dari mahasiswa. Pada paper ini proses pengalian sequence of words pada setiap kalimat yaitu menggunakan sequential pattern mining. Hasil dari uji coba yaitu berupa list sequential of word yang lebih dari minimu m support yang telah ditentukan yaitu 5% dari ju mlah kata.

Kata kunci: Information Retrival; Sequential Pattern Mining; Te xt Mining; tugas akhir;

ABSTRACT

Abstrak-Information retrieval system is using a bag of word representation. In the Bag of Word every word stands alone, wh ile a term can be formed fro m several words, for e xamp le in Indonesia language”sistem informasi􀀃 komputer”􀀃 (computer􀀃 information􀀃 system),􀀃 “rumah􀀃 sakit‖􀀃 (hospital),􀀃 “sepeda􀀃 motor”􀀃 (motorcycle),􀀃 “data mining”, the term is formed of two or more words. Term that is formed fro m two words or more if using a word bag will re move the semantic fro m the term. the conclusion is that bag of words does not maintain the semantics of the terms in the text document. In this paper, informat ion retrieval is performed on text documents by observing the order of the words in the sentence. The format ion of sequen tial terms of words will be done after the stemming process. The sequential term of word that is formed is only the basic words of the text preprocessing results. Text documents used for testing are 1000 thesis documents / TA from students. In this paper the process of sequencing the sequence of words in each sentence is using sequential pattern mining. The results of the trial are in the form of a sequential list of words which is more than the minimu m support that has been determined wh ich is 5% of the nu mber of words.

Ke ywords: Information Retrival; Sequential Pattern Mining; Text Mining; tugas akhir;

Download Full PDF



LEAVE A COMMENT