Metode klasifikacija elektronskega gradiva

Similar documents
Poglavje 3 Razvrˇsˇcanje besedil

D I P L O M S K A N A L O G A

M A G I S T R S K A N A L O G A

VPELJAVA PODPORE KREDITIRANJA V DOKUMENTNI SISTEM BANKE

ELEKTRONSKO ARHIVIRANJE IN DOKUMENTIRANJE DOKUMENTOV V PODJETJU MLADINSKA KNJIGA ZALOŽBA d.d.

Elektronski sistemi za upravljanje z dokumenti. Univerza v Mariboru Fakulteta za organizacijske vede

Izzivi pri prehodu na SharePoint Robi Vončina Kompas Xnet d.o.o. Aleš Manfreda MRI d.o.o.

ODLOČITEV ZA ELEKTRONSKO ARHIVIRANJE DOKUMENTOV V PODJETJU

ONLINE KNJIŽNIČNI KATALOGI PRIHODNOSTI 1 ONLINE CATALOGUES OF THE FUTURE

UNIVERZA V LJUBLJANI EKONOMSKA FAKULTETA

Metodologija za uvedbo brezpapirnega poslovanja v organizacijah

EDP Klient NAVODILO ZA UPORABO APLIKACIJE EDPKLIENT

AVTOMATIZACIJA OBDELAVE RAUNOV V POSLOVNEM SISTEMU MERCATOR

Ž. Štrumbl: Dolgoročna hramba arhivskega gradiva v papirni in e-obliki Ureja tudi dostope do arhivov, v veliki meri pa ureja tudi razvoj sistemov za d

IZDELAVA VMESNIKA UPRAVITELJA PREDLOG ZA DOKUMENTNE SISTEME

Bibliografski podatki in sistemi: razvoj in implementacija modelov

IZDELAVA TEHNIČNE DOKUMENTACIJE ZA ODPRTOKODNE PROJEKTE Z UPORABO UML 2.0

VSŠ VIŠJA STROKOVNA ŠOLA MARIBOR POSLOVNI SEKRETAR

DELO DIPLOMSKEGA SEMINARJA

IZJAVA O MEDNARODNIH KATALOGIZACIJSKIH NAČELIH Uvod

Česa ne smete spregledati pred uvedbo skeniranja in uporabo podpisnih tablic. Brezplačni priročnik za začetnike

IMiS (R) /Scan & IMiS (R) /View Priročnik. Verzija Imaging Systems, informacijski sistemi, d.o.o. Brnčičeva 41g Ljubljana

APLIKACIJA ZA VARNO ELEKTRONSKO PODPISOVANJE IN PREVERJANJE PODPISA

Rockland County On-Line Index Book Software Unearths Eighteenth Century Land Records for Use by the Legal Community, Historians and the General Public

Peter Pavel KLASINC *, Tadej VOZELJ ** CELOSTNA UREDITEV ARHIVA IN UVEDBA DOKUMENTNEGA SISTEMA NA AMEU ECM

VSŠ VIŠJA STROKOVNA ŠOLA MARIBOR

Ljubljana, Marec 2009

2. ŠTUDIJA UPRAVIČENOSTI IZVEDBE PROJEKTA PRIDOBITVE AKREDITACIJE STORITVE

ZZI d.o.o., Pot k sejmišču 33, 1231 Ljubljana-Črnuče. estoritve FRP. Opis vmesnika

GREGOR PANTELIĆ DOKUMENTI IN PODATKI PRI SPREMLJAVI GRADNJE DOCUMENTS AND DATA FLOW IN CONSTRUCTION PROJECT CONTROL

Uvajanje dokumentacijskega sistema Sharepoint Services v Zdravstvenem inšpektoratu RS

M. Novinšek: Fizično arhiviranje dokumentarnega gradiva ter arhivski prostori Trajno gradivo, določeno v 194. členu Uredbe o upravnem poslovanju, ki v

ARHIVIRANJE DIGITALNO PODPISANIH ELEKTRONSKIH DOKUMENTOV

ORGANIZACIJA KNJIŽNIČNIH ZBIRK

KAKOVOST BIBLIOGRAFSKIH ZAPISOV

V drugem delu z naslovom»smernice«obsega ISO naslednja poglavja:

KATALOG STORITEV IN ORODJA ZA NJEGOVO UPRAVLJANJE

Tečaj za pripravo na bibliotekarski izpit 2/II

Specifikacija vmesnika za izmenjavo e-računov v elektronski banki Hal E-Bank in sistemu Hal E-Invoices/ICL

NAVAJANJE VIROV IN LITERATURE

VSŠ VIŠJA STROKOVNA ŠOLA MARIBOR

INVITATION No. 6 FOR SUBMISSION OF BINDING OFFERS FOR THE PURCHASE OF REAL ESTATE

KATALOG KOT UČINKOVITO ORODJE NEPOSREDNEGA TRŽENJA NA PRIMERU PODJETJA AVON D.O.O.

Oddano: Sprejeto:

Smernice za normativne in napotilne vpise Predavanje pri predmetu Katalogizacija Pripravila doc. dr. Marija Petek

Skupnost muzejev Slovenije KOPISTIKA SKOZI ČAS IN VPRAŠANJE AVTENTIČNOSTI. Avtor: Miran Pflaum

3/18. Ocenjevanje likvidacijske vrednosti v insolventnih postopkih. Matjaž Cirar

NAVODILA ZA PRIPRAVO ZNANSTVENIH IN STROKOVNIH PRISPEVKOV (ČLANKOV).

Ni vse zlato, kar se sveti regresijska beta in alternative. Črt Lenarčič, Robert Zorko, Uroš Herman in Simon Savšek

RAZVOJ POKLICEV NA PODROČJU TRAJNOSTNEGA URBANIZMA PRIMER TRAJNOSTNIH SOSESK**

1st cycle Study Programme Course name (Slovenian) Course name (English) ECTS

piranski dnevi včeraj, danes in jutri piran days of architecture: looking back and looking forward

Meeting Architecture. Maarten Vanneste, CMM

ISBD MEDNARODNI STANDARDNI BIBLIOGRAFSKI OPIS. Združena izdaja

41/2/9 Student Affairs Programs and Services General Correspondence, Box 1:

Accounting Treatment of Goodwill in IFRS and US GAAP

1. OSNOVNI PODATKI... 3

ENERGETSKA OBNOVA DOMA, KI SE RAZPOSTIRA ČEZ MEJE IN REGIJE

Edvard Ravnikar in Soba 25 na Šoli za arhitekturo. Jurij Kobe. 56 arhitektov bilten architect s bulletin Soba 25, 1970

OBLIKE PROSTORA V ARHITEKTURNI RISBI

PROGRAMME OF THE INTERNATIONAL SUMMER SCHOOL OF UNIVERSITY OF MARIBOR FACULTY OF ARTS»LANGUAGE, LITERATURE AND CULTURES IN CONTACT«

Acta geographica Slovenica, 44-1, 2004,

Sistem upravljanja kmetijskih parcel na Poljskem ter študija primera držav članic Evropske unije

PRiročnik za Enostavno uporabo KATalogizacijskih pravil

REAL ESTATE MARKET ACTIVITY IN SLOVENIA IN DEJAVNOST TRGA NEPREMIČNIN V SLOVENIJI V OBDOBJU

Poti v zaposljivost. Marija Rok

Keywords: Roma, Germany, discrimination

Arhitektura, raziskave Architecture, Research

PREGLED veljavnih navodil, katalogov nadomestnih delov In delavnlških priročnikov

Jezikovnopragmatične analize v slovenistiki

NAVODILA ZA UPORABO. Samsung laser MFP SCX F

UNIVERZA V LJUBLJANI FILOZOFSKA FAKULTETA ODDELEK ZA SOCIOLOGIJO DIPLOMSKO DELO

Konstrukcije iz lesa na svetovnih razstavah Timber structures at world expositions

Uputstvo za izradu dokumenata

med izbranimi osebnimi zdravniki in pooblaščenimi zdravniki delodajalca

20. GRADBENIŠTVO CONSTRUCTION

priročnik za določanje ZNAČnic pri KAtalogizaciji

. avtor samostojno izdanega besedila, zbirke besedil, scenarija ali snemalne. 12 DOLOČANJE AVTORSTVA Avtorstvo

JES2 and JES3 Releases. RSU Level. r6.0 build 151 r2.3, r2.2, r2.1 r2.3, r2.2, r2.1 RSU1803

Koudjay SYDNEY GUILLAUME. Music by. for SSA Chorus, unaccompanied. Text by GABRIEL T. GUILLAUME. Copyright 2008 Sydney Guillaume All Rights Reserved

ISSN: VESTNIK ZA TUJE JEZIKE Letnik: IV Številka: 1 2

PRISPEVEK SLOVENSKIH ARHITEKTOV V OBDOBJU MED LETI 1960 IN 1990 V ARHITEKTURI ČRNE GORE

Education of surveyors in the field of real estate market valuation: Present situation in the Republic of Serbia

1000 Architectural Details: A Selection Of The World's Most Interesting Building Elements By Alex Vidiella;Julio Fajardo;Sergi Duran

Republike Slovenije. Razglasni del Javni razpisi. Št. Ljubljana, petek. Leto XXVIII ISSN

Application of Mass Valuation in the Local Governments of the Republic of Serbia

Le saline di Comacchio: Breve introduzione Comacchio soline: Kratka zgodovina. Graziano Caramori - TSC. Portorož, Slovenija, 15/05/2012

1. Na računaru korisnika mora da bude instalisan Adobe Acrobat ili noviji. Ovaj dokument je napisan za Adobe Acrobat 9.

Pregled področja ocenjevanja vrednosti v Sloveniji v letu Javni nadzor nad področjem ocenjevanja vrednosti

ISSN LETOPIS SLOVENSKE AKADEMIJE ZNANOSTI IN UMETNOSTI 62/2011 THE YEARBOOK OF THE SLOVENIAN ACADEMY OF SCIENCES AND ARTS VOLUME 62/2011

LAND CADASTRE AND BUILDING CADASTRE IN SLOVENIA: CURRENT SITUATION AND POTENTIAL OF 3D DATA

Iris Stopar, Maruška Šubic Kovač

Recenzije in poročila o knjigah. Recensioni di libri. Book reviews

Ljubljana, 2017 * HUMANA MESTA / Izzivanje merila mesta

Usporedna tablica prema PPIAK-u o korištenju pravila za izbor i oblik odrednica unutar muzejske zajednice,

Historični seminar 6. Uredili Katarina Keber in Katarina Šter

ACTA HISTRIAE 23, 2015, 1

IBM Software Group. Manažment dokumentov. František Lévárdy.

Vodilne evropske trajnostne soseske: ključna načela in procesi

HIŠA SONCA KRANJSKA GORA, SLOVENIA

Transcription:

16-V Kranjska gora, 28. do 30. september 2011 Gregor IBIC, univ.dipl.ing Intelicom d.o.o. Koper, 6000 SI gregor.ibic@intelicom.si Metode klasifikacija elektronskega gradiva 1. UVOD Ljudje smo nagnjeni k zbiranju. Od mladosti zbiramo igrače, sličice, znamke kasneje pa avtomobile, hišne pripomočke, obleke in ostale dobrine. Zbiramo stvari, ki jih potrebujemo in pa tudi stvari, ki jih trenutno ne potrebujemo, a jih bomo morda potrebovali v prihodnosti. Že od nekdaj so nekateri radi zbirali tudi knjige oziroma materializirano znanje, v današnji dobi pa se je to še bolj intenziviralo zaradi cenenega dostopa do informacij in podatkov. Sedaj zbiramo internet povezave, elektronske knjige, skladbe, oziroma vse na kar naletimo pri vsakdanji uporabi računalnika in se nam zdi zanimivo oziroma imamo občutek, da nam bo še kdaj prav prišlo. Prvo težavo pri zbiranju elektronskega gradiva predstavlja, kako zbirati in hraniti to gradivo. Namreč, skoraj vsak tip informacije je shranjen v drugačni elektronski obliki. Internet povezave so zapisi z naslovi strani, knjige so večinoma zapisane v PDF zapisu, glasba v mp3 zapisu in tako naprej. Skupni imenovalec vseh zapisov je datotečni sistem, ki omogoča shranjevanje datoteke na osebnem ali deljenem računalniku. Zaradi zelo majhnega skupnega imenovalca datotečnega sistema, je možno shranjevanje le bitnega zapisa, ime datoteke in par standardnih atributov datoteke kot je datum nastanka in podobno. Dostopnost gradiva je zaradi tega slaba. Drugo težavo predstavlja klasifikacija zbranega gradiva. Edini način klasifikacije gradiva v datotečnem sistemu je uporaba imen datotek ter struktura map (direktorijev). Uporaba strukture map nam omogoča klasifikacijo le po enem ključu, tako da se med množico elektronskih zapisov lahko hitro izgubimo. Tudi zaradi tega vrednost zbranemu gradivu pada. 2. DOKUMENTNI SISTEMI Dokumentni sistemi so nastali z namenom boljše preglednosti nad elektronskimi dokumenti zapisi. Dokumentni sistemi poleg osnovnih atributov uvajajo še celo kopico dodatnih atributov, ki omogočajo lažji in hitrejši dostop do dokumentov. Poleg shranjevanja in dostopa pa nudijo dokumentni sistemi širše tudi možnost sledenja delovnemu procesu (workflow), avtoriziran dostop (authentication), avtomatizacijo izdelave dokumentov ter aktivno spremljanje sprememb nad želenim delom dokumentov (obveščanje). Ključni elementi kvalitetnega dokumentnega sistema so: 1. Shranjevanje mora biti hitro in enostavno. Ne sme motiti obstoječega delovnega procesa. 2. Sistematika shranjevanja mora biti enostavna in intuitivno razumljiva. 3. Dostop do podatkov mora biti hiter in enostaven. Bistven poudarek je na enostavnosti in razumljivosti delovanja sistema. Če teh lastnosti ni, potem uporabniki hitro zaidejo k ustaljenim vzorcem shranjevanja dokumentov na datotečnem sistemu, k neredu.

Kranjska gora, 28. do 30. september 2011 V-17 3. KLASIFIKACIJA ALI ISKANJE PO BESEDILU V vsakem dokumentnem sistemu se pojavi vprašanje kje je meja med stopnjo klasifikacije. Se pravi do kakšne meje-granulacije bomo razvrščali dokumente in kje se bomo ustavili in raje uporabili kar iskanje po celotnem besedilu dokumentov. Odločitev v veliki meri pogojuje pogostost določenih poizvedb. Klasifikacija ni nič drugega kakor vnaprej pripravljeni rezultati iskanja želenih dokumentov. Dostop do že klasificiranih dokumentov je namreč bistveno hitrejši in natančnejši, kakor če se lotimo iskanja dokumentov s pomočjo orodij za iskanje. Pri iskanju moramo vnesti poizvedbo ukaz, ki nam bo vrnil želene dokumente in bolj kot se bomo potrudili pri formulaciji poizvedbe boljši bodo rezultati. Formulacija poizvedbe pa pomeni poraba časa, ki ga moramo nameniti za razmislek in mentalno energijo, ki jo potrebujemo, da poizvedbo sestavimo. V praksi se izide, da uporabniki raje uporabljajo klasifikacijo. Seveda to v veliki meri velja za poslovna okolja, kjer je strukturiranost informacij zaželena. 4. PROBLEM RAZVRŠČANJA DOKUMENTOV Razvrščanje je uporabnikom odveč saj troši njihov čas, vendar je od dobrega začetnega razvrščanja nadalje v veliki meri odvisna izraba dokumentnega sistema. Če dokumentov kasneje hitro in z lahkoto ne najdemo sam sistem izgubi smisel. Elektronski dokumenti so različne oblike elektronskih zapisov, ki vsebujejo tekstovni del in atribute. Primer dokumenta je tudi elektronsko sporočilo, ki je sestavljeno iz same vsebine - teksta in iz atributov kot so ime pošiljatelja, ime prejemnika, naslov sporočila, datum pošiljanja itd. Težava nastane, kadar želimo razvrščati dokumente tudi po vsebini in ne le po atributih. Tovrstno razvrščanje v najboljši meri opravlja človek-uporabnik, ki pozna tematiko sporočil - kontekst in na podlagi vsebine sporočila nato sporočilo razvrsti. V primeru, da je sporočil veliko, postane takšno razvrščanje uporabniku odveč, in si ga želi vsaj v določeni meri avtomatizirati. Dokumentni sistemi uporabljajo več načinov razvrščanja, od ročnega do pol-avtomatiziranega, do popolnoma avtomatiziranega. Izbor načina razvrščanja je odvisen od tipov dokumentov, načina obdelave dokumentov, pomembnosti dokumentov in njegovih posledic itd. Prva odločitev, ki jo mora sprejeti uporabnik je ta ali spada elektronska pošta med poslovno korespondenco ali med osebno korespondenco. V primeru poslovne korespondence je potrebno elektronsko pošto shraniti v centralni dokumentni sistem. Nadalje mora uporabnik izbrati v katero Zadevo (projekt, spis,...) bo elektronsko pošto klasificiral. Zadeva pomeni entiteto pod katero se zbirajo dokumenti. Lahko pomeni Pogodbo in vso pripadajočo dokumentacijo in korespondenco, lahko pomeni Projekt in vso tehnično dokumentacijo, popis del in podobno, lahko pa pomeni Kadrovsko mapo, kjer je zbrana dokumentacija o določenem zaposlencu.

18-V Kranjska gora, 28. do 30. september 2011 Slika 1, Primer ročne klasifikacije Spremljanje korespondence lahko uporabnik tudi delno avtomatizira. Ob začetku korespondence lahko označi določeno sporočilo z enotno oznako in sistem bo na podlagi te oznake vso nadaljnjo korespondenco avtomatsko shranjeval v pripadajočo zadevo. Pri tej metodi se izkorišča lastnost prenosa oznake klasifikacije iz sporočila v odgovor na sporočilo preko Naslova sporočila - Subject. Težava pri tovrstni metodi je, da se lahko določeno sporočilo izmakne klasifikaciji v primeru da korespondent izloči klasifikacijsko oznako iz Naslova. Uporabnik avtomatskega sistema klasifikacije zato ni popolnoma prepričan ali bo dokument ustrezno skladiščen v centralnem sistemu in zato večkrat raje izvede ročno klasifikacijo. Slika 2, Primer avtomatske klasifikacije 5. KLASIFIKACIJA NA OSNOVI PRAVIL Na osnovi atributov, ki so zraven dokumenta, recimo imena pošiljatelja, lahko v sistemu nastavimo pravila, da bo izbrano pošto avtomatsko klasificiral. Uporaba tovrstne metode je enostavna in zanesljiva, vendar v praksi ponavadi ne želimo imeti dokumente klasificirane na tak način. Pogosto je na primer, da se pošta s strani istega pošiljatelja klasificira po različnih projektih - Zadevah. Ali pa se pošta različnih pošiljateljev klasificira v iste Zadeve. Tak način klasifikacije je bolj uporaben

Kranjska gora, 28. do 30. september 2011 V-19 za klasificiranje ponavljajočih obvestil, ki so vedno enako razvrščeni. V vsakdanjem poslovanju so to na primer obvestila, ceniki, avtomatsko generirana opozorila itd. Slika 3, Primer avtomatske klasifikacije - pravila 6. KLASIFIKACIJA S POMOČJO STATISTIČNIH METOD Dokumente lahko klasificiramo tudi s pomočjo statističnih metod. Ena izmed najbolj znanih metod klasifikacije je Bayesova Naivna metoda, ki uporablja princip izračuna verjetnosti pripadnosti določeni klasifikaciji - skupini na podlagi besed, ki jih najdemo v besedilu dokumenta. Pri tem se metoda omeji na izračun pogojne odvisnosti le vsake posamezne besede in zanemari učinke medsebojne odvisnosti. V praksi se to izkaže za zelo učinkovito metodo. Postopek deluje tako, da se pred prvo uporabo klasifikator priuči vzorcev razvrščanja dokumentov na podlagi predhodnih razvrstitev, ki jih je izvedel uporabnik. Klasifikator nato na podlagi priučene statistike sam razporeja dokumente. Problematika uporabe popolnoma avtomatske klasifikacije Večino obstoječih orodij za popolnoma avtomatsko klasifikacijo je usmerjeno na učenje modela na podlagi učnega vzorca in nato uporaba modela na nerazporejenih vzorcih. V veliko primerih produkcijska klasifikacija ni dovolj natančna in je zato uporabniki ne želijo uporabljati v dokumentnih sistemih. Posledica napačne klasifikacije je namreč večja kakor če dokument sploh ni klasificiran. Uspešno avtomatsko klasificiranje dokumentov potrebuje sprotno do-učitev statističnega modela na podlagi novih dokumentov. Če tega ni oziroma se izvaja intervalno, učinkovitost sistema bistveno pada. Potrebna je torej povratna zanka za doučevanje modela na podlagi vsakega razporejenega dokumenta. Sistemu za avtomatsko klasifikacijo je potrebno dodati povratno zanko. Dodajanje povratne zanke pri avtomatski klasifikaciji Pri dodajanju povratne zanke pri učenju statičnega modela moramo avtomatski sistem nekje razkleniti, saj se sistem brez dodanega znanja s strani človeka ne bo naučil novih pravil razvrščanja. Razklenitev opravimo pri samem izvajanju klasifikacije. Sistemu dovolimo da klasificira gradivo, vendar mu ne dovolimo avtomatsko razvrstiti dokument, temveč potrditev razvrstitve opravi človek. Sistem uporabniku ponudi tri najbolj verjetne možnosti klasifikacije. Uporabnik lahko izbere eno izmed treh možnosti ali pa se odloči za popolnoma drugačno razvrstitev. Na tak način se še vedno ohrani visoka

20-V Kranjska gora, 28. do 30. september 2011 točnost razvrščanja in obenem prihrani ogromno časa, saj vsako ročno razvrščanje pomeni ponavadi dodatnih 10 klikov na miško in čas potreben za vizuelno iskanje prave mape. Skica 4, Primer klasifikacije s statističnimi metodami Pri klasifikaciji živega sistema kot je na primer dokumentni sistem je potrebno statistične parametre neprestano osveževati, saj se navade uporabnikov pri klasifikaciji neprestano spreminjajo. 7. AVTOMATSKA KLASIFIKACIJA Z METODO TF-IDF Zelo uporabljana je tudi metoda TF IDF Term frequency inverse document frequency, ki izračunava, kako pomembna je določena beseda za klasifikacijo dokumenta znotraj nabora dokumentov-korpusa. Pomembnost narašča s številom pojavitev v dokumentu in pada s frekvenco v korpusu. Variacije TF-IDF metode se velikokrat uporabljajo pri rangiranju dokumentov v rezultatih iskanja. Matematični model TF-IDF metode tfi,j je frekvenca besede ni,j je število ponovitev besede tj v dokumentu dj imenovalec je vsota vseh besed v dokumentu dj kar je enako dolžini dokumenta dj idfi je inverz frekvenca dokumenta, je mera pomembnosti besede D - kardinalnost D, je število dokumentov v korpusu - število dokumentov kjer se pojavlja beseda tj imenovalcu prištejemo število 1 da ne prihaja do delitev s številom 0. izračun statistične mere TF-IDF

Kranjska gora, 28. do 30. september 2011 V-21 Primer: Vzemimo dokument s 100 besedami kjer se beseda konj pojavi 3 krat. Po predhodnih enačbah sledi da je TF = 3 / 100 = 0,03. Vzemimo da imamo korpus s 10 milijoni dokumentov in da se beseda konj pojavi v 1000-ih dokumentih. Inverz frekvence dokumenta je IDF = log(10.000.000/1.000) = 4. statistična mera je TF-IDF = 0,03 x 4 = 0,12 Seveda je potrebno v realnem primeru najprej narediti pred-obdelavo dokumentov. Iz dokumentov je potrebno izločiti neželjene znake, preslikati besede v besede z majhnimi črkami, izločiti veznike in besede. ki ne prinašajo klasifikacijske informacije, itd. Koraki priprave statističnega modela Podatke beremo iz obstoječe baze dokumentov. Pri pripravi statističnega modela beremo že klasificirane dokumente. Pred prvo uporabo modela preberemo nabor dokumentov, ki bodo naučile sistem, pri produkcijski uporabi pa bo sistem sproti obdeloval dokumente enega po enega in prilagajal statistične parametre, ki jih potrebuje za nadaljne delo. Priprava značilk - Postopek izdelave invertiranega indeksa dokumenta Pri pripravi značilk za posamezni dokument moramo dokument najprej pred-procesirati po postopku: razkosanje besedila na besede, pretvorba v majhne črke, odstranitev nepomembnih besed in ločil in krnjenje. Kvalitetna priprava podatkov predstavlja najbolj težaven del celotnega postopka. Slika 5, Koraki pri klasifikaciji dokumentov Primer priprave invertiranega indeksa Primer besedila: Dober dan v Kopru, vam želi Gregor Ibic. Predstavitev projekta se odvija v predavalnici Famnit-a v Kopru.

22-V Kranjska gora, 28. do 30. september 2011 Faze priprave invertiranega indeksa dokumenta 1. pretvorba v majhne črke 2. izločitev ločil 3. izločitev nepomenskih besed stop-words izločanje po izkušnjah ni potrebno ker ne pomaga pri klasifikaciji 4. krnjenje stemming problematika krnjenja slovenskih besed 5. izdelava vektorja 1. faza dober dan v kopru, vam želi gregor ibic. predstavitev projekta se odvija v predavalnici famnit-a v kopru. 2. faza dober dan v kopru vam želi gregor ibic predstavitev projekta se odvija v predavalnici famnit-a v kopru 3. faza dober dan kopru vam želi gregor ibic predstavitev projekta odvija predavalnici famnit-a kopru 4. faza dober dan kopr vam žel gregor ibic predstav projekt odvija predava famnit kopr 5. faza dober 1 dan 1 kopr 2 vam 1 žel 1 gregor 1 ibic 1 predstav 1 projekt 1 odvija 1 predava 1 famnit 1 Krnjenje lemmatization Krnjenje je postopek, kjer iz besede razberemo osnovno besedno obliko. Na primer iz besede tehnologija naredimo pretvorbo v tehnolo. Algoritmičnih postopkov za krnjenje angleškega jezika je več, eden izmed znanih je Porterjev algoritem. Za slovenski jezik je algoritmov za krnjenje malo, eden izmed teh je Popovičev algoritem. Izdelava normaliziranega vektorja Dokumenti so med seboj različni po dolžini in po velikosti seznama besed. Ker želimo dokumente med seboj primerjati jih je potrebno na nek način normalizirati. To naredimo tako, da invertirani vektor normaliziramo, tako da je vsota vseh frekvenc besed enaka vrednosti ena. Da bi povdarili selektivnost besed, ki se večkrat pojavijo vendar v določenem dokumentu, obtežimo vektor še logaritmom( število dokumentov, ki vsebujejo termin / število vseh dokumentov ).

Kranjska gora, 28. do 30. september 2011 V-23 Klasifikacija dokumenta v mapo Klasifikacija dokument v določeno mapo je malce drugačno od iskanja dokumentov. Da bi lahko dokument priredili določeni mapi, moramo določiti značilko mape. Dokument bomo nato primerjali z značilko mape in se na podlagi tega odločili v katero mapo klasifikacijo dokument spada. Postopek izdelave vektorja Mape - Folderja Izdelava vektorja značilk mape poteka podobno kakor pri izdelavi vektorja značilk posameznega dokumenta. Razlika je v temu, da naredimo vektor frekvenc čez vse dokumente v določeni mapi in na tem vektorju naredimo TF-IDF obdelavo. Map-Reduce Pri izdelavi vektorja značilke mape in pri kasnejši primerjavi z dokumentom moramo upoštevati, da imata lahko vektorja različen nabor terminov. Dolžine vektorjev tako niso enake. Pri izdelavi in primerjavi moramo vektorja najprej uskladiti na enotni nabor terminov. Temu postopku rečemo Map- Reduce in predstavlja eden izmed temeljnih problemov iskanja in primerjave dokumentov, saj moramo korpus neprestano z vsakim dokumentom prilagajati. To pa je časovno zelo potratno saj za sabo potegne celo verigo operacij. Postopek izračuna razdalje Za izračun razdalje/podobnosti lahko uporabimo različne mere. Nekatere od teh so: Kosinusova razdalja, Korelacija, Sorensenova mera, Hammingova razdalja,... V našem primeru bomo uporabili Kosinusovo razdaljo. Kosinusova razdalja Kosinusova razdalja izračuna kot med dvema normaliziranima vektorjema. Manjši kot je kot med njima večja je podobnost. V praksi izračun kota med vektorji pomeni, produkt dveh vektorskih matrik, ki ji podelimo z dolžinami vektorjev. S tem normiramo razdalje. Dolžina vektorja je produkt vektorske matrike s samim seboj. 8. ZAKLJUČEK V prispevku so prikazane metode klasifikacije dokumentov v dokumentnem sistemu. Metode se med seboj dopolnjujejo in se jih izbira glede na dejavnost uporabnika oziroma na primernost glede na delovni proces. V praksi se načini klasifikacije izbirajo tudi glede na usposobljenost uporabnika. V začetku se uporablja ročne metode in s časom in izurjenostjo uporabnik prehaja na bolj sofisticirane in avtomatizirane metode. Zanimivo je, da se v splošnem-praksi, razen pri razporejanju elektronske pošte v želeno in neželjeno pošto (spam), avtomatske metode zelo redko uporabljajo. V dokumentnem sistemu želimo integrirati čim boljše avtomatske metode in s tem pohitriti delovni proces uporabnikov.

24-V Kranjska gora, 28. do 30. september 2011 Zanimivi problemi v praksi nastajajo tudi pri hierarhični klasifikaciji dokumentov, kjer je potrebno izbrati na kakšen način bomo klasificirali dokumente, saj se razredi med seboj ne izključujejo temveč so urejeni v nad- in pod-množice. 9. VIRI 1. Richard B. Segal, Jeffrey O. Kephart, Incremental Learning in SwiftFile, IBM Thomas J. Watson Research Center, Yorktown Heights, NY 10598 2. Sarah Henderson, How do people manage their documents?, The University of Auckland, 2009 3. Power, D.J. A Brief History of Decision Support Systems. DSSResources.COM, World Wide Web, http://dssresources.com/history/dsshistory.html, version 4.0, March 10, 2007. 4. Flavio Costa, Daniel de Oliveira, Eduardo Ogasawara, Athena: Text Mining Based Discovery of Scientific Workflows in Disperse Repositories 5. Kenrick Mock, An Experimental Framework for Email Categorization and Management, University of Alaska, Anchorage 6. Gregor Ibic, InteliDoc Elite, http://www.intelidoc.biz, 2011 7. tf idf, http://en.wikipedia.org/wiki/tf-idf Avtor Gregor Ibic je zaposlen pri podjetju Intelicom, kjer vodi razvoj programske opreme ter koordinira projekte. Izkušnje si je nabiral pri projektih izdelave varnostne politike za finančne institucije ter vladne organizacije in pri razvoju varnostne programske opreme. Vidnejši projekti so izdelava sistema varovanja Ljubljanske borze, razvoj programske opreme za implementacijo digitalnega podpisa v sistemu Centralnega registra vrednostnih papirjev, izdelava dokumentnega sistema za Ustavno sodišče Republike Slovenije in ostali. V zadnjem času večino časa nameni razvoju in implementaciji dokumentnega poslovno organizacijskega sistema InteliDoc Elite. Akademsko izobrazbo si je pridobil na Univerzi v Ljubljani, kjer je diplomiral na področju Biokibernetike pri prof. Dr. Anton Jeglič. Sedaj se izpopolnjuje na področju računalništva in informatike v sklopu doktorskega študija na Univerzi na Primorskem, FAMNIT.