| Eesti Rakenduslingvistika Ühingu Aastaraamat | |
| Statistilised meetodid ühendverbide tuvastamisel tekstikorpusest | |
| 关键词: computational linguistics; corpus linguistics; multi-word expressions; particle verbs; statistics; Estonian; | |
| DOI : 10.5128/ERYa11.03 | |
| 来源: DOAJ | |
【 摘 要 】
Artiklis võrdlen sõnadevahelise seose tugevuse mõõtmise statistilisi meetodeid, mida kasutatakse arvutilingvistikas püsiühendite tuvastamiseks. Töö põhieesmärk on rakendada viit sümmeetrilist statistikut – t-skoori, vastastikuse informatsiooni väärtust, hii-ruut-statistikut, log-tõepära funktsiooni ja minimaalset tundlikkust – erineva suurusega korpuste peal ja välja selgitada, milline meetod töötab eesti keele ühendverbide automaatsel tuvastamisel kõige paremini. Teine suurem eesmärk on katsetulemuste põhjal uurida, milline on korpuse suuruse mõju statistikute tööle. Lisaks palju testitud nimetatud sümmeetrilistele statistikutele rakendan psühholoogiliselt paremini põhjendatud asümmeetrilisi statistikuidning toon välja nende eelised sümmeetriliste statistikute ees.
【 授权许可】
Unknown