HaT 0.3 (c)2004,2005 Štěpán Roh ------------------------------- Tento archív obsahuje experimentální "háčkovač" textu (přidávání diakritiky). Za použití testovací databáze je poměr chyb asi 5%. Změny z verze 0.2 ----------------- - rozšířena testovací databáze Změny z verze 0.1 ----------------- - opravena chyba, kdy četnost kontextu byla ignorována - rozšířena testovací databáze Obsah dodávky ------------- hat-0.3.tar.gz obsahuje dokumentaci a vlastní háčkovač hat-0.3-db.tar.gz obsahuje příklad databáze pro použití v háčkovači Spuštění -------- Požadavky: Perl 5.x nebo vyšší (testováno s v5.8.2) Cz::Cstocs (testováno s verzí 3.4) Generování (trénování) databáze: ./hat.pl -b hat.db il2 < train.txt - vytvoří databázi hat.db z trénovacích dat train.txt, které jsou v kódování iso-8859-2 (jména kódování jsou dle Cz::Cstocs) Háčkování textu: ./hat.pl -h hat.db il2 < ascii.txt > czech.txt - za použití databáze hat.db oháčkuje ascii.txt do czech.txt v kódování iso-8859-2 Testovací databáze ------------------ Testovací databáze byla vygenerována z následujících zdrojů: Stanovy CZLUG (http://www.linux.cz/czlug/stanovy.html) GNU LGPL (CZ) (http://www.gnu.cz/article.php?id_art=34) Linuxový dokumentační projekt (druhé vydání) (http://www.cpress.cz/knihy/ldp2/) Vybrané zákony České republiky (http://portal.gov.cz) Texty z různých českých časopisů a novin Několik českých a do češtiny přeložených knih Přesná forma použitých textů nemůže být z testovací databáze zrekonstruována (neobsahuje všechnu informaci z původního zdroje), takže jejich užití považuji za poctivé. Štěpán Roh