Nástroj pro tvorbu slovníku a klávesnic pro iPhone

24. 10. 2007, 1:30 · Nakousnutá jabka · Bleskovka

ikonkaByl jsem upozorněn na tento nástroj, který umožňuje vytvářet slovníky pro automatickou korekturu zadávaného textu pro iPhone, nechce se na to někdo podívat? :). Případně vytvořil tím už někdo nějaký dostupný slovník? Macwell asi pomocí toho slovník vytvořil, ale chce ho jako součást lokalizace prodávat, což ne každému vyhovuje, někomu může stačit pouze slovník. K tomu lze také pracovat s grafickými soubory pro iPhone, podklady pro klávesnice a podobně, ale to možná nemá smysl řešit, když už lze používat 1.1.1, který dovoluje zadávat národní znaky. I když vlastně nevím, zda jde zadávat všechny námi používané znaky – je možné napsat třeba ř?

Ad slovník: dumám, jak se bude iPhone chovat při zadávání slov s diakritikou – možná by nebylo od věci vyzkoušet slovník, kde budou slova 2x, jednou s diakritikou, jednou bez. Ale to je jen nápad.

Mimochodem, nevyřešil někdo posunutí začátku kalendáře z neděle (US “začátek”) na pondělí? Docela mě to irituje a mate.

· Trvalý odkaz na tento příspěvěk · Linkuj.cz · Jagg.cz

  1. dik za tip, myslel som, ze je to len pre graficku upravu klavesnic a rozhrania.

    spolu s cz/sk-spell (open source slovnik) by nemal byt taky problem spravit vlastny.

    Co sa tyka kalendara, pozeral som to, presiel celu strukturu iPhone firmware kde by to mohlo byt (frameworky, .plist subory) ale nikde nic, predpokladam, ze to bude volitelny parameter v niektorom .pliste, skor pre cele systemove nastavenia a nie len v ramci MobileCal

    Jozo Remen    24.10.2007 11:15    #

  2. Zkousel jsem na 1.1.1 to zadavani znaku s akcentama,ale davalo mi to jenom ty znaky z western jazyku. Takze pokud by jste chteli diakritiku i psat z klavesnice, je potreba upravit i to zadavani znaku. Jde to timhle nastrojem, treba skandinavsky jazyky uz jsou tak udelany.

    — PavelS    24.10.2007 11:25    #

  3. hm, ja som to skusal na slovnikoch z 1.1.1, najprv dump anglickeho slovnika a bohuzial hadzalo to chybu

    Jozo Remen    24.10.2007 11:28    #

  4. nastavení prvního dne týdnu je v Mac OS X:

    a) v .strings souboru v .lproj složce
    b) binárně v ICU datech

    agent    24.10.2007 12:12    #

  5. MaLer: videl jsem nekde obrazky klavesnice iphonu s rozsirenymi znaky a bylo tam i ř a ostatni nase pismena.

    — Matthew    24.10.2007 12:37    #

  6. Matthew: muzes zkusit dohledat?

    agent: v strings to neni (alespon ve verzi 1.0.2 – a k obsahu FW 1.1.1 z touche, kde to funguje spravne, sem se zatim nedostal)

    Martin Ler    24.10.2007 12:40    #

  7. MaLer: prave to hledam, ale zatim nic. Bylo to hned po novym firmwaru 1.1.1 a nekde byly srovnavaci fotky staryho a novyho os

    — Matthew    24.10.2007 12:46    #

  8. Matthew: nemyslis totok?
    http://www.macrumors.com/iphone/2007/09/27/using-special-characters-on-the-iphone-keyboard-1-1-1/

    Martin Ler    24.10.2007 12:59    #

  9. jo, neco takovyho. ted teda ale nemuzu rict na 100%, ze tohle je ten obrazek co sem videl. Mozna jo. Tam teda to ř a podobny neni jo?

    — Matthew    24.10.2007 13:02    #

  10. Pry ne, ja to jeste v tlapach nemel.

    Martin Ler    24.10.2007 13:09    #

  11. Chvilku jsem si hral se seznamem ceskych slov co je v aspell, tady je kompletni seznam ceskych slov pokud ho nekdo chce prohnat zminenym projektem… Tech slov ja ale opravdu hodne.
    Vychazet muzete z czech_words_strip_lower.txt.gz

    Problem je flexe u slovanskych jazyku. Anglictina ma ve podobnem seznamu zhruba 100.000 slov, v iPhone 1.0.2 je jich 72.021.
    Kompletni seznam ceskych slov z aspellu ma 4.5 milionu polozek, pokud je preveden na ascii a odstranena jmena a nazvy, tak jsme stale na 3.5 milionu slov. iPhone to musi nacist do pameti cele, protoze nevypada ze by to mel udelane zrovna inteligentne. Pak mozna narazime na limity pameti/rychlosti pri doplnovani.

    Samozrejmne u slov z aspell neni uvedena frekvence vyskytu, informace ktera je klicova pro kvalitni cesky slovnik pro iPhone.

    Pokud by to clovek mel mit udelane kvalitne nejlepe by bylo mit korpus (velkou kolekci textu), idealne korpus kvalitnich ceskych sms, a z nej vygenerovat databazi slov. Nevim jestli takovy korpus ma nekdo na univerzitach v CR, myslim ze na FI MU v Brne takovy maji. Muzete se poptat kamaradu a dat sem vedet. ;-)

    Mozna by se korpus dal vybudovat i amatersky. Mate doma zalohy svych sms v cestine v nejakem textovem formatu? Pokud jich dame hodne dohromady, tak by to mohlo byt prakticke.
    Nejlepsi pristup k podobnym datum muze mit napriklad nejaka sms brana, nebo nektery z poskytovatelu.

    Nevim jak moc se zmeni system tvoreni slovniku v mezinarodni verzi iPhone, napr. pro nemcinu uz to bude chtit neco sofistikovanejsiho nez je seznam slov. Alespon s inteligenci ispellu.
    Pro cestinu by melo smysl portovat do iPhone napr. ajku, nebo fispell, ci alespon data z aspell vcetne systemu tvorby slov. Jenze to vypada, ze tak moc otevreny iPhone nebude nikdy.

    Funguje ten komercni slovnik co je od Macwell dobre? Jak je velky? Nevite na zaklade ceho vybudovali tu databazi?

    (seznam slov z aspell ziskan pomoci:
    aspell -l cs dump master | ispell -e3 | sed ‘s/[^ ]* //1’ | iconv -f iso-8859-2 -t utf-8 > czech_words.txt)

    Klokan    24.10.2007 15:28    #

  12. Ad slovnik s diakritikou: autori ruske klavesnice psali, ze autokorekce zatim (1.0.2) nefunguje pro znaky jine nez ascii. Program pak pada.

    Na mobilech ale (kvuli sms) neni slovnik s diakritikou prilis oblibeny. Mozna kvuli emailum a adresari by to melo smysl.. ale nevim.. Zajimave to bude po 9.11. kdy bude urcite k dispozici novy firmware spolecne s uvedenim v Nemecku.

    Klokan    24.10.2007 15:37    #

  13. Tak jsem patral a vypada to, ze tohle CD a (z nej vybudovany korpus KSK) by mohlo byt spravnym datovym zdrojem pro tvorbu slovniku:
    Zdeňka Hladká a kol.: Čeština v současné soukromé korespondenci. Dopisy, e-maily, SMS. Brno: Masarykova univerzita 2005. Napisu te pani/slecne.

    Klokan    24.10.2007 16:12    #

  14. Klokan: wow!

    Martin Ler    24.10.2007 16:41    #

  15. Klokan ma pravdu, iPhoneshop nevie pridelovat dolezitost slov podla vyskytu, a to ani po obideni skriptom (pocitanie vyskytu cez Google) – nastavi to na fixne.

    Diakritika sa da ostranit cez nastroj iconv v terminali, SK slovnik som pred chvilou vyrobil akurat je problem inteligentne davanie castych vyrazov do popredia…

    Jozo Remen    24.10.2007 17:01    #

  16. Jozo: z jakych dat je ten slovensky slovnik?
    Kolik slov a jak funguje v iPhone?

    Diky za tip na ten iconv, nevedel jsem o //TRANSLIT, tedy: echo čeština | iconv -f utf-8 -t ascii//TRANSLIT

    Pani profesorka cestiny na FF MU v zasade neni proti zpristupneni korpusu pro tvorbu nekomercniho slovniku pro iPhone. V patek za ni asi zajdu. Myslim, ze lepsi data pro tvorbu slovniku proste v CR nejsou.

    Jo jeste jsem se dival, ze uz je dostupna i zadarmo lokalizace iPhone 1.0.2 do cestiny od De3mKa, viz http://code.google.com/p/iphone-language/, kvalita zatim neni 100%, ale muzete se zapojit a posunout to dal ;-).

    Klokan    24.10.2007 19:16    #

  17. pouzil som sk-spell, rovnaky je aj cz-spell. Tie iste data pouziva aj CocoAspell.

    iPhone zatial nemam ale dal som to na otestovanie kamaratovi a vyzera to na to ze sa to s niecim este bije, niekedy mu to ide a niekedy nejde. Skor je to asi tymi pomalymi reakciami. Pustil som vsak na .txt subor wc -w a naslo nejakych 175 800 vyrazov co nie je take strasne…

    Jozo Remen    24.10.2007 19:25    #

  18. este k iconv a //TRANSLIT:
    isiel som stylom:
    iconv -c -f utf-8 -t ASCII//TRANSLIT | sed “s/’//g” >>slovnik.txt

    Bolo nutne odtranit jednoduche uvodzovky kedze prevod do ASCII nahradil dlzne tymto znakom a hodil to pred povodny diakriticky znak. Makcene posli prec ale toto nie takze to muselo ist inak :)

    Jozo Remen    24.10.2007 19:28    #

  19. bohuzel nelze psat vsemi ceskymi znaky v neupravene 1.1.1 Takze hezky po poradku: áéíóšúž. A vic ani tuk.

    — DesignPatrol from iPhone 1.1.1    24.10.2007 22:16    #

  20. Klokan: ja bych s tou lokalizaci rad pomoh, ale napada te jak? Tedy, jak na tom spolupracovat ve vice lidech? Nacpat vsechny ty stringy do nejake wiki mi prijde jako dobry napad, ale import/export by to chtelo delat nejak automaticky, ne rucne.

    Martin Ler    25.10.2007 01:15    #

  21. Maler: Staci najit text, ktery bys rad opravil, opravit ho a poslat zpet, vse je dostupne pres SVN na http://iphone-language.googlecode.com/svn/trunk/languagespack.source/cs/.
    Urcite ti daji prava i na svn commit, takze pak udelas zmeny u sebe na disku jen to uploadnes.
    Zmeny se pak dostanou ke vsem s novou verzi aplikace pres AppTap (Installer.app).

    Klokan    25.10.2007 02:29    #

  22. Klokan: jestli je tam SVN, tak je to samozrejme vyrazne lepsi, dik

    Martin Ler    25.10.2007 10:25    #

  23. V 1.1.1 chybi spousta ‘nasich’ znaku: r^, y’, atd.

    — Krystof Vasa    25.10.2007 14:23    #

  24. Vystavil jsem ten skript na dekodovani kapesni Lingei

    Klokan    25.10.2007 15:44    #

  25. Sorry za OT/
    ale mam takovy problem s iPhonem, komukoliv volam z bluetooth handsfree sady v aute, nebo z hlasiteho poslechu, vsichni si stezuji ze se slysi vicekrat, klasicka ozvena, netusite nekdo cim by to mohlo byt? mate tento problem tez? firmware 1.0.2.
    Dekuju!

    — kafes33    26.10.2007 00:05    #

  26. pri hlasnom pocuvani je to v uzatvorenom priestore auta jasne – spatna vazba.

    ale preco aj u handsfree ak ide zvuk priamo do ucha…
    tipoval by som lacne sluchadlo neschopne redukovat zvuky okolia

    Jozo Remen    26.10.2007 00:20    #

  27. v aute na hf mi to jiny tel. nedelal, a hlasity poslech na iphonu to dela take:(

    — kafes33    26.10.2007 00:23    #

  28. ahoj, nevim, jestli si tu s tim nekdo hral, ale nejde mi prepsat v nastaveni nazev Carrier na operator. Vse je OK, jen proste tohle je stale anglicky. Nema nekdo nejakou radu? Ve vsech strings kde je Carrier to mam prepsany, tak nevim, jestli to neni jedna z veci ulozenych nekde jinde:-(

    — lukee    26.10.2007 11:24    #

  29. ad 11.
    Problem s velikosti slovniku v pameti i na disku by mel byt elegantne resitelny pomoci “Bloomova filtru” (algoritmus z r. 1970).

    Implementace v Obj-C se da najit pomoci Google Code Search. Pro optimalizaci filtru je uzitecny Bloom Filter Calculator (google).

    K tomu korpusu: rozhodne nesezene dost ruznorodych SMS: korpus SMS pouzijte jen pro pripadne doplneni word listu vygenerovaneho z velkeho vseobecneho korpusu. Idealni je asi Cesky narodni korpus.

    PS: K cemu ve spellcheckeru nezbytne potrebujete frekvence (tvaru, lemmat …)?

    — PaSt    29.10.2007 12:14    #

  30. PaSt: to neni spellchecker, to je naseptavac. a naseptavac by vam mel naseptavat to nejpravdepodobnejsi slovo.

    Martin Ler    29.10.2007 12:34    #

  31. Mea maxima culpa. Nejak jsem ztratil kontext.

    Kazdopadne pokud nekdo na naseptavaci pracuje a nema pristup ke korpusum, asi bych mohl jednoduchy frekvencni slovnik dodat.

    Jina vec je, ze poradny naseptavac by mel pouzivat alespon bigramovy jazykovy model (tedy pocitat pravdepodobnost slova na zaklade (alespon) slova predchoziho). Pamet i rychlost iPhonu by na bigramovy model mohla stacit, navic to jde udelat take s pomoci Bloomova filtru (i kdyz to neni uplne jednoduche).

    — PaSt    29.10.2007 13:59    #

  32. PaSt: otazkou je, jak presne funguje ten engine co je tam zabudovany. Domnivam se, ze vytvorit jiny engine neni realne, max dodat stavajicimu co nejlepsi data.

    Martin Ler    29.10.2007 14:32    #

  33. Vytvorit samotny napovidac s jazykovym modelem je zcela realne, pokud se napr. u nas na MFF najde student, ktery by se tomu chtel venovat jako bakalarske praci.

    Co nemohu odhadnout, je integrace do iPhonu.

    — PaSt    29.10.2007 15:14    #

  34. PaSt: prave to jsem mel na mysli – iPhone je schopen prijmout data v podobe znameho formatu slovniku, delat pro to engine a integrovat ho by bylo pravdepodobne prilis narocne, navic kdyz neni zatim zadna oficialni podpora, defacto by to byla prace zbytecna, nebot by to nemuselo byt v budoucnosti pouzitelne. Uvidime s cim vytasi Apple v unoru. To uz mam lepsi napady co udelat s volnym casem studentu :) (plna implementace EPOSu do Mac OS X, aby ho bylo mozne pouzivat pro VoiceOver ;)

    Martin Ler    29.10.2007 16:01    #

  35. :) Jako uzivatele me to samozrejme napadlo, ale z meho profesniho pohledu je to “jen” inzenyrska prace a chybi tam ta (komputacni) lingvistika. Takove prace nezadavam, protoze nemaji vztah k memu oboru.

    — PaSt    29.10.2007 18:13    #

  36. Ahoj, našel jsem na netu lokalizaci klávesnice do ruštiny, němčiny atd. Tak jsem si ji stáhnul a upravil a už mi chodí kompletně počeštěná klávesnice na iPhonu. Vycházel jsem z němčiny, kde klávesnice má nejvíce znaků na třech řádkách, naše má bohužel čtyři. Když jsem to zkoušel tak bylo strašně překlepů a tak jsem upravil německou klávesnici o třech řádcích. Na české rozložení kláves jsem pro mnoho překlepů rezignoval, funguje to bez problémů a tak když budete mít zájem jděte z iPhonu přes Safari na
    http://www.russianiphone.ru/beta/en/
    , když máte nainstalovánu app Installer bude Vám to chtít přidat zdroj pro lokalizaci ( založí kategorii Localization) a zde si nejdříve nainstalujte Mobile Enhancer pak naistalujte German keyboard. Ve složce /Library/MobileEnhancer/cyrillic-keyboard.men pak zaměníte sedm souborů za mnou upravené soubory, které jsem uložil na http://uloz.to/71212/Keyboard CZ.zip
    ( musíte je rozbalit :-) a vložit již do zmíněné složky a můžete psát a používat po restartu ( vypnutí a zapnutí je nutné)kompletní české znaky. Pro přetažení souboru používám aplikaci iPhoneBrouser v. 1.4 , kterou naleznete na http://uloz.to/71222/SetupiPhoneBrowser.1.4.zip
    Můžete zkusit i Vaši úpravu. Používal jsem PC a zde Poznámkový blok – Notepad a Malování.
    Když budete mít nějaký již trochu funkční český našeptávač, tak ho prosím uložte na www.uloz.to Rád ho vyzkouším. Martin

    — Martin    29.10.2007 18:25    #

  37. PaSt: skoda :). Mno, tak holt az pristi rok, az bude SDK od Apple, driv asi nema smysl to delat pro iPhone. Ale ten engine uz muzete mit pripraveny, to je pravda :)

    Martin Ler    29.10.2007 20:03    #

  38. Martine:
    Proc ten svuj layout neposles tomu Rusovi mailem. Myslim, ze by ho klidne umistil do tech svych zdroju a pak by Tvoje ceska klavesnice byla snadno k dispozici via Installer. I by to bylo slusne, kdyz to vyuziva jeho engine…

    — Akram    30.10.2007 20:13    #

  39. Rusovi jsem moji úpravu poslal hned po otestování.

    — Martin    31.10.2007 11:03    #

  40. Martine: zdálo se mi dobré, aby klávesnice obsahovala i slovenské znaky äôľŕ, tak jsem je zkusil přidat. Pak jsem ty PNG soubory přepracoval v Photoshopu korektněji (bez různých skvrn a záplat, písmo má snad podobnou tušenou plasticitu jako originál). NEZKOUŠEL JSEM, jak to funguje, protože čistá kombinace MobileEnhancer+German Keyboard po instalaci a restartu iPhonu způsobila bezpečný pád aplikace, ve které jsem (ještě před nahráním Tvého počeštění) zkusil psát – ani se neobjevila. Možná je to tím, že mám 1.1.1. a Sláva Karpenko teprve teď jásá, že svou původní rusifikaci převedl pod tuto verzi firmware – a těch starších – mezinárodních – klávesnic se to ještě asi netýká. Odinstaloval jsem a budu čekat, ale kdybys chtěl otestovat moje řešení (čtyři znaky navíc a myslím čistší úprava grafických souborů) nebo kdyby to chtěl zkusit někdo jiný , najde to na http://uloz.to/73412/keyboard-cz-a.zip
    Zdar

    — Akram    1.11.2007 08:57    #

  41. Ahoj
    Potrebuji poradit mam iphone , instaloval jsem aplikace a na displeni se mi statila ikona instal a nemuzu ji dohlenat.poradte prosim

    — patrik    4.11.2007 12:02    #

  42. Pro Akram, zdravím kolego, vyzkoušel jsem Tvoji úpravu a to včetně přidaných znaků a potvrzuji , že vše funguje bez problému a grafika je skutečně moc pěkně udělaná. Já už jsem na to po dlouhém zkoumaní již neměl čas a nejdříve jsem to chtěl pořádně otestovat. Jinak skutečně tato úprava funguje jen na 1.0.2, který zatím stále používám, protože chci používat i další aplikace, které zatím na 1.1.1 nefungujou. Díky za příspěvek a práci. Je to fakt pěkné :-)

    Martin

    — Martin    14.11.2007 07:30    #

  43. Kdyz jsem skousel tu cz klavesnici tak jsem dal do instaleru tu ruskou stranku a ukazalo se mi tam ta slozka lokalization a bylo to tam to Mobile E… a ta german keyboard tam nebylo poradte mi nekdo pls

    — seda    28.11.2007 23:36    #

  44. Bohužel cylliric keybord je nyní zpoplatněna na 500 rublů to je cca, 19 EUR tj. skoro 500 Kč. Musel jsem si ji tedy koupit a po koupení jsem pak přehrál všechny soubory mnou vytvořenými a česká klávesnice funguje :-). Zazipoval jsem celou složku a uložil na
    http://uloz.to/180803/vylepšená Keyboard CZv3 pro Cyrillic keybord.zip
    . Zkuste si ji pak rozbalit a vše vložit do root/Library/MobileEnhancer/cyrillic-keyboard.men/
    Možná to bude fungovat a nebudete muset si to kupovat. Nevím jak je to zabezpečeno? Ještě upozornění. Mám stále systém 1.0.2 na kterém to bezpečně funguje. Nezkoušel jsem to na 1.1.1 a výše, nicméně na stránkách ruského vývojáře se píše, že to chodí i na 1.1.1 a 1.1.2. Pravděpodobně ale to je již nutné asi koupit. Předpokládám, že tam mění ještě nějaké jiné soubory . V instaleru stačí, když si dáte instalovat Ruský projekt a pak si ho aktivovat ( koupit ) a pak zkuste přehrát mnou vytvořené soubory . Více na http://ripdev.com/ruproject .
    Upozorňuji, že nejdříve však musíte nainstalovat z instaleru ještě MobileEnhancer. Nenechte se poplést protože háčky a čárky vidíte teprve, když přepnete na klávesnici, která má prohozené Z a Y. a pak stiskněte shift. Držím palce, snad se Vám to podaří a budete mít na iphonu českou klávesnici :-). Dejte vědět, zda to funguje.

    — Martin    9.2.2008 11:17    #

  45. A nedokazal by niekto spravit t9 aj pre SK??

    Scenic    16.3.2008 14:29    #

  46. http://drsny.net/iphone/pxlinfo/?detail=package&package=cz.iphone.slovencina113

    tady je jen lokalizace,ale zeptej se na forum.iphone.cz třeba bude mít někdo chut

    ERT    16.3.2008 19:08    #

Související články