Машински превод за OpenOffice.org локализацију
Током протекле две године OpenOffice.org локализација је објективно узнапредовала до потпуно употребљивог производа. Превод сучеља програма је пристојно упеглан и дотеран, а већ неколико месеци нисам примио ни једну примедбу корисника на квалитет, иако сам и сам свестан неких ситнијих грешака.
Следећи велики изазов ће нам бити превод назива функција у Рачуну у време када у главно OpenOffice.org стабло уђе закрпа која дозвољава пребацивање између локализованих и нелокализованих назива. За сада по навици корисника и у складу са другим софтверским пакетима називи функција су на енглеском језику.
Број порука од издања до издања је релативно миран, о чему говори и број предаја у складиште: 263 у 2008. години и тек 79 у 2009. години (овом статистиком није обухваћен просечни обим сваке предаје).
фото: А. Јовановић
И даље је потребна припрема превода пред свако издање, предаја и тестирање, али нови преводилачки посао је у границама да га један преводилац редовно одржава.
Наставио сам рад на језичким алаткама и новом речнику за проверу писања о чему се прича на Гугл групи „Провера писања“. Знам да има заинтересованих да припомогну овај занимљив и јединствен подухват стварања слободних језичких ресурса и себе помало кривим што не извештавам редовније о активностима. Редовно јављање је неопходно да би се сви осетили укљученим у ток развоја и могли да преузму поједине конкретне задатке.
Оно што је тежак камен који никако да подигнемо је превод помоћи. У очигледном недостатку литературе (хвала HrOpen-у, Кристијану, Ивани, Влатки и Игору на сјајним приручницима!) помоћ у самом програму је, без обзира на њен квалитет заиста незаменљива. Ситан проблем је што се помоћ састоји од преко 430.000 речи које би требало превести у заједници!
У новембру 2008. издвојили смо из помоћи део са порукама из балончића, или нешто око 116.000 речи у око 6500 порука од чега је до сада преведено 18%, значајним доприносом Милоша Поповића и делом кроз малу акцију на linuxo форуму у децембру 2008. године.
Почетком овог месеца око 700 порука је посебно састављено у материјал за семинарски рад из примењене лингвистике студената Филолошког факултета у Београду, а њихови резултати очекују се у мају.
Преостаје питање шта са осталих 400.000 речи!
Размишљајући тако над тастатуром пробудио сам се пред већ откуцаном скриптом за претварање ПО датотека са преводом у ХТМЛ странице. У Фајерфоксу као да се сама отворила страница са Гугловим алаткама за преводиоца. Раније конструисана преводилачка меморија у ТМИкс формату већ је била отпремљена.
Потпуно не слутећи шта се спрема, изабрао сам страницу са текстом помоћи за програм OpenOffice.org Писац и кликнуо на отпреми. Дочекао ме је машински преведен материјал, скоро па спреман за објављивање у пакету OpenOffice.org.
Да се разумемо, квалитет машинског превода је очајан, иако сам заиста импресиониран технологијом која стоји иза њега. Међутим, циљ и јесте да испровоцирамо шири круг корисника са лошијим знањем језика да се прикључе заједничком дотеривању грубог машинског превода.
Изворна помоћ на енглеском и даље је лако доступна, како на Интернету тако и у самом програму променом локалитета, а њена корисност у локализованом сучељу је веома ограничена.
Применом скрипте po2html.py добија се превод спреман за слање на Гуглове алатке за преводиоца. Уз мало испробавања закључио сам да Гугл линкове најмање премешта па се они користе као веза са ИксМЛ структуром.
Пример припремљене датотеке: 2_swriter_pot.html
По обављеном преводу скрипта html2po.py стапа превод са изворном ПО датотеком и враћа преведену ПО датотеку. Сада је потребно вратити натраг променљиве (Гугл их аутоматски преводи док не иницијализује наменски речник) и ручно исправити несавршености у скрипти html2po.py због којих неке ИксМЛ структуре остају разбијене. Програм pofilter је згодан за ту завршну проверу.
$ pofilter --openoffice --excludefilter puncspacing \ --excludefilter startpunc --excludefilter startcaps swriter.po
Ова наредба ће проверити да ли је очувана ИксМЛ структура и да ли су променљиве остале у изворном облику.
Излазни резултат изгледа овако: 4_swriter.po
Програм OpenOffice.org Писац се довољно често користи да буде лабораторијски мишић овог подухвата и план ми је да овакав превод уврстим већ у издање 3.2.1.
Невезано за текст, срећан свима први април.
10 komentara
1 apr 2010 Branko Djurkovic
Чекај мало, сад си ме збунио. Је л' ово првоаприлска шала или ће помоћ стварно бити превођена машински?
Мислим, јесте глупо да се користи такав превод... још је и први април. Али с' друге стране, можда је и боље такав него никакав :)
Поздрав,
Бранко
1 apr 2010 Горан Ракић
Шала би била да сав материјал преводимо машински, али ову једну целину
помоћи за програм Писац бих радо пробно пустио по машинском преводу за
издање 3.2.1. Наравно, постоји простор до 9. априла да изгласамо
другачију одлуку.
Циљ није имати на папиру преведену помоћ већ покушај да лошим преводом и
доступном алатком за исправку наведемо згроженог корисника да нам се
активно придружи у подухвату превођења.
Не видим други начин да реализујемо превод тих 400.000 речи.
пп,
Горан
1 apr 2010 rmarw
Bez prevodilačke memorije (ili CAT alatki) to je uzaludan posao. ?
Možemo li to raditi preko
Toolkit prihvata sljedeće formate:
HTML (.html)
Microsoft Word (.doc)
OpenDocument Text (.odt)
Plain Text (.txt)
Rich Text (.rtf)
Rad u tome izgleda ovako: http://img59.imageshack.us/img59/2237/translationeditorgoogle.jpg
Uploadovao sam ovaj fajl: http://ooo.matf.bg.ac.rs/mt/2_swriter_pot.html
Ako ti možeš bez problema vratiti ovaj HTML u izvori oblik - onda ne vidim zašto ne koristiti Google Toolkit.
1 apr 2010 Часлав Илић
(И даље не сасвим сигуран да се не ради о првоаприлском фактору, али…)
> [: Goran Rakic :]
> Применом скрипте po2html.py[3] добија се [...]
Пологија садржи скриптицу pomtrans, у коју је лако додавати нове моторе за
машинско превођење (по једна класа, са једним методом који просто добије
листу текстова, и врати листу преведених текстова). Па сам реда ради додао и
Гуглов сервис:
$ pomtrans google -t sr hc2/trunk/source/text/shared/05.po
! hc2/trunk/source/text/shared/05.po (31)
$
Пропустиће кроз машинско превођење само непреведене поруке, и подразумевано
их означити као мутне (што може да се укине опцијом -n). Тренутна изведба је
помало спора зато што Гуглу шаље текст по текст, уместо некако све заједно;
али, као што рекох, цела филозофија је у методу Translator_google.translate,
и ту може да се даље штелује по жељи.
1 apr 2010 Часлав Илић
> [: rmarw :]
> Bez prevodilačke memorije (ili CAT alatki) to je uzaludan posao.
Радни ток над ПО датотекама аутоматски пружа еквивалент преводилачке меморије, тако да ту нема ништа посебно да се организује. Зато није нешто ни битно да наменски ПО уређивачи пружају преводилачку меморију, мада је сви за које ја знам заправо пружају.
Оно што би међутим врло ваљало јесте да уређивач приказује разлику у извору на погодак из преводилачке меморије, нпр. да се јасно види кад је само једна реч измењена у читавом пасусу. Тренутно, чини ми се, само Локализуј може ово.
> Toolkit prihvata sljedeće formate:
Сувишно.
1 apr 2010 rmarw
> Сувишно.
Čak i radi eksperimenta?
1 apr 2010 Горан Ракић
> Пологија садржи скриптицу pomtrans, у коју је лако додавати нове моторе за
> машинско превођење (по једна класа, са једним методом који просто добије
> листу текстова, и врати листу преведених текстова).
Проблем је што се тако не користи преводилачка меморија.
Наиме Гуглове алатке за преводиоца дозвољавају отпремање меморије у
ТМИкс формату и речника термина што даје већи значај у односу на Гуглове
речнике и машински превод. На овај начин не добијамо „Чишћење филеа“ већ
„Пражњење датотеке“ у машинском преводу.
Програмом po2tmx сам од ПО збирке порука конструисао меморију коју Гугл
може да учита. Меморија је јавна, под именом „OpenOffice.org сучеље“.
Чини ми се и да је резултат превода бољи када се ради над већим комадима
текста мада то нисам детаљније испитао.
Остало је да поправим скриптице пошто једноструко затворен таг не
могу лепо поуздано да заменим затвореном ИксМЛ ознаком при претварању
натраг у ПО формат. Покушаћу да му прогурам , ваљда ту
ознаку неће склањати и померати у преводу. Алтернатива би била да
користимо ОДТ формат и додатне ознаке, али ко зна шта ће тек ту да уради
са означавањем.
пп,
Горан
1 apr 2010 Facebook
Igor Nestorović kaže da mu se ovo sviđa.
2 apr 2010 Часлав Илић
> [: rmarw :]
> Čak i radi eksperimenta?
Уу, ја сам увек за експериментисање. Само с којим циљем овде, какве везе има
подршка разних формата?
Ако пак мислиш на „Гуглов преводилачки прибор“ као алатку за рад на преводу
уопште, онда је (додуше само судећи по снимку који си окачио) то очајна
алатка, уз све непогодности које доноси веб сучеље. Ни јаре ни паре.
2 apr 2010 Часлав Илић
> [: Goran Rakic :]
> Наиме Гуглове алатке за преводиоца дозвољавају отпремање меморије у ТМИкс
> формату и речника термина што даје већи значај у односу на Гуглове речнике
> и машински превод. [...]
Претпостављам да је притом резултат другачији него при раздвојеној примени
прво преводилачке меморије (евентуално са захтеваним вишим степеном
поклапања од подразумеваног) па потом машинског превода на преосталим
порукама? Тј. да Гугл уноси нешто своје магије у примену преводилачке
меморије, на нивоу издвајања подфраза? Ако је тако…
> Остало је да поправим скриптице [...]
…окачи ти те скриптице негде кад постану довољно употребљиве ;)