OpenOffice.org - najpopularniji slobodni kancelarijski paket; obrada teksta, tablice, prezentacije, baze podataka; preuzmite besplatno sa http://sr.openoffice.org
 

Машински превод за OpenOffice.org локализацију

Током протекле две године OpenOffice.org локализација је објективно узнапредовала до потпуно употребљивог производа. Превод сучеља програма је пристојно упеглан и дотеран, а већ неколико месеци нисам примио ни једну примедбу корисника на квалитет, иако сам и сам свестан неких ситнијих грешака.

Следећи велики изазов ће нам бити превод назива функција у Рачуну у време када у главно OpenOffice.org стабло уђе закрпа која дозвољава пребацивање између локализованих и нелокализованих назива. За сада по навици корисника и у складу са другим софтверским пакетима називи функција су на енглеском језику.

Број порука од издања до издања је релативно миран, о чему говори и број предаја у складиште: 263 у 2008. години и тек 79 у 2009. години (овом статистиком није обухваћен просечни обим сваке предаје).


Сећате ли се овог поздравног екрана? Једно од радних издања локализованог пакета OpenOffice.org из 2008. године. Издање 3.0 објављено је 24. новембра те године.

фото: А. Јовановић

И даље је потребна припрема превода пред свако издање, предаја и тестирање, али нови преводилачки посао је у границама да га један преводилац редовно одржава.

Наставио сам рад на језичким алаткама и новом речнику за проверу писања о чему се прича на Гугл групи „Провера писања“. Знам да има заинтересованих да припомогну овај занимљив и јединствен подухват стварања слободних језичких ресурса и себе помало кривим што не извештавам редовније о активностима. Редовно јављање је неопходно да би се сви осетили укљученим у ток развоја и могли да преузму поједине конкретне задатке.

Оно што је тежак камен који никако да подигнемо је превод помоћи. У очигледном недостатку литературе (хвала HrOpen-у, Кристијану, Ивани, Влатки и Игору на сјајним приручницима!) помоћ у самом програму је, без обзира на њен квалитет заиста незаменљива. Ситан проблем је што се помоћ састоји од преко 430.000 речи које би требало превести у заједници!

У новембру 2008. издвојили смо из помоћи део са порукама из балончића, или нешто око 116.000 речи у око 6500 порука од чега је до сада преведено 18%, значајним доприносом Милоша Поповића и делом кроз малу акцију на linuxo форуму у децембру 2008. године.

Почетком овог месеца око 700 порука је посебно састављено у материјал за семинарски рад из примењене лингвистике студената Филолошког факултета у Београду, а њихови резултати очекују се у мају.


Преостаје питање шта са осталих 400.000 речи!

Размишљајући тако над тастатуром пробудио сам се пред већ откуцаном скриптом за претварање ПО датотека са преводом у ХТМЛ странице. У Фајерфоксу као да се сама отворила страница са Гугловим алаткама за преводиоца. Раније конструисана преводилачка меморија у ТМИкс формату већ је била отпремљена.

Потпуно не слутећи шта се спрема, изабрао сам страницу са текстом помоћи за програм OpenOffice.org Писац и кликнуо на отпреми. Дочекао ме је машински преведен материјал, скоро па спреман за објављивање у пакету OpenOffice.org.

Да се разумемо, квалитет машинског превода је очајан, иако сам заиста импресиониран технологијом која стоји иза њега. Међутим, циљ и јесте да испровоцирамо шири круг корисника са лошијим знањем језика да се прикључе заједничком дотеривању грубог машинског превода.

Изворна помоћ на енглеском и даље је лако доступна, како на Интернету тако и у самом програму променом локалитета, а њена корисност у локализованом сучељу је веома ограничена.

Применом скрипте po2html.py добија се превод спреман за слање на Гуглове алатке за преводиоца. Уз мало испробавања закључио сам да Гугл линкове најмање премешта па се они користе као веза са ИксМЛ структуром.


Пример припремљене датотеке: 2_swriter_pot.html

По обављеном преводу скрипта html2po.py стапа превод са изворном ПО датотеком и враћа преведену ПО датотеку. Сада је потребно вратити натраг променљиве (Гугл их аутоматски преводи док не иницијализује наменски речник) и ручно исправити несавршености у скрипти html2po.py због којих неке ИксМЛ структуре остају разбијене. Програм pofilter је згодан за ту завршну проверу.

  $ pofilter --openoffice --excludefilter puncspacing \
     --excludefilter startpunc --excludefilter startcaps swriter.po

Ова наредба ће проверити да ли је очувана ИксМЛ структура и да ли су променљиве остале у изворном облику.


Излазни резултат изгледа овако: 4_swriter.po


virtaal-mt.png

 

Програм OpenOffice.org Писац се довољно често користи да буде лабораторијски мишић овог подухвата и план ми је да овакав превод уврстим већ у издање 3.2.1.


Невезано за текст, срећан свима први април.

 

 

April 1, 2010 5:12 AM | OOo, fsn

Komentari

Чекај мало, сад си ме збунио. Је л' ово првоаприлска шала или ће помоћ стварно бити превођена машински?

Мислим, јесте глупо да се користи такав превод... још је и први април. Али с' друге стране, можда је и боље такав него никакав :)

Поздрав,
Бранко

Objavio Branko Djurkovic u April 1, 2010 9:53 PM

Шала би била да сав материјал преводимо машински, али ову једну целину
помоћи за програм Писац бих радо пробно пустио по машинском преводу за
издање 3.2.1. Наравно, постоји простор до 9. априла да изгласамо
другачију одлуку.

Циљ није имати на папиру преведену помоћ већ покушај да лошим преводом и
доступном алатком за исправку наведемо згроженог корисника да нам се
активно придружи у подухвату превођења.

Не видим други начин да реализујемо превод тих 400.000 речи.

пп,
Горан

Objavio Горан Ракић u April 1, 2010 9:54 PM

Bez prevodilačke memorije (ili CAT alatki) to je uzaludan posao.
Možemo li to raditi preko ?

Toolkit prihvata sljedeće formate:

HTML (.html)
Microsoft Word (.doc)
OpenDocument Text (.odt)
Plain Text (.txt)
Rich Text (.rtf)

Rad u tome izgleda ovako: http://img59.imageshack.us/img59/2237/translationeditorgoogle.jpg

Uploadovao sam ovaj fajl: http://ooo.matf.bg.ac.rs/mt/2_swriter_pot.html

Ako ti možeš bez problema vratiti ovaj HTML u izvori oblik - onda ne vidim zašto ne koristiti Google Toolkit.

Objavio rmarw u April 1, 2010 9:56 PM

> [: rmarw :]
> Bez prevodilačke memorije (ili CAT alatki) to je uzaludan posao.

Радни ток над ПО датотекама аутоматски пружа еквивалент преводилачке меморије, тако да ту нема ништа посебно да се организује. Зато није нешто ни битно да наменски ПО уређивачи пружају преводилачку меморију, мада је сви за које ја знам заправо пружају.

Оно што би међутим врло ваљало јесте да уређивач приказује разлику у извору на погодак из преводилачке меморије, нпр. да се јасно види кад је само једна реч измењена у читавом пасусу. Тренутно, чини ми се, само Локализуј може ово.

> Toolkit prihvata sljedeće formate:

Сувишно.

Objavio Часлав Илић u April 1, 2010 9:57 PM

(И даље не сасвим сигуран да се не ради о првоаприлском фактору, али…)

> [: Goran Rakic :]
> Применом скрипте po2html.py[3] добија се [...]

Пологија садржи скриптицу pomtrans, у коју је лако додавати нове моторе за
машинско превођење (по једна класа, са једним методом који просто добије
листу текстова, и врати листу преведених текстова). Па сам реда ради додао и
Гуглов сервис:

$ pomtrans google -t sr hc2/trunk/source/text/shared/05.po
! hc2/trunk/source/text/shared/05.po (31)
$

Пропустиће кроз машинско превођење само непреведене поруке, и подразумевано
их означити као мутне (што може да се укине опцијом -n). Тренутна изведба је
помало спора зато што Гуглу шаље текст по текст, уместо некако све заједно;
али, као што рекох, цела филозофија је у методу Translator_google.translate,
и ту може да се даље штелује по жељи.

Objavio Часлав Илић u April 1, 2010 9:58 PM


> Сувишно.

Čak i radi eksperimenta?

Objavio rmarw u April 1, 2010 10:00 PM

> Пологија садржи скриптицу pomtrans, у коју је лако додавати нове моторе за
> машинско превођење (по једна класа, са једним методом који просто добије
> листу текстова, и врати листу преведених текстова).

Проблем је што се тако не користи преводилачка меморија.

Наиме Гуглове алатке за преводиоца дозвољавају отпремање меморије у
ТМИкс формату и речника термина што даје већи значај у односу на Гуглове
речнике и машински превод. На овај начин не добијамо „Чишћење филеа“ већ
„Пражњење датотеке“ у машинском преводу.

Програмом po2tmx сам од ПО збирке порука конструисао меморију коју Гугл
може да учита. Меморија је јавна, под именом „OpenOffice.org сучеље“.

Чини ми се и да је резултат превода бољи када се ради над већим комадима
текста мада то нисам детаљније испитао.

Остало је да поправим скриптице пошто једноструко затворен таг не
могу лепо поуздано да заменим затвореном ИксМЛ ознаком при претварању
натраг у ПО формат. Покушаћу да му прогурам , ваљда ту
ознаку неће склањати и померати у преводу. Алтернатива би била да
користимо ОДТ формат и додатне ознаке, али ко зна шта ће тек ту да уради
са означавањем.


пп,
Горан

Objavio Горан Ракић u April 1, 2010 10:00 PM

Igor Nestorović kaže da mu se ovo sviđa.

Objavio Facebook u April 1, 2010 10:02 PM

> [: rmarw :]
> Čak i radi eksperimenta?

Уу, ја сам увек за експериментисање. Само с којим циљем овде, какве везе има
подршка разних формата?

Ако пак мислиш на „Гуглов преводилачки прибор“ као алатку за рад на преводу
уопште, онда је (додуше само судећи по снимку који си окачио) то очајна
алатка, уз све непогодности које доноси веб сучеље. Ни јаре ни паре.

Objavio Часлав Илић u April 2, 2010 12:29 PM

> [: Goran Rakic :]
> Наиме Гуглове алатке за преводиоца дозвољавају отпремање меморије у ТМИкс
> формату и речника термина што даје већи значај у односу на Гуглове речнике
> и машински превод. [...]

Претпостављам да је притом резултат другачији него при раздвојеној примени
прво преводилачке меморије (евентуално са захтеваним вишим степеном
поклапања од подразумеваног) па потом машинског превода на преосталим
порукама? Тј. да Гугл уноси нешто своје магије у примену преводилачке
меморије, на нивоу издвајања подфраза? Ако је тако…

> Остало је да поправим скриптице [...]

…окачи ти те скриптице негде кад постану довољно употребљиве ;)

Objavio Часлав Илић u April 2, 2010 12:31 PM

Objavite komentar









Zapamti lične podatke i za naredni unos?




Zbog povećane količine SPAM-a u komentarima, prinuđen sam da vas malo maltretiram... Kao što je i očekivano, upišite dve reči sa slike u polje ispod (ako su reči nejasne, kliknite na crvene strelice za novu kombinaciju):



Slanjem komentara odobravate prikazivanje i trajno arhiviranje teksta komentara na ovom blogu uz uslov navođenja unesenog imena autora i zadržavate sva ostala prava i punu odgovornost za objavljeni sadržaj.




GNOME lover
blog.goranrakic.com - Goran Rakić / Горан Ракић
Objavljeno pod uslovima licence Creative Commons Autorstvo 3.0 Srbija.
Sva prava i odgovornost za objavljene komentare zadržavaju njihovi autori.

Creative Commons License