logo.jpgPočetkom avgusta sam premijerno objavio paket za podršku srpskog jezika u programu GNU aspell. Iako mnogi to nisu znali, u međuvremenu sam ispravio neke nedostatke u samoj infrastrukturi paketa, a nije izostao ni rad na kvalitetnijoj listi reči.

Do sada nisam indeksirao srpsku Vikipediju (Odličan projekat, koji se brzo razvija! Čestitke ekipi.) prvenstveno jer sam želeo da tu veću količinu pogodnog teksta ostavim za kasnije doterivanje.

Večeras sam učitao arhivu 20051012_pages_articles.xml. Dokument sadrži oko 3,5 miliona reči od čega do sada nisam imao manje od 50 000 reči, uglavnom pogrešnih. Dakle, manje od 1,5% što je odlična pokrivenost ako se uzme u obzir da srpska Vikipedija pokriva i uzorke tehničkog i naučnog teksta iz različitih oblasti.

Sada imam oko 800 000 reči, koje su pronađene u različitim izvorima sa različitim frekfencijama, gde za oko 250 000 reči mogu sa velikom verovatnoćom tvrditi da su ispravne. Sledeći korak je da pronađem pogodan donji limit broja pojavljianja u preseku različitih izvora kako bih mogao još neke reče označiti kao potencijalno ispravne.

Nadam se da ću uspeti da do kraja sledeće nedelje uspeti da kompletiram novo izdanje rečnika koje bi trebalo biti kompletnije, i što je još važnije - tačnije od prethodnog.

Još jednom da budem dosadan i da pozovem sve koji imaju višak vremena da se jave. Pomoć u kontroli spiska reči mi je više nego potrebna, baš kao i neke fancy ideje kako se neke grupe čestih grešaka u postojećem spisku mogu lako odstraniti (poput suglasničkih promena, latiničnih digrafa, dupliranja slova, slepljenih reči sa izgubljenim samoglasnicima itd…)