Spis treści Artykuł originalny « Poprzedni artykul Nastepny artykul »

Projekt Apertium

Projekto Apertium

Orignał w języku EsperantoMaszynowe tłumaczenie na język polski

Antaŭ kelkaj tagoj unu de programistoj de projekto Apertium sciigis al mi, ke tiu projekto pri maŝina tradukado nun enhavas modulon, kiu tradukas el hispana lingvo al esperanta lingvo. Feliĉe la projekto apartenas al malfermaj projektoj, kiuj naskiĝis kiel universitata projekto. Mi povis senprobleme elŝuti, instali kaj detale trarigardi la projektojn. Tio estas tre ĝojiga afero, ĉar eĉ universitataj projektoj plej ofte estas fermaj kaj formortas. La projekto ekzistas kiel malferma projekto jam 2 jaroj, tamen mi frue ne sciis pri ĝi.

Apertium estas traduka modulo kaj aro de lingvistikaj iloj por malprofunda tradukado inter similaj lingvoj. Malprofunda tradukado signifas, ke la programo ne faras plenan sintaksan analizon de teksto. Tamen tio sufiĉas, ke 90% de frazoj estas tradukitaj bone inter similaj lingvoj. La projekto unue pritraktis la tradukadon inter la lingvoj: kataluna kaj hispana. Tiu tradukado estas nun ankaŭ uzata por maŝina traduko de artikoloj de iu hispana gazeto.

Nun la projekto subtenas multajn lingvajn parojn. Inter alie Hispana al Esperanto, aŭ Angla al Pola lingvo. Mi kalkulis 26 lingvajn parojn. La projekto evoluas tre vigle.

Pri teknikaj aferoj de tiu projekto oni pli bone legu la dokumentojn sur pago kun dokumentaro de projekto. Pli detalajn informojn oni trovas sur vikio de projekto.
La instalado de tiu projekto estas nuntempe eble nur sur Linukso kaj eble nur fare de iom sperta komputisto.
Ekzemple la traduka modulo de hispana al esperanta lingvo troviĝas nur en la SVN-programarkivo (repository). Oni devas mem elŝuti kaj instali en fiksa ordo kelkajn modulojn. La dokumentaro ne estas tre detala, kaj ofte ne plu aktuala. Do mi mem devis trovi, ke oni nun devas uzi la modulojn lttoolbox-unicode kaj apertium-unikode, kiuj havas internajn numerojn 3.0. Oni uzu ankaŭ la programon “apertium” kaj ne “apetium-translation”, kiel tion priskribas malnova dokumentaro. Finfine mi sukcesis kompili kaj lanĉi la tradukadon. Mi ne konas la hispanan lingvon, do mi prenis iun hispanan tekston de la reto kaj tradukis ĝin al esperanta lingvo. La traduko estis komprenebla, tamen ekzistas multaj gramatikaj eraroj. Oni povas mem testi la programon direkte per la interreta interfaco.

Mi estis tre scivolema pri la tekniko de programo. La programo estas farita ĝenerale por multaj lingvoj. Tamen la programistoj plejparte prizorgis romajn lingvojn. Apartium estas programita helpe de C kaj C++. Ĝi uzas ofte la teknikon Finite state machine”. Ĉiuj lingvaj informoj estas unue enskribitaj en XML-formato. Poste la programo kompilas tiujn XML-dosierojn al maŝina formato. Por transformoj estas uzataj priskriboj en XML-formato, kiuj estas kompilitaj per yacc al C-programo. La uzado de programlingvo C/C++ kaj diversaj kompiloloj igas la programon tre rapida. Tre valoraj estas moduloj por morfema analizo kaj fleksio de vortoj. Tio estas tre praktika alveno al tiuj problemoj, kiu estas konata de operaciuma sistemo Unikso. La programo uzas la saman priskribon por ambaŭ taskoj. En la dosiero oni trovas la tutan difinon de esperanta fleksio. Por esperanta lingvo tiu dosiero ne estas sensacia, sed por naciaj lingvoj tiuj datoj estas tre valoraj, ĉar kutime la fleksio de naciaj lingvoj estas tre escepta kaj oni bezonas longan tempon por difini ĝin. La hispana-esperanta vortaro enhavas 12000 vortojn. La formato estas legebla por komutilo. Ekzistas aldonaj informoj pri genro kaj gramatiko. Tre bona laboro kaj vara lingva trezoro!

Laŭ mia nuna pritakso la projekto havas vere la ŝancon iĝi la Linukso de maŝina tradukado. Tion celis ankaŭ la iniciatantoj de tiu projekto. Tio povus sukcesi kaj jam multaj homoj laboras pri aldonaj lingvaj moduloj. Mi ankaŭ iom studis la tradukan modulon de angla lingvo al pola lingvo. Tiuj lingvoj estas tre diferencaj, kaj jam de priskriboj de aŭtoroj de projekto la programo ne estas konstruita por tradukado inter tiel malsamaj lingvoj. Pli bone estus la tradukado inter pola, ĉeĥa, slovaka kaj rusa lingvoj per Apertium. Ŝajne la bezono de tradukado inter pola kaj angla lingvoj estas tiel alta, ke eĉ la malsugestoj de aŭtoroj ne haltigas de evoluo de tiu modulo. Mi tute ne konas la hispanan lingvon, sed mi ankaŭ supozas, ke Esperanto kaj hispana lingvo ne estas idealaj lingvoj por malprofunda tradukado. Mi pensas, ke tiu projekto povus esti bona komenco por aliaj pli profundaj tradukadoj.

Nuntempe por kutima uzanto nur la interreta interfaco estas interesa. En la projekto mem ne ekzistas iu uzula interfaco (GUI). Sed tiu interfaco estas atendata de multaj uzantoj. Se tiu projekto estos daŭre tiel sukcesa, eble iam ekestos modulo por OpenOffice kaj aliaj interfacoj. Tio eble tre helpos al malferma programado de tiaj projektoj. Mi ne scias, ĉu oni povas kurigi la programon sur Vindozo. Mi supozas, ke oni devus adaptigi unue la kompilan sistemon por Vindozo.

La projekto Apertium havas multajn kondiĉojn, por esti sukcesa malferma projekto. Ĝi enhavas tre stabilajn ilojn, kiujn oni povas jam uzi. Hispana universitato subtenas la evoluon. Tio garantias, ke aroj de studentoj devige interesiĝas pri la projekto. La projekto estas jam sukcese uzata en realaj kondiĉoj. La sukceso estas la plej granda magneto de tiuj projektoj.

Przed kilkoma dniami jeden programistów projektu Apertium zawiadamiał do mnie, że ten projekt o maszynowym tłumaczeniu teraz mieści moduł, który tłumaczy z hiszpańskiego języka na esperancki język. Szczęśliwie projekt należy do otwartych projektów, które urodziły się jako uniwersytecki projekt. Mogłem bezproblemowo pobierać plik, zakładać i szczegółowo przejrzeć projekty. To jest bardzo zadowalająca sprawa, ponieważ nawet uniwersyteckie projekty najczęściej są zamknięte i wymierają. Projekt istnieje jako otwarty projekt już 2 lata, jednak wcześnie nie wiedziałem o nim.

Apertium jest modułem tłumaczeniowym i grupą lingwistycznych przyrządów dla płytkiego tłumaczenia pomiędzy podobnymi językami. Płytkie tłumaczenie znaczy, że program nie robi pełnej syntaktycznej analizy tekstu. Jednak to starcza, że 90 % zdań jest przetłumaczonych dobrze pomiędzy podobnymi językami. Projekt po pierwsze zajmował się tłumaczenie pomiędzy językami: kataloński i hiszpański. To tłumaczenie jest teraz także użytkowane dla tłumaczenia maszynowego przez artykuły przez jakąś hiszpańską gazetę.

Teraz projekt podpiera liczne językowe pary. Między innymi Hiszpański do Esperanto, albo Angielski do języka Polskiego. Policzyłem 26 językowych par. Projekt rozwija się bardzo żwawo.

O technicznych sprawach tego projektu lepiej powinno się czytać dokumenty na wypłacie z dokumentacją projektu. Dokładniejsze informacje znajduje się na wikie projektu.
Instalowanie tego projektu jest obecnie przypuszczalnie jedynie na Linuksie i przypuszczalnie jedynie zrobione trochę doświadczonego programisty.
Na przykład moduł tłumaczeniowy od hiszpański do esperanckiego języka znajduje się jedynie w {SVN-programarkivo} (repository). Trzeba samo pobierać plik i zakładać w trwałym ładzie kilka modułów. Dokumentacja nie jest bardzo dokładna, i często więcej nie aktualny. Więc ja sam musiałem znaleźć, że teraz trzeba użytkować moduły {lttoolbox-unicode} i {apertium-unikode}, którzy mają wewnętrzne numery 3.0. Powinno się użytkować także program “{apertium}” i nie “ {apetium-translation}”, jak to opisuje stara dokumentacja. Ostatecznie miałem powodzenie zestawiać i uruchomić tłumaczenie. Nie znam hiszpańskiego języka, więc wziąłem jakiś hiszpański tekst sieci i tłumaczyło jego na esperancki język. Tłumaczenie było zrozumiałe, jednak istnieją liczne gramatyczne omyłki. Można samo testować program w kierunku internetowym interfejsem.

Byłem bardzo ciekawski o technice programu. Program jest zrobiony ogólnie dla licznych języków. Jednak programiści przeważnie dbali o rzymskie języki. Apartium jest wcześniej programowany za pomocą C i C + +. Ono użytkuje często technikę Zakończywszy {state} {machine}”. Wszystkie językowe informacje są po pierwsze wpisane w {XML-formato}. Potem program zestawia te {XML-dosierojn} do formatu maszynowego. Dla transformacji są użytkowane opisy w {XML-formato}, które są wcześniej zestawiane {yacc} do c-programu. Użycie języka programowania C / C + + i rozmaite {kompiloloj} czyni program bardzo szybkie. Bardzo cenne są moduły dla morforlogicznej analizy i fleksji słów. To jest bardzo praktyczny przyjazd do tych problemów, którym jest znany przez {operaciuma} system Unix. Program użytkuje taki samy opis dla obydwóch zadań. W pliku znajduje się całą definicję esperanckiej fleksji. Dla esperanckiego języka ten plik nie jest sensacyjny, lecz dla narodowych języków te daty są bardzo cenne, ponieważ zazwyczaj fleksja narodowych języków jest bardzo pułapkowa i potrzebuje się długi czas aby definiować jego. {hispana-esperanta} słownik mieści 12000 słów. Format jest czytelny dla komutatoru. Istnieją dodatkowe informacje o rodzaju i gramatyce. Bardzo dobra praca i towarowy językowy skarb!

Według mojej obecnej oceny projekt ma naprawdę szansę stać się Linuksem maszynowego tłumaczenia. Do tego dążyli także inicjująci tego projektu. To mogłoby mieć powodzenie i już liczni ludzie pracują nad dodatkowymi językowymi modułami. Także trochę studiowałem moduł tłumaczeniowy angielskiego języka do języka polskiego. Te języki są bardzo różne, i już od opisów autorów projektu program nie jest zbudowany dla tłumaczenia pomiędzy tak odmienne języki. Lepiej byłoby tłumaczenie pomiędzy polskimi, czeskimi, słowackimi i rosyjskimi językami Apertium. Na pozór zapotrzebowanie tłumaczenia pomiędzy polskimi i angielskimi językami jest tak wysokie, że nawet sugestie inaczej autorów nie wstrzymają od rozwoju tego modułu. Całkiem nie znam hiszpańskiego języka, lecz także przypuszczam, że Esperanto i hiszpański język nie są idealnymi językami dla płytkiego tłumaczenia. Myślę, że ten projekt mógłby być dobrym początkiem dla innych głębsze tłumaczenia.

Obecnie dla zwyczajnego użytkownika jedynie internetowy interfejs jest interesujący. W projekcie samym nie istnieje jakiś użytkowniczy interfejs (GUI). Lecz ten interfejs jest czekany przez licznych użytkowników. Jeśli ten projekt będzie nadal tak udany, przypuszczalnie kiedyś powstaje moduł dla {OpenOffice} i inne interfejsy. To przypuszczalnie bardzo pomoże otwartemu programowaniu takich projektów. Nie wiem, czy można strofować program na Windowsie. Przypuszczam, że trzeba by było czynić adaptacyjne po pierwsze {kompilan} system dla Windowsu.

Projekt Apertium ma liczne warunki, dla być udany otwarty projekt. Ono mieści bardzo niezmienne przyrządy, które można już użytkować. Hiszpański uniwersytet podpiera rozwój. To zapewnia, że grupy studentów pod przymusem są zainteresowane o projekcie. Projekt jest już z sukcesem użytkowany w rzeczywistych warunkach. Sukces jest największym magnetem tych projektów.

Artukuł został przetłumaczony w pełni maszynowo przez wolny program Esperantilo
Adres kontaktowy:
mail@xdobry.de