Spis treści Artykuł originalny « Poprzedni artykul Nastepny artykul »

językoznawstwo, esperanto, projekty komputerowe

lingvistiko, esperanto, komputilaj projektoj

Orignał w języku Esperanto	Maszynowe tłumaczenie na język polski
Ideo de maŝina tradukado ekzistas ekde apero de komputiloj. Maŝina tradukado kaj arta penso estis la revo de unuaj programistoj, eble ĉar tiuj temoj estus bone komprenataj por vasta publiko. Tradukado estas malfacila tasko, kiun povas plenumi nur kelkaj homoj post longa lernado. Tial komputilo, kiu tradukas, estus la pruvo por taŭgeco de komputiloj. Ĉiu nun scias, ke ne ekzistas komputiloj, kiuj povas pensi aŭ traduki en nivelo de homoj. Longe post multaj fiaskaj projektoj, en kiuj oni perdis grandan kvanton de mono, eĉ specialistoj pensis, ke programado de tiuj sistemoj ne estas ebla. Historio de komputika lingvistiko bone priskribas la konata dokumento Machine Translation: past, present, future. Ofte eĉ Esperantistoj varbas por Esperanto kun argumento, ke maŝina tradukado ne estas ebla kaj neniam estos ebla. En tiu kazo oni ofte prezentas tre bizarajn frazojn, kiuj nur tre malfacile estas tradukeblaj eĉ por profesiaj tradukistoj. Mi estas certa, ke per similaj argumentoj oni povus ankaŭ pruvi, ke tradukado ĝenerale ne estas ebla. Sed la temo de komputila lingvistiko ne mortis kaj eĉ lastatempe bone progresas. Kvankam ne ekzistas perfektaj tradukaj programoj, la unuopaj eroj de komputila lingvistiko aperas pli kaj pli ofte. Preskaŭ ĉiu uzas nun literumadon en redaktiloj kaj komputilajn vortarojn. Ankaŭ “google” estas ja infano de komputila lingvistiko. Kial fiaskis tiom da projektoj pri maŝina tradukado? Oni povus ĝenerale diri, ke komputilaj projektoj tre ofte fiaskas. La duono de projektoj neniam finiĝas kaj 75% de projektoj ne atingas la celojn. Ili estas pli multekostaj aŭ ne havas la necesajn planitajn funkciojn. La temo de maŝina tradukado havas aldonojn specialajn trajtojn, kiuj eĉ faras tiujn projektojn eĉ pli malfacilajn kaj pli riskajn. Tio estas: Oni havas tre altajn atendojn. Oni volas programojn, kiuj regas multajn lingvojn, tradukas en reala tempo en multaj direktoj kaj povas kompreni diritajn vortojn kaj mem paroli. Oni bezonas multajn specialistojn de diversaj kampoj La baza lingvistika teorio, kiu estas praktike taŭga, ne ekzistis. La historiaj teorioj ne estis taŭgaj por multaj kazoj. Lingvistikaj programaj postulas grandajn necesojn al komputiloj. Ĝis 1980 komputiloj ne estas taŭgaj por lingvistiko, ĉar ili ne havis necesan rapidecon kaj memoron. La haveblaj komputiloj en frua tempo estis tro multekostaj. Oni pripensu, ke eĉ baza vortaro havas 50000 vortojn. Prilabori, traserĉi aŭ redakti tiun kvanton de informoj estas por tiamaj komputiloj tre malfacila tasko. La projektoj preskaŭ ĉiam komencis de nulo. Lingvistoj nenion sciis pri komputiloj, programistoj nenion sciis pri lingvistiko. Oni devus skribi programojn kaj solvi bazajn teknikajn defiojn. Lingvistoj devis krei taŭgajn teoriojn. Ĉiu profesia projekto havas nur limigitan kvanton da rimedoj. La unua limo estas tempo. Oni devas havi rezultojn post unu aŭ du jaroj. Post tiu tempo la membroj de projekto komencas iom komprenis pri la temo de projekto. Tiuj projektoj estis tro grandaj. Organizado de grandaj projektoj estas eĉ pli komplika ol la temo de projektoj. La respondeculoj ofte pensas, ke ĉiu problemo estas solvebla per aldonaj partoprenantoj de projekto. Konata programista anekdoto diras, ke laŭ tiu pensmaniero oni povus konstati: Por havi unu novan homon oni necesus unu virinon kaj 9 monatojn da tempo. Oni povus duonigi la tempon havante du virinojn. Ne ekzistis komputilaj materialoj, kiujn oni povis uzi de komenco. Mi pensas, ke la unua problemo estas, ke la projektoj volis sole atingi ĉion. Oni ne provis dividi la taskon en multaj kampoj. Kvankam projektoj fiaskas, ili ofte lasas multajn rezultojn aŭ eĉ solvojn de unuopaj problemoj. Sed por monaj kaŭzoj estas ofte maleble transdoni tiujn rezultojn al sekvaj projektoj. Do multaj rezultoj malaperas en arkivoj por ĉiam. La projektoj malaperas, kvazaŭ ili neniam estis. En plej bona kazo restas de tiuj projektoj malgranda raporto aŭ scienca laboraĵo, sed vortaroj aŭ programa kodo, ĉio ĉi malaperas por ĉiam. La unuaj projektoj estis pagitaj de militaj fortoj, ĉar ili bezonis maŝinan tradukadon por spionado de aliaj landoj. Tial la rezultoj de tiuj projektoj estis ŝtataj sekretoj. En universitatoj, kiuj ankaŭ havis lingvistikajn projektojn, oni uzis por projektoj studentojn, kiuj ne estas bonaj spertaj programistoj kaj ofte forlasis la projekton post unu aŭ du jaroj. Tio estas tro mallonga periodo por efike produkti uzeblajn rezultojn. Komercaj projektoj fiaskis miaopinie precipe por kazo de mallonga tempo. Komercistoj pensas precipe nur en unujaraj periodoj de librotenado. Ĝis nun preskaŭ ne ekzistas merkato por partoj de solvoj de komputiko. Tiu kampo de komerca programado laboras laŭ maniero ĉio aŭ nenio. Ĉu iu memoras pri sistemoj kiel Amiga OS, OS/2 aŭ diversaj aliaj programoj, kiuj por ĉiam malaperis, kvankam ĝi rulis bone kaj estis uzeblaj. Ĝis antaŭ mallonga tempo ŝajnis, ke en tiu komerca kampo povas esti nur unu gajninto. Tio estas aŭ IBM aŭ MS. Sed nun ekzistas alia komputila mondo de liberaj programoj. Do estas eble ruli la tutan sistemon nur per libera programaro. Lingvistikaj projektoj. Ĉu problemo de interkomunikado? Programistoj kaj lingvistoj devenas el tute aliaj kampoj de scienco. Ili havis alian manieron solvi la problemojn. Mi pensas, ke malbona kunlaboro inter lingvistoj kaj programistoj estas ankaŭ granda kaŭzo de malsukcesoj. Programistoj devenas de scienca kampo de matematiko. Ili serĉis laŭ matematika maniero la mallongan precizan formulon, kiu estas vera por ĉiu kazo. La akademia teorio de lingvistiko estas plena da logikaj formuloj, kiuj preskaŭ malestas en praktika uzo. La naturajn lingvojn oni ne povas priskribi per simplaj formuloj. En komputilaj projektoj oni kutime havas du grupojn de homoj. La unua grupo estas tiel nomataj teknikaj fakuloj. Tio estas programistoj. Alia grupo estas fakaj specialistoj, kiuj scias iom pri temo de projekto. La sukceso de projekto dependas ofte de ebleco de lernado de du grupoj unu de alia. Programistoj devas lerni de fakuloj kaj fakuloj devas lerni de programistoj. Lingvistoj devenas de humanecaj sciencoj, simile al filozofio aŭ literaturo. Por ili lingvo estis historie io sakra, io magia, io, kion oni ne nepre devas logike kompreni. Lingvistoj pritraktas lingvojn kun preskaŭ religia maniero. Ili akceptas misterojn kaj nelogikajn esprimojn. Ili ne pruvas. Ili ŝategas debati pri kuriozaĵoj. La argumento de aŭtoritato estas pli grava ol logika pruvo. Lingvistikaj teorioj estis do frue tute maltaŭgaj por programistoj, kiuj devas ja liveri pragmatikajn kaj praktikajn rezultojn. Mi pensas, ke nova generacio de lingvistoj iom post iom lernas uzi sciencajn metodojn en lingvistiko. Ili uzas statistikon, pruvas la rezultojn sur grandaj tekstaroj. Ili lernis ordigi la teorion laŭ ofteco de uzebleco. Kuriozaĵoj ne plu rolas gravan rolon en teorioj. Ili eĉ lernis uzi la komputilon kaj permesas al la aliaj tuŝi ilian sakran lingvon. Sed ankaŭ la sinteno de programistoj kun rigida matematika fundo estas malutila por lingvistikaj projektoj. Bonan priskribon de takso de programado donas al ni Kulturaj aspektoj de komputil-programado. Programistoj atendis de natura lingvo similajn trajtojn, kiel ili tion konas de programaj lingvoj. Pritrakti naturajn lingvojn estas unue la arto administri esceptojn. Tial oni ne povas atenti iun formulon, kiu priskribas ĉiujn fenomenojn de lingvo. La kutimaj problemoj, kiujn frontas programistoj, estas ankaŭ aliaj ol tiuj de lingvistiko. Kutime rezultoj de programoj devas esti tre certaj. Oni pripensu komputilaj sistemoj, kiuj de multaj jaroj laboras en bankoj aŭ en komerco. Komputiloj regulas multajn sistemojn. Ili konservas grandajn datumojn. Ili devas esti sekuraj kaj certaj. En lingvistiko, la problemoj estas ofte ne certaj. La problemoj havas statistikan naturon. En komputiko, ĉiu esprimo estas aŭ vera aŭ malvera. Naturaj lingvoj ne havas tiujn trajtojn. Tial lingvistikaj programoj devas prilabori datojn, kiuj enhavas erarojn, kiuj ne estas tute analizeblaj. Rezultojn de maŝina tradukado oni nur malfacile povas pritaksi, ĉar eĉ tradukoj de homoj estas diskuteblaj. Ne ekzistas objektiva mezuro de kvalito de tradukado. Natura lingvo sekvas la statistikajn principojn de naturaj fenomenoj. Ekzemple oni povas kun 10 simplaj reguloj bone priskribi 80% de tekstojn, por restajn 10% oni bezonus 20 regulojn, kaj por lastaj 10% de tekstoj oni bezonus tute alian teorion kaj por multaj homoj tiuj frazoj estus diskutindaj rilate al ilia korekteco. Tiu fenomeno estas konata sur la nomo principo de Pareto Komputila lingvistiko en nuna Stato Lingvistoj kaj programistoj multe lernis de fruaj malsukcesoj. La nunaj sciencaj laboraĵoj havas altan praktikan taŭgecon. Ekzistas sukcesaj projektoj, kiuj pritraktas nur unu limigitan kampon de lingvistiko. Aliaj projektoj povas uzi la rezulton de aliaj projektoj. Por tio pli grava estas ankaŭ la libera programado, kiu sen monaj komplikaĵoj permesas uzi fruajn rezultojn de aliaj projektoj. La GPL permesilo garantias, ke la laboro de homoj iĝas parto de homa heredaĵo kaj ne malaperas en iu tirkesto. Tiu laboro ne povas esti ankaŭ misuzata de komercaj firmaoj. Sed ĉiam ekzistas danĝero, ke grandaj komercaj fortoj, kiuj por iĝi pli granda uzas iliajn plej danĝeraj armilojn, tio estas advokatoj, por malpermesi al aliaj ian aktivadon kaj pensadon. La plej malnobla kaj malverplena ilo en monoj de advokatoj estas softvaraj patentoj. Malkontentiga estas ankaŭ komercigo de universitataj projektoj. Kvankam multaj universitataj projektoj estas financitaj de publika mono, kiu devenas ja de niaj impostoj, la rezultoj de tiuj esploroj ne estas libere atingeblaj. Do por angla lingvo ekzistas la libera semantika mapo de vortoj WordNet, sed la simila projekto por eŭropaj lingvoj EuroNet estas atingebla nur je granda prezo. Multaj universitatoj kunlaboras en tiu kampo kaj interŝanĝas la rezultojn de iliaj esploroj senpage, sed tio ja signifus, ke nur universitatoj rajtas esplori science laŭ sciencaj principoj, laŭ kiuj ja la scienca kono estas publika bono. Fine tiu komercigita scienco helpus al neniu kaj rezultoj, kiuj ne estas atingeblaj en vero ne ekzistas. Kompreno de aŭtoraj rajtoj ĉe lingvistikaj fontoj povus esti malfacila problemo por komputila lingvistiko. Ĝenerale lingvo ne apartenas al iu speciala ulo. Zamenhofo ankaŭ igis Esperanton publika bono kaj li rezignis pri aŭtoraj rajtoj de Esperanto. Sed tio ne estas certa afero ĉe vortaroj. Vortaro estas unue la propraĵo de eldonejo. Ĉu vorto, kiu aperas en vortaro iĝas aŭtomate propraĵo de eldonejo. Ĉu iu frazo, aŭ iu speciala uzo de vorto estas propraĵo de aŭtoro de tiu frazo. Por eviti tiujn problemojn mi nur uzas liberajn fontojn kiel REVO ĉe mia programado. Povus esti, ke aliaj fontoj estas pli bonaj, sed uzo de tiuj fontoj estas malrekomendinda. Ni pripensu do la situacion. Mi korektis la internan vortaron en programo laŭ priskribo de profesia vortaro en tradicia libra formo, kiun mi aĉetis je normala prezo. Ĉe unu vorto tio ja ne estas problemo, sed se mi tion faris ĉe 100 aŭ 1000 vortoj, mi povas havi problemojn, ĉar iu povas akuzi min, ke mi ŝtelis la parton de vortaro. Tiu povos esti tre granda problemo ĉe Esperanto, ĉar tiu lingvo estas nova kaj konstruita, kontraŭe al naciaj lingvoj oni povus trovi la kreinto de iu vorto, frazo kaj speciala gramatika uzo. Mi esperas, ke mi ne havos tiun problemon, ĉar nek la programo nek Esperanto iĝos tiel popularaj, ke iuj komercistoj havos interesojn financi advokatojn por malkonstrui tiun projekton. Eble pro normalaj uloj tio ĝenerale ŝajnas tre malebla afero, sed tio bedaŭrinde ofte okazas ĉe programado. Ekestis tamen pozitivaj aferoj. Multaj komercaj firmaoj publikigas la rezultojn de ilia laboro laŭ GPL permesilo. Ekzemple tre konata programlingvo JAVA iĝis lastatempe la parto de libera programaro. Memkompreneble, la firmaoj faras tion en situacio, kiam ili ne povas venki la komercan konkuranton kaj per tiu paŝo, ili volas minimume malfortigi la konkuranton. Sed firmaoj ankaŭ rimarkis, ke malfermo de projektoj pozitive influas la projektojn kaj tamen lasas al ili la eblojn perlabori monon per aldonaj servoj. Ankaŭ granda lingvistika projekto Open Logos iĝis malferma. Tio estas tre kontentiga afero, ĉar fontoj, kiuj unue iĝas parto de libera programado ne povas esti enproprigitaj de iu, do ili fariĝas la parto de homeca heredo. Nun ekzistas multaj fontoj en interreto, de kiu oni povas elĉerpi la scion pri lingvistiko. Okulfrape estas, ke precipe nur pro angla lingvo ekzistas kompleta oferto de solvoj. Malfeliĉe angla lingvo estas la lingvo, kiu apartenas de komputila vidpunkto al la plej malfacila lingvo por komputila pritraktado. Tial la progreso estas tre malrapida. Tre kontentiga por mi estas la fakto, ke ankaŭ por pola kaj germana lingvo aperas bonaj fontoj. (pola gramatiko, Germana vortaro de sinonimoj) Ili estas ofte publikigaj de hobiuloj, sed kun bona kvalito. Por grandaj lingvoj oni nun povus konstrui fortan sistemon de partoj, kiuj nun ekzistas. Programistoj scias, ke intergluo de moduloj, kiuj uzas diferencajn komputilajn teknikojn estas ofte tre malfacila tasko. Tial oni ne atendu rapidan progreson. En komerca kampo ekzistas firmaoj, kiuj sukcesas vendi lingvistajn programojn al profesiaj tradukistoj je granda prezo. Kvankam profesiaj tradukistoj estas ofte plej grandaj kritikistoj de ideo de maŝina tradukado, ili mem ofte uzas tiujn programojn. Mi miras, ke ĝis nun oni pagas por tradukoj je tradukita vorto, kvankam ofte por kutimaj dokumentoj, la tradukistoj havas ja ŝablonojn kun preta tradukado sur iliaj komputiloj kaj ĉe “tradukado” ili devas enskribi nur kelkajn nomojn kaj datojn. La profesia tradukado de oficialaj dokumentoj estas fabriko de mono, kaj tiuj homoj faros ĉion por longe havi tiun fonton de facila mono. Oni ne esperu, ke profesiaj programoj aperas iam por Esperanto. Ne ekzistas oficialaj dokumentoj en Esperanto, kiujn oni devus traduki, do la neceso de tiuj programoj preskaŭ ne ekzistas. Nun nur kelkaj grandaj lingvoj estas entute pritraktataj de tiuj programoj. Esperanto en komputila lingvistiko Oni ofte parolas en Esperantujo pri taŭgeco de Esperanto por lingvistika komputiko. Tamen la rezultoj estas mizeraj. La principa kaŭzo de tio estas, ke projektoj, kiuj estas pagitaj de naciaj fontoj, ne volas subteni ne nacian lingvon. Esperanto povis ja ŝteliri en tiujn projektojn kiel interlingvo, sed verdire Esperanto ne estas el teknika vidpunkto bona interlingvo (legu). Mi ne pensas, ke tio ofte reokazos en la venonta tempo. Sed ekzistas projektoj en alia direkto, kiuj estas subtenataj de esperantista medio. Por mi la gravaj projektoj estas REVO, Tekstaro kaj PMEG. Esperanta vikipedio estas ankaŭ grava. Oni devas konstati, ke Esperanto konkurencas kun aliaj lingvoj en tiu kampo. Se oni komencas lingvistikan projekton, oni pritraktas, kiuj fontoj kaj solvoj estas nun uzeblaj kaj pretaj. En la unua flanko Esperanto promesas esti pli facila, en la dua flanko aliaj lingvoj (principe angla lingvo) havas pli da pretaj solvoj kaj fontoj. Mi pensas, ke ankaŭ en tiu kampo Esperanto jam malvenkis kun angla lingvo. Unue nun ĉiu programisto konas jam anglan lingvon, ĉar sen angla lingvo si ne sukcesis iĝi programisto. Due, kiu volas lerni novan kaj malofte uzatan lingvon de malgranda grupo por eksperimenti kun ĝi? Oni faras tion nur pro hobia intereso aŭ por lernado. La facileco de Esperanto ne povas konkeri la vastan aperon de angla lingvo en komputila lingvistiko. Mi pensas, ke nun la unua ŝanco per ia estado de Esperanto en komputila lingvistiko estas hobiaj projektoj kaj libera programado. En tiu situacio estas grave, ke ĉiuj fontoj estas publikigitaj laŭ libera permesilo. Libera programado kaj komputila lingvistiko Libera programado havis kelkajn sukcesojn en sia historio. La plej granda sukceso estas la libera mastruma sistemo linukso. Nun estas eble uzi komputilon, kiu rulas nur liberajn programojn. Tiuj programoj estas eĉ tiel grande sukcesaj, ke komercaj firmaoj, interesiĝas pri tiuj projektoj, kaj ne programistoj uzas tiujn programojn. Ĝis nun liberaj programoj estas skribitaj plejofte de programistoj por programistoj. Ili programis mastrumajn sistemojn, redaktilojn, programajn ilojn por sia ĉiutaga laboro. La natura lingvo estas por programistoj ne tre interesa. Tamen restas iama revo de fruaj programistoj programi komputilon, kiu pensas kaj kiu tradukas. La defio de maŝina tradukado estas do interesa kaj konata por programistoj. Ĝis nun aperis jam kelkaj projektoj, kiuj aŭ rapide mortis aŭ ne estas aktive pluevoluigita (Traduki, Linguaphile, Translato). Tio estas normala afero. Plej ofte programistoj ne estas pretaj sole kaj por longa tempo prilabori unu temon. Ĉar ekestas tre multa kvanto de liberaj projektoj, oni nur tre malfacile povas trovi uzantojn kaj helpantojn. Ŝanco, ke iu projekto travivos la tempon de intereso de la unua aŭtoro estas tre malgranda. Komputilaj projektoj necesas kutime kelkajn jarojn de maturiĝo. Tiu longa tempo estas necesa ĵus por lingvistikaj projektoj, ĉar en tiu tempo oni devas lerni vastan teorion. La maturiĝoestas ankaŭ necesa post reagoj de uzantoj. Estas tre malfacila afero programi programon, kiu estas facile uzebla. Por programistoj, iliaj propraj programoj estas ĉiam facilaj, tial ili nur malfacile rimarkas malfacilaĵojn pri uzebleco de programoj. Projekto “Esperantilo” Kiam mi komencis programi la unuajn liniojn de kodo por Esperantilo, mi neniam pensis, ke post du jaroj mi programos maŝinan tradukadon kaj pensos pri sintaksa analizo. Mi volis nur havi simplan redaktilon por vindozo kaj linukso, per kiu sen peniga instalado oni povas skribi tiujn strangajn esperantajn literojn. Poste mi pensis pri literumado kaj gramatika korektado, ĉar mi ĉiam forgesis la akuzativon. Mi skribis la programon unue por mi mem. Poste mi legis multe pri maŝina tradukado kaj ĝenerale pri komputila lingvistiko. Mi rimarkis, ke aŭtoroj ne estis bonaj programistoj, kaj ke ili tute ne konas novajn teknikojn de programado. En tiama tempo mi okupiĝis pri nova programa lingvo XOTcl kaj programada medio XOTclIDE, kiun mi antaŭe mem programis. Mi serĉis temon por pruvi la taŭgecon de tiu lingvo kaj programa medio. En miaj fruaj spertoj mi rimarkis, ke tiu programa lingvo permesas al mi pli efikan programadon. Mi ankaŭ trovis en interreto kelkajn materialojn pri Esperanto. Esperanton mi lernis frue tute hazarde de mia kolego kaj mi eĉ partoprenis la lokan kurson en urbo Essen. Mi ne iĝis membro de iu esperanta asocio. Mi trovis tre viglan REVO, MPEG kaj Tekstaron. Do mi ne devis komenci de nulo. Mi havis fontojn, kiujn mi povis uzi. Mi ankaŭ informis min pri similaj projektoj kaj ofte traserĉis la reton. Mi ne havas grandajn celojn kaj planojn, sed mi provis aldoni novajn funkciojn, kaj se ili funkcias, mi programas plu. Ĉar mi sciis, ke la risko, ke mi ne sukcesos, estas tre granda, mi de komenco elektis kelkajn strategiojn por malaltigi tiun riskon. Mia programa metodo estas grande influata de tiel nomata Extrame Programming, kiun mi konis de programlingvo Smalltalk. La programa medio ebligas tiel nomatan interaktivan programadon. Laŭ tiu metodo oni povas ŝanĝi programon, kiu samtempe rulas. Tio estas tre helpema ĉe lingvistikaj programoj kaj tio instigas al eksperimentoj. Unue mi limigis la plej forajn celojn al tiuj, kiuj mi mem povas iam atingi. Do mi volis elpensi novan lingvon aŭ konstrui tute novan teknikon. Due mi difinis por mi kelkajn strategiojn: La programo celas nur traduki de Esperanto kaj prilabori nur Esperantan lingvon. La celaj lingvoj estas lingvoj, kiujn mi mem konas. Mi ne kalkulas je helpo de aliaj je moto: “mi komencis ion kaj la aliaj tion finigis”. Mi uzas jam konatajn teknikojn kaj teoriojn. Ĉar mi ne estas lingvisto mi ne volas eklabori novan sciencajn teoriojn. Se tio estas ebla, mi uzas pretajn liberajn solvojn. Mi koncentriĝis pri specialaj esperantaj temoj, ĉar estas ne verŝajne, ke aliaj tiun faris. La programo ĉiam devus esti uzebla por iu takso kaj liveri rezultojn. Poste la celo estas plibonigi la rezultojn. Mi celas evoluan progreson. Mi ne volis, ke la programo estas uzebla nur post kelkaj jaroj. Mi publikiĝas samtempe ĉiujn rezultojn: vortarojn, fontan kodon, testajn frazojn. Mi unue faras taskojn, kiujn nur mi mem povas fari. Do mi programas, sed mi uzas pretajn vortarojn. Mi mem ne kompletiĝas la vortarojn, ĉar tio povas fari poste aliaj. Mi plibonigas la vortarojn nur ĉe evidentaj eraroj. Mi serĉas la dialogon kun uzantoj laŭ la maniero de libera programado. Mi ne kunligas kun la programo iujn komercajn planojn kaj mi evitas ligojn kun komercaj medioj. Esperantilo estas eksperimento, la programado povus ĉiam finiĝi, ekzemple ĉar mi ne vidus ŝancojn por plua evoluo aŭ mi ne plu ĝojus la programadon. Tial mi volas sekurigi la rezultojn de tiu projekto. Mi publikigas ĉiujn fontojn kaj vortarojn. Sekvaj projektoj povus tiujn fontojn uzi. Mi ankaŭ skribas tiun blogon por dokumenti la laboron. Ankaŭ, se la projekto estas hobia kaj malperfekta, ĝi povas esti fonto por kritiko kaj por komparo kun sekvaj projektoj. Homoj sugestis al mi, ke tiu projekto estas tro ambicia, por hobia projekto de unu homo. Jes, mi certe tute same pritraktis tiun projekton frue, se iu donis al mi la planon programi ĝin. Sed nun mi jam pruvis por mi mem, ke estas eble pli ol mi tion pensis frue. Certe tio ne estas pruvo, ke la projekto progresas en simila tempo poste. En tiu projekto oni do ne pritaksu planojn sed faktojn. Kaj faktoj ne povas esti ambiciaj, ili estas veraj aŭ malveraj. Mi skribas tion, ĉar mi spertas, ke ofte eĉ uzantoj, kiuj iomete uzis la programon, ne raportas erarojn, ĉar ili pensas, ke la projekto ne havas ŝancon de pluevoluo. Mi ankaŭ ne estas naiva programisto pri libera programado, ĉar mi havas longan sperton en tiu medio. Fakto estas, ke plej granda parto de projektoj vivas de unu persono, do mi devas fari ĉion sole. Programistoj, kiuj ĵus skribis kelkajn liniojn kaj poste varbas por aliaj programistojn devas seniluziigi, se ili esperas je granda helpo. La motivoj de programistoj de libera programado estas diferencaj, pura helpemo estas tre malofta. Oni certe ne povas kalkuli je helpemo de profesiuloj, ĉar ili vivtenas sin per ilia profesieco. Ankaŭ oni ne kalkulu je preciza kritiko, tio ankaŭ estus ja ia helpo. En tiu tempo mi ankaŭ lernis multon kaj devis adapti miajn fruajn atendojn. Unue mi devis konstati, ke Esperanto estas natura lingvo kaj ne tre diferenca de aliaj naturaj lingvoj. Ekzistas kampoj en Esperanto, kiuj estas same komplikaj kiel en aliaj lingvoj. Do la facileco de Esperanto estas nur limigita en ceteraj kampoj. Due mi rimarkis, ke la teorio de Esperanto ne estas fiksa. Ekzistas multaj diferencaj teorioj pri tiu lingvo kaj estas malfacile trovi klarajn respondojn pri detaloj. Ankaŭ la fontoj, kiuj estas atingeblaj en TTT, ne estas kompletaj. Mi devis do ofte prilabori bazajn fontojn kiel vortaroj. Ĉar Esperanto estas tre nova lingvo kaj forte evoluas, ne ekzistas fiksa maniero de ĝia uzo. Esperantistoj ofte imitas sian gepatran lingvon. Tial la sintaksa analizo estas granda defio. La tre efika vortfarado en Esperanto malfaciligas samgrade la maŝinan tradukadon. Multaj statistikaj teknikoj de maŝina tradukado ne aplikebla por Esperanto, ĉar en tiu lingvo mankas sufiĉe grandaj paralelaj tekstoj (Tekstoj en du aŭ pluraj lingvoj). Sed tio estas ja normala prezo de naiva kaj hobia komenco. La reagoj de uzantoj kaŭzas ofte pli da labore ol helpo. Sed ili estas necesaj kaj mi ĉiam respondas je leteroj de uzantoj kaj interesantoj. Mi ĝojas ĉiam pri la reagoj kaj mi povas diri, ke ĉiu, kiu skribas al mi, partoprenas en la projekto. Tiu blogo estas ankaŭ por mi la ilo por malplialtigi la laboron kun reagoj de uzantoj. Mi povos ja nun ofte respondi: Bonvolu legi la blogon kun numero tiu kaj tiu. Mia espero estas ankaŭ, ke aliaj programistoj malkaŝas por si mem, ke komputila lingvistiko ne estas tial senespere komplika kampo, kiel oni tion edukas.	Pomysł tłumaczenia maszynowego istnieje z początku pojawienia się komputerów. Tłumaczenie maszynowe i sztuczna myśl były marzeniem pierwszych programistów, przypuszczalnie, ponieważ te tematy byłyby dobrze rozumiane dla rozległej publiczności. Tłumaczenie jest trudnym zadaniem, które mógą załatwiać jedynie kilku ludzi po długiej nauce. Dlatego komputer, który tłumaczy, byłby dowodem dla zdatności komputerów. Każdy teraz wie, że nie istnieją komputery, które mógą myśleć albo tłumaczyć w poziomie od ludzi. Długo po licznych {fiaskaj} projektach, w których zgubiono dużą ilość pieniędzy, nawet specjaliści myśleli, że programowanie tych systemów nie jest możliwe. Historia językoznawstwa informatycznego dobrze opisuje znany dokument {Machine} {Translation}: past, present, future. Często nawet Esperantyści werbują dla Esperanto z argumentem, że tłumaczenie maszynowe nie jest możliwe i nigdy nie będzie możliwe. W tym przypadku często prezentuje się bardzo ekscentryczne zdania, które jedynie bardzo trudno są możliwe do tłumaczenia nawet dla zawodowych tłumaczy. Jestem pewny, że podobnymi argumentami można by było także dowieść, że tłumaczenie ogólnie nie jest możliwe. Lecz temat komputerowego językoznawstwa nie zmarł i nawet ostatnio dobrze robi postępy. Aczkolwiek nie istnieją perferkcyjne programy tłumaczeniowe, pojedyncze odrobiny komputerowego językoznawstwa pojawiają się coraz częściej. Nieomal każdy użytkuje teraz korektę ortograficzną w edytorach tekstu i słowniki komputerowe. Także “{google}” jest wszakże dziecko językoznawstwa komputerowego. Dlaczego spełzło na niczym tyle projektów o tłumaczeniu maszynowym? Można by było ogólnie powiedzieć, że projekty komputerowe bardzo często spełzną na niczym. Połowa projektów nigdy nie skończy się i 75 % projektów nie osiąga celów. Oni są kosztowniejsi albo nie mają koniecznych zaplanowanych funkcji. Temat maszynowego tłumaczenia ma domiary specjalne cechy, które nawet robią te projekty nawet trudniejsze i niebezpieczniejsze. To jest: Ma się bardzo wysokie oczekiwania. Chce się programy, które władają licznymi językami, tłumaczy się w rzeczywistym czasie w licznych kierunkach i można rozumieć powiane słowa i sami mówić. Potrzebuje się licznych specjalistów rozmaitych zakresów Kluczowa lingwistyczna teoria, która jest w praktyce zdatna, nie istniała. Historyczne teorie nie były zdatne dla licznych przypadków. Lingwistyczni programowi wymaga duże konieczności do komputerów. Do 1980 komputery nie są zdatne dla językoznawstwa, ponieważ oni nie mieli koniecznej prędkości i pamięci. Osiągalne komputery we wczesnym czasie były zbyt kosztowne. Powinno się przemyśleć, że nawet kluczowy słownik ma 50000 słów. Przetwarzać, przeszukać albo redagować tą ilość informacji jest dla ówczesnych komputerów bardzo trudne zadanie. Projekty nieomal zawsze zaczynały od zera. Lingwiści nic nie wiedzieli o komputerach, programiści nic nie wiedzieli o językoznawstwie. Trzeba by było pisać programy i rozwiązywać kluczowe techniczne wyzwania. Lingwiści musieli stworzyć zdatne teorie. Każdy zawodowy projekt ma jedynie ograniczoną ilość sposobów. Pierwsza granica jest czasem. Trzeba mieć wyniki po jednym albo dwóch latach. Po tym czasie członkowie projektu zaczynają trochę rozumieli o temacie projektu. Te projekty były zbyt duże. Organizacja dużych projektów jest nawet więcej skomplikowana aniżeli temat projektów. Odpowiedzialni często myślą, że każdy problem jest rozpuszczalny dodatkowymi uczestnikami projektu. Znana {programista} anegdota mówi, że według ten tryb myślenia można by było stwierdzać: Aby mieć jednym nowego człowieka byłoby się potrzebny jedną kobietę i 9 miesięcy czasu. Można by było rozdwajać czas mając dwie kobiety. Nie istniały tworzywa komputerowe, które można było użytkować od początku. Myślę, że pierwszy problem jest, że projekty chciały jedynie osiągnąć wszystko. Nie próbowano podzielić zadanie w licznych zakresach. Aczkolwiek projekty spełzną na niczym, oni często pozwalają liczne wyniki albo nawet rozwiązania pojedynczych problemów. Lecz dla powodów pieniężnych jest często przypuszczalnie inaczej zdawać te wyniki do kolejnych projektów. Więc liczne wyniki znikają w archiwach na zawsze. Projekty znikają, jakby oni nigdy nie byli. W najbardziej dobrym przypadku zostaje od tych projektów małe sprawozdanie albo naukowe urządzenie, lecz słowniki albo prawodawstwo programowe, to wszystko znika na zawsze. Pierwsze projekty zostały zapłacone przez wojenne siły, ponieważ oni potrzebowali tłumaczenie maszynowe dla szpiegostwa innych krajów. Dlatego wyniki tych projektów były państwowymi sekretami. W uniwersytetach, które także miały lingwistyczne projekty, użytkowano dla projektów studentów, którymi nie są dobrzy doświadczoni programiści i często porzucali projekt po jednym albo dwóch latach. To jest zbyt krótki okres aby skutecznie produkować zdatne wyniki. Handlowe projekty spełzły na niczym według mojej opinii przede wszystkim dla przypadku krótkiego czasu. Handlarze myślą przede wszystkim jedynie w jednorocznych okresach księgowości. Do teraz nieomal nie istnieje rynek dla części rozwiązań informatyki. Ten zakres handlowego programowania nie pracuje według sposób wszystko albo nic. Czy ktoś pamięta o systemach jako {Amiga} OS, OS / 2 albo rozmaite inne programy, które na zawsze znikały, aczkolwiek ono toczyły dobrze i były zdatne. Do przed krótkim czasem wydawało się, że w tym handlowym zakresie może być jedynie jedne zdobywcą. To jest albo IBM albo MS. Lecz teraz istnieje inny świat komputerowy wolnych programów. Więc jest przypuszczalnie toczyć cały system jedynie wolnym oprogramowaniem. Lingwistyczne projekty. Czy problem interkomunikacji? Programiści i lingwiści pochodzą z całkiem innych zakresów wiedzy. Oni mieli inny sposób rozwiązywać problemy. Myślę, że zła współpraca pomiędzy lingwistami i programistami jest także dużym powodem niepowodzeń. Programiści pochodzą z naukowego zakresu matematyki. Oni szukali według sposób matematyczny krótkiego dokładnego przepis, który jest prawdziwy dla każdego przypadku. Teoria akademicka językoznawstwa jest pełna logicznych przepisów, które nieomal są inaczej w praktycznym użyciu. Naturalnych języków nie można opisać prostymi przepisami. W projektach komputerowych zazwyczaj ma się dwie grupy ludzi. Pierwsza grupa jest tak zwanymi technicznymi specjalistami. To są programiści. Inna grupa jest naukowymi specjalistami, którzy wiedzą trochę o temacie projektu. Sukces projektu zależy często od możliwości nauki dwóch grup jeden od drugim. Programiści muszą uczyć się od specjalistów i specjaliści muszą uczyć się od programistów. Lingwiści pochodzą z ludzkich wiedz, podobnie do filozofi albo literatury. Dla nich język był historycznie czymś {sakra}, coś magiczne, coś, co nie koniecznie trzeba logicznie rozumieć. Lingwiści zajmują się języki z nieomal pobożnym sposobem. Oni akceptują misteria i nielogiczne wyrażenia. Oni nie udowadniają. Oni lubią oficjalnie dyskutować o osobliwościach. Argument autorytetu jest ważniejszy aniżeli logiczny dowód. Lingwistyczne teorie były więc wcześnie całkiem zdatne inaczej dla programistów, którzy muszą wszakże wydać pragmatyczne i praktyczne wyniki. Myślę, że nowe pokolenie lingwistów krok po kroku uczy się użytkować naukowe metody w językoznawstwie. Oni użytkują statystykę, udowadniają wyniki na dużych grupach tekstów. Oni uczyli się segregować teorię według częstość użyteczności. Osobliwości więcej nie grają rolę ważną rolę w teoriach. Oni nawet uczyli się użytkować komputer i zezwalają do innych dotykać ich {sakran} język. Lecz także stosunek programistów ze sztywną matematyczną głębią jest szkodliwy dla lingwistycznych projektów. Dobry opis taksy programowania dają nam Kulturowe aspekty komputerowego programowania. Programiści czekali od naturalnego języka na podobne cechy, jak oni to znają od programowych języków. Zajmować się naturalne języki jest po pierwsze sztuka zarządzać wyjątki. Dlatego nie można zważać jakiś przepis, który opisuje wszystkie zjawiska języka. Zwyczajne problemy, z którymi spotykają się programiści, są także inne aniżeli ci językoznawstwa. Zazwyczaj wyniki programów muszą być bardzo pewne. Powinno się przemyśleć systemy komputerowe, które licznych lat pracują w bankach albo w handele. Komputery nastawiają liczne systemy. Oni przechowują duże danie. Oni muszą być bezpieczni i pewni. W językoznawstwie, problemy są często nie pewne. Problemy mają statystyczną przyrodę. W informatyce, każde wyrażenie jest albo prawdziwe albo fałszywe. Naturalne języki nie mają tych cech. Dlatego lingwistyczne programy muszą przetwarzać daty, które mieszczą omyłki,, które nie są całkiem możliwe do analizy. Wyniki tłumaczenia maszynowego jedynie trudno można ocenić, ponieważ nawet tłumaczenia ludzi są sporne. Nie istnieje przedmiotowa miara jakości tłumaczenia. Naturalny język podąża za statystycznymi zasadami naturalnych zjawisk. Na przykład można z 10 prostymi prawidłami dobrze opisać 80 % od teksty, dla pozostałe 10 % potrzebowałoby 20 prawideł, i dla ostatnich 10 % tekstów potrzebowałoby się całkiem inną teorię i dla licznych ludzi te zdania byłyby godne dyskusji względem ich poprawności. Tym zjawiskiem jest znana na nazwie zasada Pareta Językoznawstwo komputerowe w obecnym Stanie Lingwiści i programiści wiele uczyli się od wczesnych niepowodzeń. Obecne naukowe urządzenia mają wysoką praktyczną zdatność. Istnieją udane projekty, które zajmują się jedynie jeden ograniczony zakres językoznawstwa. Inne projekty mógą użytkować wynik innych projektów. Dla tego ważniejszego jest także wolne programowanie, które bez pieniężnych komplikacji zezwala użytkować wczesne wyniki innych projektów. GPL licencja zapewnia, że praca ludzi staje się częścią człowieczego dziedzictwa i nie znika w jakiejś szufladzie. Ta praca nie może być także użyta mylnie przez handlowe firmy. Lecz zawsze istnieje niebezpieczeństwo, że duże handlowe siły, które aby stać się większe użytkują ich najbardziej niebezpieczne bronie, to są adwokaci, dla zabraniać do innych jakąś działalność i tryb myślenia. Najbardziej bezecny i pełny fałszów przyrząd w pieniądzach adwokatów jest {softvaraj} patentami. Zadowalający inaczej jest także {komercigo} uniwersyteckich projektów. Aczkolwiek liczne uniwersyteckie projekty są wcześniej finansowane przez publiczne pieniądze, który pochodzi wszakże z naszych podatków, wyniki tych badań nie są wolnie osiągalne. Więc dla języka angielskiego istnieje wolna semantyczna mapa słów {WordNet}, lecz podobny projekt dla europejskich języków {EuroNet} jest osiągalny jedynie o dużej cenie. Liczne uniwersytety współdziałają w tym zakresie i wymieniają wyniki ich badań gratis, lecz to wszakże znaczyłoby, że jedynie uniwersytety mają prawo badać naukowo według naukowe zasady, według które wszakże naukowa wiedza jest publicznym dobrem. W końcu ta {komercigita} wiedza nie pomogłaby nikomu i wyniki, które nie są osiągalne w prawdzie nie istnieją. Zrozumienie uprawnień autorskich przy lingwistycznych źródłach mogłoby być trudnym problemem dla językoznawstwa komputerowego. Ogólnie język nie zalicza się jakiemuś specjalnemu osobnikowi. Zamenhof także czynił Esperanto publicznym dobrem i on zrezygnował z uprawnień autorskich Esperanto. Lecz to nie jest pewna sprawa przy słownikach. Słownik jest po pierwsze mieniem wydawnictwa. Czy słowo, które pojawia się we słowniku staje się automatycznie mienie wydawnictwa. Czy jakieś zdanie, albo jakimś specjalnym użyciem słowa jest mienie autora tego zdania. Aby unikać te problemy jedynie użytkuję wolne źródła jako REVO przy moim programowaniu. Mogłoby być, że inne źródła są lepsze, lecz użycie tych źródeł jest {malrekomendinda}. Powiniśmy przemyśleć więc położenie. Poprawiałem wewnętrzny słownik w programie według opis zawodowego słownika w tradycyjnej kondycji książkowej, którą kupiłem o normalnej cenie. Przy jednym słowie to wszakże nie jest problem, lecz jeśli to zrobiłem przy 100 albo 1000 słów, mogę mieć problemy, ponieważ ktoś może zaskarżyć mnie, że ukradłem część słownika. Ten będzie mógł być bardzo dużym problemem przy Esperanto, ponieważ ten język jest nowy i zbudowany, naprzeciw do narodowych języków można by było znaleźć twórca jakiegoś słowa, zdanie i specjalne gramatyczne użycie. Mam nadzieję, że nie będę mieć tego problemu, ponieważ ani program ani Esperanto nie stanie się tak słynny, że jacyś handlarze będą mieć interesy finansować adwokatów aby znieść ten projekt. Przypuszczalnie z powodu normalnych osobników to ogólnie wydaje się bardzo możliwa inaczej sprawa, lecz to niestety często odbywa się przy programowaniu. Powstały jednak dodatnie sprawy. Liczne handlowe firmy opublikują wyniki ich pracy według GPL licencja. Na przykład bardzo znany język programowania JAVA stał się ostatnio częścią wolnego oprogramowania. Naturalnie, firmy robią to w położeniu, kiedy oni nie mógą pokonać handlowego zawodnika i tym krokiem, oni chcą minimalnie nadwątlić zawodnika. Lecz firmy także zauważyły, że otwarcie projektów pozytywnie wywiera wpływ na projekty i jednak pozwala do nich możliwości zarabiać pieniądze dodatkowymi usługami. Także duży lingwistyczny projekt {Open} Będzie nęcić stał się otwarty. To jest bardzo zadowalająca sprawa, ponieważ źródła, którymi po pierwsze staje się część wolnego programowania nie może zostać {enproprigitaj} przez kogoś, więc nimi stają się część ludzkiego dziedzictwa. Teraz istnieją liczne źródła w sieci globalnej, od której można wyczerpywać wiedza o językoznawstwie. {Okulfrape} jest, że przede wszystkim jedynie z powodu języka angielskiego istnieje kompletna oferta rozwiązań. Nieszczęśliwie język angielski jest językiem, który zalicza się od komputerowego punktu widzenia najtrudniejszemu językowi dla komputerowego zajmowania. Dlatego postęp jest bardzo wolny. Bardzo zadowalający dla mnie jest fakt, że także dla polskiego i niemieckiego języka pojawiają się dobre źródła. (gramatyka polska, słownik Niemiecki bliskoznaczników) Oni są często {publikigaj} od entuzjaści, lecz z dobrą jakością. Dla dużych języków teraz można by było budować silny system części, które teraz istnieją. Programiści wiedzą, że wklejenie modułów, które użytkują różne techniki komputerowe są często bardzo trudne zadanie. Dlatego nie powinno się czekać na szybki postęp. W handlowym zakresie istnieją firmy, które mają powodzenie sprzedać językoznawcze programy do zawodowych tłumaczy o dużej cenie. Aczkolwiek zawodowi tłumacze są często najbardziej wielkimi krytykami pomysłu maszynowego tłumaczenia, oni samą często użytkują te programy. Dziwię się, że do teraz opłaca się dla tłumaczeń o przetłumaczonym słowie, aczkolwiek często dla zwyczajnych dokumentów, tłumacze mają wszakże szablony z gotowym tłumaczeniem na ich komputerach i przy “tłumaczeniu” oni muszą wpisywać jedynie kilka nazw i dat. Zawodowe tłumaczenie oficjalnych dokumentów jest fabryką pieniędzy, i ci ludzie zrobią wszystko aby długo mieć to źródło łatwych pieniędzy. Nie powinno się mieć nadzieję, że zawodowe programy pojawiają się kiedyś dla Esperanto. Nie istnieją oficjalne dokumenty w Esperanto, które trzeba by było tłumaczyć, więc konieczność tych programów nieomal nie istnieją. Teraz jedynie kilka dużych języków jest w całości zajmowane się przez te programy. Esperanto w językoznawstwie komputerowym Często mówi się w Środowisku esperanckim o zdatności Esperanto dla lingwistycznej informatyki. Jednak wyniki są liche. Kardynalny powód tego jest, że projekty, które są zapłacone przez narodowe źródła, nie chcą poprzeć nie narodowy język. Esperanto mogło wszakże przekradać się do tych projektów jako lingua franca, lecz prawdę mówiąc Esperanto nie jest z technicznego punktu widzenia dobrą linguą franca (powina odtwarzać). Nie myślę, że to często zdarzy się ponownie w przyszłym czasie. Lecz istnieją projekty w innym kierunku, które są poprzane przez esperanckie środowisko. Dla mnie ważne projekty są REVO, grupa tekstów i PMEG. Esperancka wikipedia jest także ważna. Trzeba stwierdzać, że Esperanto konkuruje z innymi językami w tym zakresie. Jeśli zaczyna się lingwistyczny projekt, zajmuje się, które źródła i rozwiązania są teraz zdatne i gotowe. W pierwszej stronie Esperanto obiecuje, że ono będzie łatwiejsze, w drugiej stronie inne języki (w zasadzie angielski język) mają więcej gotowe rozwiązania i źródła. Myślę, że także w tym zakresie Esperanto już ponosiło klęskę z językiem angielskim. Po pierwsze teraz każdy programista zna już angielski język, ponieważ bez języka angielskiego sobie nie miał powodzenie stać się programistą. Po drugie, który chce uczyć się nowego i rzadko użytkowanego język małej grupy aby zrobić doświadczenia z nim? Robi się to jedynie z powodu interesu hobbego albo dla nauki. Łatwość Esperanto nie może zdobyć rozległe pojawienie się angielskiego języka w językoznawstwie komputerowym. Myślę, że teraz pierwsza szansa jakimś pobytem Esperanto w językoznawstwie komputerowym jest projektami hobbymi i wolnym programowaniem. W tym położeniu jest ważnie, że wszystkie źródła są opublikowane według wolna licencja. Wolne programowanie i językoznawstwo komputerowe Wolne programowanie miało kilka sukcesów we swojej histori. Największy sukces jest wolnym systeym operacyjny systemem Linuks. Teraz jest przypuszczalnie użytkować komputer, który toczy jedynie wolne programy. Te programy są nawet tak wielce udane, że handlowe firmy, jest zainteresowane o tych projektach, i nie programiści użytkują te programy. Do teraz wolne programy są napisane najbardziej od programistów dla programistów. Oni programowali systemy operacyjne, edytorów tekstu, przyrządy programowe dla swojej codziennej pracy. Naturalny język jest dla programistów nie bardzo interesujący. Jednak zostaje byłe marzenie wczesnych programistów programować komputer, który myśli i kto tłumaczy. Wyzwanie maszynowego tłumaczenia jest więc interesujące i znane dla programistów. Do teraz pojawiły się już kilka projektów, które albo szybko zmarło albo nie jest aktywnie {pluevoluigita} (Tłumaczyć, {Linguaphile}, {Translato}). To jest normalna sprawa. Najczęściej programiści nie są gotowi jedynie i dla długiego czasu przetwarzać jeden temat. Ponieważ powstaje bardzo liczna ilość wolnych projektów, jedynie bardzo trudno można znaleźć użytkowników i pomoce. Szansa, że jakiś projekt przeżyje czas interesu pierwszego autora jest bardzo mały. Projekty komputerowe są potrzebne zazwyczaj kilka lat dojrzewania. Ten długi czas jest konieczny właśnie dla lingwistycznych projektów, ponieważ w tym czasie trzeba uczyć się rozległej teori. {maturiĝoestas} także konieczny po reakcjach użytkowników. Jest bardzo trudna sprawa programować program, który jest lekko zdatny. Dla programistów, ich własne programy są zawsze łatwe, dlatego oni jedynie trudno zauważają trudności o użyteczności programów. Projekt “Esperantilo” Kiedy zacząłem programować pierwsze linie prawodawstwa dla Esperantilo, nigdy nie myślałem, że po dwóch latach będę programować tłumaczenie maszynowe i będzie myśleć o syntaktycznej analizie. Chciałem jedynie mieć prostego edytora tekstu dla Windowsu i Linuks, którym bez żmudnego instalowania można pisać te osobliwe esperanckie litery. Potem myślałem o korekcie ortograficznej i gramatycznej korekturze, ponieważ zawsze zapominałem bierniku. Pisałem program po pierwsze dla mnie samego. Potem odtwarzałem wiele o tłumaczeniu maszynowym i ogólnie o językoznawstwie komputerowym. Zauważyłem, że autorzy nie byli dobrymi programistami, i że oni całkiem nie znają nowych technik programowania. W ówczesnym czasie trudniłem się o nowym języku programowym {XOTcl} i {programada} środowisko {XOTclIDE}, którego przedtem sam programowałem. Szukałem tematu aby dowieść zdatność tego języka i programowego środowiska. W moich wczesnych doświadczeniach zauważyłem, że ten język programowy zezwala do mnie efektywniejsze programowanie. Także znalazłem w sieci globalnej kilka tworzyw o Esperanto. Esperanto uczyłem się wcześnie całkiem losowo od mojego kolegi i nawet uczestniczyłem w lokalnym kursie w mieście Essen. Nie stałem się członkiem jakiegoś esperanckiego stowarzyszenia. Znalazłem bardzo rześkiego REVO, MPEG i grupę tekstów. Więc nie musiałem zacząć od zera. Miałem źródła, które mogłem użytkować. Także informowałem mnie o podobnych projektach i często przeszukałem sieć. Nie mam dużych celów i planów, lecz próbowałem dokładać nowe funkcje, i jeśli oni funkcjonują, programuję dalej. Ponieważ wiedziałem, że ryzyko, że nie będę mieć powodzenie, jestem bardzo duży, ja początku wybrałem kilka strategi aby spuszczać to ryzyko. Moja metoda programowa jest wielce wywierana wpływ od tak zwana Extrame Programming, którą znałem od języka programowania Smalltalk. Środowisko programowe umożliwia tak zwane interaktywne programowanie. Według ta metoda można zmienić program, który jednocześnie toczy. To jest bardzo uczynne przy lingwistycznych programach i to zachęca do doświadczeń. Po pierwsze wytyczałem najodleglejsze cele do tych, którzy ja sam mógą kiedyś osiągnąć. Więc chciałem wymyślić nowy język albo budować całkiem nową technikę. Po drugie definiowałem dla mnie kilka strategi: Program dąży jedynie tłumaczyć od Esperanto i przetwarzać jedynie Esperancki język. Docelowe języki są językami, które ja sam znam. Nie obliczam o pomocy innych o motcie: “zacząłem coś i inni to zakończyli ”. Użytkuję już znane techniki i teorie. Ponieważ nie jestem lingwistą, nie chcę zacząć pracę nowe naukowe teorie. Jeśli to jest możliwe, użytkuję gotowe wolne rozwiązania. Koncentrowałem się o specjalnych esperanckich tematach, ponieważ jestem nie prawdopodobnie, że inni tego zrobili. Program zawsze musiałby być zdatny dla jakiejś taksy i wydać wyniki. Potem cel jest ulepszyć wyniki. Dążę do rozwojowego postępu. Nie chciałem, że program jest zdatny jedynie po kilku latach. Staję się publiczny jednocześnie wszystkie wyniki: słowniki, źródłowe prawodawstwo, testowe zdania. Po pierwsze robię zadania, które jedynie ja sam mogę zrobić. Więc programuję, lecz użytkuję gotowe słowniki. Ja sam nie staję się kompletny słowników, ponieważ to może zrobić potem inni. Ulepszam słowniki jedynie przy oczywistych omyłkach. Szukam dialog z użytkownikami według sposób wolnego programowania. Nie związuję z programem jakichś handlowych planów i unikam odnośniki z handlowymi środowiskami. Esperantilo jest doświadczeniem, programowanie mogłoby zawsze skończyć się, na przykład ponieważ nie widziałbym szans dla dodatkowej ewolucji albo więcej nie cieszyłbym się programowanie. Dlatego chcę schronić wyniki tego projektu. Opublikuję wszystkie źródła i słowniki. Kolejne projekty mogłyby te źródła użytkować. Także piszę ten weblog aby wykazać pracę. Także, jeśli projekt jest hobby i perferkcyjny inaczej, ono może być źródłem dla krytyki i dla porównania z kolejnymi projektami. Ludzie podsuwali do mnie, że ten projekt jest zbyt ambitny, dla projektu hobbego jedne człowieka. Tak, z pewnością całkiem zarówno zajmowałem się ten projekt wcześnie, jeśli ktoś dał mi plan programować jego. Lecz teraz już dowiodłem dla mnie samego, że jestem przypuszczalnie więcej aniżeli ja to myślałem wcześnie. Z pewnością to nie jest dowód, że projekt robi postępy w podobnym czasie potem. W tym projekcie więc nie powinno się ocenić planów lecz faktów. I fakty nie mógą być ambitne, oni są prawdziwi albo fałszywi. Piszę to, ponieważ doświadczam, że często nawet użytkownicy, którzy troszeczkę użytkowali program, nie raportują omyłek, ponieważ oni myślą, że projekt nie ma szansy {pluevoluo}. Także nie jestem łatwowiernym programistą o wolnym programowaniu, ponieważ mam długie doświadczenie w tym środowisku. Fakt jest, że najbardziej duża część projektów żyje od jednej osoby, więc muszę zrobić wszystko jedynie. Programiści, którzy właśnie pisali kilka lini i potem werbują dla innych programistów muszą zawieść, jeśli oni mają nadzieję o dużej pomocy. Powodowie programistów wolnego programowania są różną, czystą uczynnością są bardzo rzadcy. Z pewnością nie można policzyć o uczynności fachowców, ponieważ oni utrzymują się ich zawodowością. Także nie powinno się policzyć o dokładnej krytyce, to także byłaby wszakże jakaś pomoc. W tym czasie także uczyłem się mnóstwa i musiałem zastosować moje wczesne oczekiwania. Po pierwsze musiałem stwierdzać, że Esperanto jest naturalnym językiem i nie bardzo różny od innych naturalnych języków. Istnieją zakresy w Esperanto, które są zarówno skomplikowane jak w innych językach. Więc łatwość Esperanto jest jedynie ograniczona w pozostałych zakresach. Po drugie zauważyłem, że teoria Esperanto nie jest trwała. Istnieją liczne różne teorie o tym języku i jest trudno znaleźć czyste odpowiedzi o drobiazgach. Także źródła, które są osiągalne w TTT, nie są kompletne. Musiałem więc często przetwarzać kluczowe źródła jako słowniki. Ponieważ Esperanto jest bardzo nowym językiem i mocno rozwija się, nie istnieje trwały sposób jego użycia. Esperantyści często imitują swój ojczysty język. Dlatego syntaktyczna analiza jest dużym wyzwaniem. Bardzo efektywne słowotwórstwo w Esperanto utrudnia {samgrade} tłumaczenie maszynowe. Liczne statystyczne techniki maszynowego tłumaczenia nie zdatnego dla Esperanto, ponieważ w tym języku brakują dosyć dużych równoległych teksty (Teksty w dwa albo liczne języki). Lecz to jest wszakże normalna cena łatwowiernego i hobbego początku. Reakcje użytkowników powodują często więcej pomocniczo aniżeli pomoc. Lecz oni są konieczni i zawsze odpowiadam o listach użytkowników i zaciekawiających. Cieszę się zawsze z reakcji i mogę powiedzieć, że każdy, który pisze do mnie, uczestniczy w projekcie. Tym weblogiem jest także dla mnie przyrząd aby powiększyć inaczej pracę z reakcjami użytkowników. Będę mógł wszakże teraz często odpowiedzieć: Zechciej odtwarzać weblog z numerem ten i ten. Moja nadzieja jest także, że inni programiści ujawniają dla siebie samego, że językoznawstwo komputerowe nie jest dlatego beznadziejnie skomplikowanym zakresem, jak to kształci się.

Orignał w języku Esperanto

Maszynowe tłumaczenie na język polski

Ideo de maŝina tradukado ekzistas ekde apero de komputiloj. Maŝina tradukado kaj arta penso estis la revo de unuaj programistoj, eble ĉar tiuj temoj estus bone komprenataj por vasta publiko. Tradukado estas malfacila tasko, kiun povas plenumi nur kelkaj homoj post longa lernado. Tial komputilo, kiu tradukas, estus la pruvo por taŭgeco de komputiloj.

Ĉiu nun scias, ke ne ekzistas komputiloj, kiuj povas pensi aŭ traduki en nivelo de homoj. Longe post multaj fiaskaj projektoj, en kiuj oni perdis grandan kvanton de mono, eĉ specialistoj pensis, ke programado de tiuj sistemoj ne estas ebla. Historio de komputika lingvistiko bone priskribas la konata dokumento Machine Translation: past, present, future. Ofte eĉ Esperantistoj varbas por Esperanto kun argumento, ke maŝina tradukado ne estas ebla kaj neniam estos ebla. En tiu kazo oni ofte prezentas tre bizarajn frazojn, kiuj nur tre malfacile estas tradukeblaj eĉ por profesiaj tradukistoj. Mi estas certa, ke per similaj argumentoj oni povus ankaŭ pruvi, ke tradukado ĝenerale ne estas ebla. Sed la temo de komputila lingvistiko ne mortis kaj eĉ lastatempe bone progresas. Kvankam ne ekzistas perfektaj tradukaj programoj, la unuopaj eroj de komputila lingvistiko aperas pli kaj pli ofte. Preskaŭ ĉiu uzas nun literumadon en redaktiloj kaj komputilajn vortarojn. Ankaŭ “google” estas ja infano de komputila lingvistiko.

Kial fiaskis tiom da projektoj pri maŝina tradukado?

Oni povus ĝenerale diri, ke komputilaj projektoj tre ofte fiaskas. La duono de projektoj neniam finiĝas kaj 75% de projektoj ne atingas la celojn. Ili estas pli multekostaj aŭ ne havas la necesajn planitajn funkciojn. La temo de maŝina tradukado havas aldonojn specialajn trajtojn, kiuj eĉ faras tiujn projektojn eĉ pli malfacilajn kaj pli riskajn. Tio estas:

Oni havas tre altajn atendojn. Oni volas programojn, kiuj regas multajn lingvojn, tradukas en reala tempo en multaj direktoj kaj povas kompreni diritajn vortojn kaj mem paroli.
Oni bezonas multajn specialistojn de diversaj kampoj
La baza lingvistika teorio, kiu estas praktike taŭga, ne ekzistis. La historiaj teorioj ne estis taŭgaj por multaj kazoj.
Lingvistikaj programaj postulas grandajn necesojn al komputiloj. Ĝis 1980 komputiloj ne estas taŭgaj por lingvistiko, ĉar ili ne havis necesan rapidecon kaj memoron. La haveblaj komputiloj en frua tempo estis tro multekostaj. Oni pripensu, ke eĉ baza vortaro havas 50000 vortojn. Prilabori, traserĉi aŭ redakti tiun kvanton de informoj estas por tiamaj komputiloj tre malfacila tasko.
La projektoj preskaŭ ĉiam komencis de nulo. Lingvistoj nenion sciis pri komputiloj, programistoj nenion sciis pri lingvistiko. Oni devus skribi programojn kaj solvi bazajn teknikajn defiojn. Lingvistoj devis krei taŭgajn teoriojn.
Ĉiu profesia projekto havas nur limigitan kvanton da rimedoj. La unua limo estas tempo. Oni devas havi rezultojn post unu aŭ du jaroj. Post tiu tempo la membroj de projekto komencas iom komprenis pri la temo de projekto.
Tiuj projektoj estis tro grandaj. Organizado de grandaj projektoj estas eĉ pli komplika ol la temo de projektoj. La respondeculoj ofte pensas, ke ĉiu problemo estas solvebla per aldonaj partoprenantoj de projekto. Konata programista anekdoto diras, ke laŭ tiu pensmaniero oni povus konstati: Por havi unu novan homon oni necesus unu virinon kaj 9 monatojn da tempo. Oni povus duonigi la tempon havante du virinojn.
Ne ekzistis komputilaj materialoj, kiujn oni povis uzi de komenco.

Mi pensas, ke la unua problemo estas, ke la projektoj volis sole atingi ĉion. Oni ne provis dividi la taskon en multaj kampoj. Kvankam projektoj fiaskas, ili ofte lasas multajn rezultojn aŭ eĉ solvojn de unuopaj problemoj. Sed por monaj kaŭzoj estas ofte maleble transdoni tiujn rezultojn al sekvaj projektoj. Do multaj rezultoj malaperas en arkivoj por ĉiam. La projektoj malaperas, kvazaŭ ili neniam estis. En plej bona kazo restas de tiuj projektoj malgranda raporto aŭ scienca laboraĵo, sed vortaroj aŭ programa kodo, ĉio ĉi malaperas por ĉiam.

La unuaj projektoj estis pagitaj de militaj fortoj, ĉar ili bezonis maŝinan tradukadon por spionado de aliaj landoj. Tial la rezultoj de tiuj projektoj estis ŝtataj sekretoj. En universitatoj, kiuj ankaŭ havis lingvistikajn projektojn, oni uzis por projektoj studentojn, kiuj ne estas bonaj spertaj programistoj kaj ofte forlasis la projekton post unu aŭ du jaroj. Tio estas tro mallonga periodo por efike produkti uzeblajn rezultojn. Komercaj projektoj fiaskis miaopinie precipe por kazo de mallonga tempo. Komercistoj pensas precipe nur en unujaraj periodoj de librotenado. Ĝis nun preskaŭ ne ekzistas merkato por partoj de solvoj de komputiko. Tiu kampo de komerca programado laboras laŭ maniero ĉio aŭ nenio. Ĉu iu memoras pri sistemoj kiel Amiga OS, OS/2 aŭ diversaj aliaj programoj, kiuj por ĉiam malaperis, kvankam ĝi rulis bone kaj estis uzeblaj. Ĝis antaŭ mallonga tempo ŝajnis, ke en tiu komerca kampo povas esti nur unu gajninto. Tio estas aŭ IBM aŭ MS. Sed nun ekzistas alia komputila mondo de liberaj programoj. Do estas eble ruli la tutan sistemon nur per libera programaro.

Lingvistikaj projektoj. Ĉu problemo de interkomunikado?

Programistoj kaj lingvistoj devenas el tute aliaj kampoj de scienco. Ili havis alian manieron solvi la problemojn. Mi pensas, ke malbona kunlaboro inter lingvistoj kaj programistoj estas ankaŭ granda kaŭzo de malsukcesoj. Programistoj devenas de scienca kampo de matematiko. Ili serĉis laŭ matematika maniero la mallongan precizan formulon, kiu estas vera por ĉiu kazo. La akademia teorio de lingvistiko estas plena da logikaj formuloj, kiuj preskaŭ malestas en praktika uzo. La naturajn lingvojn oni ne povas priskribi per simplaj formuloj.

En komputilaj projektoj oni kutime havas du grupojn de homoj. La unua grupo estas tiel nomataj teknikaj fakuloj. Tio estas programistoj. Alia grupo estas fakaj specialistoj, kiuj scias iom pri temo de projekto. La sukceso de projekto dependas ofte de ebleco de lernado de du grupoj unu de alia. Programistoj devas lerni de fakuloj kaj fakuloj devas lerni de programistoj.

Lingvistoj devenas de humanecaj sciencoj, simile al filozofio aŭ literaturo. Por ili lingvo estis historie io sakra, io magia, io, kion oni ne nepre devas logike kompreni. Lingvistoj pritraktas lingvojn kun preskaŭ religia maniero. Ili akceptas misterojn kaj nelogikajn esprimojn. Ili ne pruvas. Ili ŝategas debati pri kuriozaĵoj. La argumento de aŭtoritato estas pli grava ol logika pruvo. Lingvistikaj teorioj estis do frue tute maltaŭgaj por programistoj, kiuj devas ja liveri pragmatikajn kaj praktikajn rezultojn. Mi pensas, ke nova generacio de lingvistoj iom post iom lernas uzi sciencajn metodojn en lingvistiko. Ili uzas statistikon, pruvas la rezultojn sur grandaj tekstaroj. Ili lernis ordigi la teorion laŭ ofteco de uzebleco. Kuriozaĵoj ne plu rolas gravan rolon en teorioj. Ili eĉ lernis uzi la komputilon kaj permesas al la aliaj tuŝi ilian sakran lingvon.

Sed ankaŭ la sinteno de programistoj kun rigida matematika fundo estas malutila por lingvistikaj projektoj. Bonan priskribon de takso de programado donas al ni Kulturaj aspektoj de komputil-programado. Programistoj atendis de natura lingvo similajn trajtojn, kiel ili tion konas de programaj lingvoj. Pritrakti naturajn lingvojn estas unue la arto administri esceptojn. Tial oni ne povas atenti iun formulon, kiu priskribas ĉiujn fenomenojn de lingvo.

La kutimaj problemoj, kiujn frontas programistoj, estas ankaŭ aliaj ol tiuj de lingvistiko. Kutime rezultoj de programoj devas esti tre certaj. Oni pripensu komputilaj sistemoj, kiuj de multaj jaroj laboras en bankoj aŭ en komerco. Komputiloj regulas multajn sistemojn. Ili konservas grandajn datumojn. Ili devas esti sekuraj kaj certaj. En lingvistiko, la problemoj estas ofte ne certaj. La problemoj havas statistikan naturon. En komputiko, ĉiu esprimo estas aŭ vera aŭ malvera. Naturaj lingvoj ne havas tiujn trajtojn. Tial lingvistikaj programoj devas prilabori datojn, kiuj enhavas erarojn, kiuj ne estas tute analizeblaj. Rezultojn de maŝina tradukado oni nur malfacile povas pritaksi, ĉar eĉ tradukoj de homoj estas diskuteblaj. Ne ekzistas objektiva mezuro de kvalito de tradukado.

Natura lingvo sekvas la statistikajn principojn de naturaj fenomenoj. Ekzemple oni povas kun 10 simplaj reguloj bone priskribi 80% de tekstojn, por restajn 10% oni bezonus 20 regulojn, kaj por lastaj 10% de tekstoj oni bezonus tute alian teorion kaj por multaj homoj tiuj frazoj estus diskutindaj rilate al ilia korekteco. Tiu fenomeno estas konata sur la nomo principo de Pareto

Komputila lingvistiko en nuna Stato

Lingvistoj kaj programistoj multe lernis de fruaj malsukcesoj. La nunaj sciencaj laboraĵoj havas altan praktikan taŭgecon. Ekzistas sukcesaj projektoj, kiuj pritraktas nur unu limigitan kampon de lingvistiko. Aliaj projektoj povas uzi la rezulton de aliaj projektoj. Por tio pli grava estas ankaŭ la libera programado, kiu sen monaj komplikaĵoj permesas uzi fruajn rezultojn de aliaj projektoj. La GPL permesilo garantias, ke la laboro de homoj iĝas parto de homa heredaĵo kaj ne malaperas en iu tirkesto. Tiu laboro ne povas esti ankaŭ misuzata de komercaj firmaoj. Sed ĉiam ekzistas danĝero, ke grandaj komercaj fortoj, kiuj por iĝi pli granda uzas iliajn plej danĝeraj armilojn, tio estas advokatoj, por malpermesi al aliaj ian aktivadon kaj pensadon. La plej malnobla kaj malverplena ilo en monoj de advokatoj estas softvaraj patentoj.

Malkontentiga estas ankaŭ komercigo de universitataj projektoj. Kvankam multaj universitataj projektoj estas financitaj de publika mono, kiu devenas ja de niaj impostoj, la rezultoj de tiuj esploroj ne estas libere atingeblaj. Do por angla lingvo ekzistas la libera semantika mapo de vortoj WordNet, sed la simila projekto por eŭropaj lingvoj EuroNet estas atingebla nur je granda prezo. Multaj universitatoj kunlaboras en tiu kampo kaj interŝanĝas la rezultojn de iliaj esploroj senpage, sed tio ja signifus, ke nur universitatoj rajtas esplori science laŭ sciencaj principoj, laŭ kiuj ja la scienca kono estas publika bono. Fine tiu komercigita scienco helpus al neniu kaj rezultoj, kiuj ne estas atingeblaj en vero ne ekzistas.

Kompreno de aŭtoraj rajtoj ĉe lingvistikaj fontoj povus esti malfacila problemo por komputila lingvistiko. Ĝenerale lingvo ne apartenas al iu speciala ulo. Zamenhofo ankaŭ igis Esperanton publika bono kaj li rezignis pri aŭtoraj rajtoj de Esperanto. Sed tio ne estas certa afero ĉe vortaroj. Vortaro estas unue la propraĵo de eldonejo. Ĉu vorto, kiu aperas en vortaro iĝas aŭtomate propraĵo de eldonejo. Ĉu iu frazo, aŭ iu speciala uzo de vorto estas propraĵo de aŭtoro de tiu frazo. Por eviti tiujn problemojn mi nur uzas liberajn fontojn kiel REVO ĉe mia programado. Povus esti, ke aliaj fontoj estas pli bonaj, sed uzo de tiuj fontoj estas malrekomendinda. Ni pripensu do la situacion. Mi korektis la internan vortaron en programo laŭ priskribo de profesia vortaro en tradicia libra formo, kiun mi aĉetis je normala prezo. Ĉe unu vorto tio ja ne estas problemo, sed se mi tion faris ĉe 100 aŭ 1000 vortoj, mi povas havi problemojn, ĉar iu povas akuzi min, ke mi ŝtelis la parton de vortaro. Tiu povos esti tre granda problemo ĉe Esperanto, ĉar tiu lingvo estas nova kaj konstruita, kontraŭe al naciaj lingvoj oni povus trovi la kreinto de iu vorto, frazo kaj speciala gramatika uzo. Mi esperas, ke mi ne havos tiun problemon, ĉar nek la programo nek Esperanto iĝos tiel popularaj, ke iuj komercistoj havos interesojn financi advokatojn por malkonstrui tiun projekton. Eble pro normalaj uloj tio ĝenerale ŝajnas tre malebla afero, sed tio bedaŭrinde ofte okazas ĉe programado.

Ekestis tamen pozitivaj aferoj. Multaj komercaj firmaoj publikigas la rezultojn de ilia laboro laŭ GPL permesilo. Ekzemple tre konata programlingvo JAVA iĝis lastatempe la parto de libera programaro. Memkompreneble, la firmaoj faras tion en situacio, kiam ili ne povas venki la komercan konkuranton kaj per tiu paŝo, ili volas minimume malfortigi la konkuranton. Sed firmaoj ankaŭ rimarkis, ke malfermo de projektoj pozitive influas la projektojn kaj tamen lasas al ili la eblojn perlabori monon per aldonaj servoj. Ankaŭ granda lingvistika projekto Open Logos iĝis malferma. Tio estas tre kontentiga afero, ĉar fontoj, kiuj unue iĝas parto de libera programado ne povas esti enproprigitaj de iu, do ili fariĝas la parto de homeca heredo.

Nun ekzistas multaj fontoj en interreto, de kiu oni povas elĉerpi la scion pri lingvistiko. Okulfrape estas, ke precipe nur pro angla lingvo ekzistas kompleta oferto de solvoj. Malfeliĉe angla lingvo estas la lingvo, kiu apartenas de komputila vidpunkto al la plej malfacila lingvo por komputila pritraktado. Tial la progreso estas tre malrapida. Tre kontentiga por mi estas la fakto, ke ankaŭ por pola kaj germana lingvo aperas bonaj fontoj. (pola gramatiko, Germana vortaro de sinonimoj) Ili estas ofte publikigaj de hobiuloj, sed kun bona kvalito.

Por grandaj lingvoj oni nun povus konstrui fortan sistemon de partoj, kiuj nun ekzistas. Programistoj scias, ke intergluo de moduloj, kiuj uzas diferencajn komputilajn teknikojn estas ofte tre malfacila tasko. Tial oni ne atendu rapidan progreson.
En komerca kampo ekzistas firmaoj, kiuj sukcesas vendi lingvistajn programojn al profesiaj tradukistoj je granda prezo. Kvankam profesiaj tradukistoj estas ofte plej grandaj kritikistoj de ideo de maŝina tradukado, ili mem ofte uzas tiujn programojn. Mi miras, ke ĝis nun oni pagas por tradukoj je tradukita vorto, kvankam ofte por kutimaj dokumentoj, la tradukistoj havas ja ŝablonojn kun preta tradukado sur iliaj komputiloj kaj ĉe “tradukado” ili devas enskribi nur kelkajn nomojn kaj datojn. La profesia tradukado de oficialaj dokumentoj estas fabriko de mono, kaj tiuj homoj faros ĉion por longe havi tiun fonton de facila mono.

Oni ne esperu, ke profesiaj programoj aperas iam por Esperanto. Ne ekzistas oficialaj dokumentoj en Esperanto, kiujn oni devus traduki, do la neceso de tiuj programoj preskaŭ ne ekzistas. Nun nur kelkaj grandaj lingvoj estas entute pritraktataj de tiuj programoj.

Esperanto en komputila lingvistiko

Oni ofte parolas en Esperantujo pri taŭgeco de Esperanto por lingvistika komputiko. Tamen la rezultoj estas mizeraj. La principa kaŭzo de tio estas, ke projektoj, kiuj estas pagitaj de naciaj fontoj, ne volas subteni ne nacian lingvon. Esperanto povis ja ŝteliri en tiujn projektojn kiel interlingvo, sed verdire Esperanto ne estas el teknika vidpunkto bona interlingvo (legu). Mi ne pensas, ke tio ofte reokazos en la venonta tempo. Sed ekzistas projektoj en alia direkto, kiuj estas subtenataj de esperantista medio. Por mi la gravaj projektoj estas REVO, Tekstaro kaj PMEG. Esperanta vikipedio estas ankaŭ grava. Oni devas konstati, ke Esperanto konkurencas kun aliaj lingvoj en tiu kampo. Se oni komencas lingvistikan projekton, oni pritraktas, kiuj fontoj kaj solvoj estas nun uzeblaj kaj pretaj. En la unua flanko Esperanto promesas esti pli facila, en la dua flanko aliaj lingvoj (principe angla lingvo) havas pli da pretaj solvoj kaj fontoj. Mi pensas, ke ankaŭ en tiu kampo Esperanto jam malvenkis kun angla lingvo. Unue nun ĉiu programisto konas jam anglan lingvon, ĉar sen angla lingvo si ne sukcesis iĝi programisto. Due, kiu volas lerni novan kaj malofte uzatan lingvon de malgranda grupo por eksperimenti kun ĝi? Oni faras tion nur pro hobia intereso aŭ por lernado. La facileco de Esperanto ne povas konkeri la vastan aperon de angla lingvo en komputila lingvistiko. Mi pensas, ke nun la unua ŝanco per ia estado de Esperanto en komputila lingvistiko estas hobiaj projektoj kaj libera programado. En tiu situacio estas grave, ke ĉiuj fontoj estas publikigitaj laŭ libera permesilo.

Libera programado kaj komputila lingvistiko

Libera programado havis kelkajn sukcesojn en sia historio. La plej granda sukceso estas la libera mastruma sistemo linukso. Nun estas eble uzi komputilon, kiu rulas nur liberajn programojn. Tiuj programoj estas eĉ tiel grande sukcesaj, ke komercaj firmaoj, interesiĝas pri tiuj projektoj, kaj ne programistoj uzas tiujn programojn. Ĝis nun liberaj programoj estas skribitaj plejofte de programistoj por programistoj. Ili programis mastrumajn sistemojn, redaktilojn, programajn ilojn por sia ĉiutaga laboro. La natura lingvo estas por programistoj ne tre interesa. Tamen restas iama revo de fruaj programistoj programi komputilon, kiu pensas kaj kiu tradukas.

La defio de maŝina tradukado estas do interesa kaj konata por programistoj. Ĝis nun aperis jam kelkaj projektoj, kiuj aŭ rapide mortis aŭ ne estas aktive pluevoluigita (Traduki, Linguaphile, Translato). Tio estas normala afero. Plej ofte programistoj ne estas pretaj sole kaj por longa tempo prilabori unu temon. Ĉar ekestas tre multa kvanto de liberaj projektoj, oni nur tre malfacile povas trovi uzantojn kaj helpantojn. Ŝanco, ke iu projekto travivos la tempon de intereso de la unua aŭtoro estas tre malgranda. Komputilaj projektoj necesas kutime kelkajn jarojn de maturiĝo. Tiu longa tempo estas necesa ĵus por lingvistikaj projektoj, ĉar en tiu tempo oni devas lerni vastan teorion. La maturiĝoestas ankaŭ necesa post reagoj de uzantoj. Estas tre malfacila afero programi programon, kiu estas facile uzebla. Por programistoj, iliaj propraj programoj estas ĉiam facilaj, tial ili nur malfacile rimarkas malfacilaĵojn pri uzebleco de programoj.

Projekto “Esperantilo”

Kiam mi komencis programi la unuajn liniojn de kodo por Esperantilo, mi neniam pensis, ke post du jaroj mi programos maŝinan tradukadon kaj pensos pri sintaksa analizo. Mi volis nur havi simplan redaktilon por vindozo kaj linukso, per kiu sen peniga instalado oni povas skribi tiujn strangajn esperantajn literojn. Poste mi pensis pri literumado kaj gramatika korektado, ĉar mi ĉiam forgesis la akuzativon. Mi skribis la programon unue por mi mem. Poste mi legis multe pri maŝina tradukado kaj ĝenerale pri komputila lingvistiko. Mi rimarkis, ke aŭtoroj ne estis bonaj programistoj, kaj ke ili tute ne konas novajn teknikojn de programado. En tiama tempo mi okupiĝis pri nova programa lingvo XOTcl kaj programada medio XOTclIDE, kiun mi antaŭe mem programis. Mi serĉis temon por pruvi la taŭgecon de tiu lingvo kaj programa medio. En miaj fruaj spertoj mi rimarkis, ke tiu programa lingvo permesas al mi pli efikan programadon. Mi ankaŭ trovis en interreto kelkajn materialojn pri Esperanto. Esperanton mi lernis frue tute hazarde de mia kolego kaj mi eĉ partoprenis la lokan kurson en urbo Essen. Mi ne iĝis membro de iu esperanta asocio. Mi trovis tre viglan REVO, MPEG kaj Tekstaron. Do mi ne devis komenci de nulo. Mi havis fontojn, kiujn mi povis uzi. Mi ankaŭ informis min pri similaj projektoj kaj ofte traserĉis la reton. Mi ne havas grandajn celojn kaj planojn, sed mi provis aldoni novajn funkciojn, kaj se ili funkcias, mi programas plu. Ĉar mi sciis, ke la risko, ke mi ne sukcesos, estas tre granda, mi de komenco elektis kelkajn strategiojn por malaltigi tiun riskon.

Mia programa metodo estas grande influata de tiel nomata Extrame Programming, kiun mi konis de programlingvo Smalltalk. La programa medio ebligas tiel nomatan interaktivan programadon. Laŭ tiu metodo oni povas ŝanĝi programon, kiu samtempe rulas. Tio estas tre helpema ĉe lingvistikaj programoj kaj tio instigas al eksperimentoj. Unue mi limigis la plej forajn celojn al tiuj, kiuj mi mem povas iam atingi. Do mi volis elpensi novan lingvon aŭ konstrui tute novan teknikon. Due mi difinis por mi kelkajn strategiojn:

La programo celas nur traduki de Esperanto kaj prilabori nur Esperantan lingvon.
La celaj lingvoj estas lingvoj, kiujn mi mem konas.
Mi ne kalkulas je helpo de aliaj je moto: “mi komencis ion kaj la aliaj tion finigis”.
Mi uzas jam konatajn teknikojn kaj teoriojn. Ĉar mi ne estas lingvisto mi ne volas eklabori novan sciencajn teoriojn.
Se tio estas ebla, mi uzas pretajn liberajn solvojn. Mi koncentriĝis pri specialaj esperantaj temoj, ĉar estas ne verŝajne, ke aliaj tiun faris.
La programo ĉiam devus esti uzebla por iu takso kaj liveri rezultojn. Poste la celo estas plibonigi la rezultojn. Mi celas evoluan progreson. Mi ne volis, ke la programo estas uzebla nur post kelkaj jaroj.
Mi publikiĝas samtempe ĉiujn rezultojn: vortarojn, fontan kodon, testajn frazojn.
Mi unue faras taskojn, kiujn nur mi mem povas fari. Do mi programas, sed mi uzas pretajn vortarojn. Mi mem ne kompletiĝas la vortarojn, ĉar tio povas fari poste aliaj. Mi plibonigas la vortarojn nur ĉe evidentaj eraroj.
Mi serĉas la dialogon kun uzantoj laŭ la maniero de libera programado.
Mi ne kunligas kun la programo iujn komercajn planojn kaj mi evitas ligojn kun komercaj medioj.

Esperantilo estas eksperimento, la programado povus ĉiam finiĝi, ekzemple ĉar mi ne vidus ŝancojn por plua evoluo aŭ mi ne plu ĝojus la programadon. Tial mi volas sekurigi la rezultojn de tiu projekto. Mi publikigas ĉiujn fontojn kaj vortarojn. Sekvaj projektoj povus tiujn fontojn uzi. Mi ankaŭ skribas tiun blogon por dokumenti la laboron. Ankaŭ, se la projekto estas hobia kaj malperfekta, ĝi povas esti fonto por kritiko kaj por komparo kun sekvaj projektoj.

Homoj sugestis al mi, ke tiu projekto estas tro ambicia, por hobia projekto de unu homo. Jes, mi certe tute same pritraktis tiun projekton frue, se iu donis al mi la planon programi ĝin. Sed nun mi jam pruvis por mi mem, ke estas eble pli ol mi tion pensis frue. Certe tio ne estas pruvo, ke la projekto progresas en simila tempo poste. En tiu projekto oni do ne pritaksu planojn sed faktojn. Kaj faktoj ne povas esti ambiciaj, ili estas veraj aŭ malveraj. Mi skribas tion, ĉar mi spertas, ke ofte eĉ uzantoj, kiuj iomete uzis la programon, ne raportas erarojn, ĉar ili pensas, ke la projekto ne havas ŝancon de pluevoluo.

Mi ankaŭ ne estas naiva programisto pri libera programado, ĉar mi havas longan sperton en tiu medio. Fakto estas, ke plej granda parto de projektoj vivas de unu persono, do mi devas fari ĉion sole. Programistoj, kiuj ĵus skribis kelkajn liniojn kaj poste varbas por aliaj programistojn devas seniluziigi, se ili esperas je granda helpo. La motivoj de programistoj de libera programado estas diferencaj, pura helpemo estas tre malofta. Oni certe ne povas kalkuli je helpemo de profesiuloj, ĉar ili vivtenas sin per ilia profesieco. Ankaŭ oni ne kalkulu je preciza kritiko, tio ankaŭ estus ja ia helpo.

En tiu tempo mi ankaŭ lernis multon kaj devis adapti miajn fruajn atendojn. Unue mi devis konstati, ke Esperanto estas natura lingvo kaj ne tre diferenca de aliaj naturaj lingvoj. Ekzistas kampoj en Esperanto, kiuj estas same komplikaj kiel en aliaj lingvoj. Do la facileco de Esperanto estas nur limigita en ceteraj kampoj.
Due mi rimarkis, ke la teorio de Esperanto ne estas fiksa. Ekzistas multaj diferencaj teorioj pri tiu lingvo kaj estas malfacile trovi klarajn respondojn pri detaloj. Ankaŭ la fontoj, kiuj estas atingeblaj en TTT, ne estas kompletaj.
Mi devis do ofte prilabori bazajn fontojn kiel vortaroj. Ĉar Esperanto estas tre nova lingvo kaj forte evoluas, ne ekzistas fiksa maniero de ĝia uzo. Esperantistoj ofte imitas sian gepatran lingvon. Tial la sintaksa analizo estas granda defio. La tre efika vortfarado en Esperanto malfaciligas samgrade la maŝinan tradukadon. Multaj statistikaj teknikoj de maŝina tradukado ne aplikebla por Esperanto, ĉar en tiu lingvo mankas sufiĉe grandaj paralelaj tekstoj (Tekstoj en du aŭ pluraj lingvoj). Sed tio estas ja normala prezo de naiva kaj hobia komenco.

La reagoj de uzantoj kaŭzas ofte pli da labore ol helpo. Sed ili estas necesaj kaj mi ĉiam respondas je leteroj de uzantoj kaj interesantoj. Mi ĝojas ĉiam pri la reagoj kaj mi povas diri, ke ĉiu, kiu skribas al mi, partoprenas en la projekto. Tiu blogo estas ankaŭ por mi la ilo por malplialtigi la laboron kun reagoj de uzantoj. Mi povos ja nun ofte respondi: Bonvolu legi la blogon kun numero tiu kaj tiu. Mia espero estas ankaŭ, ke aliaj programistoj malkaŝas por si mem, ke komputila lingvistiko ne estas tial senespere komplika kampo, kiel oni tion edukas.

Pomysł tłumaczenia maszynowego istnieje z początku pojawienia się komputerów. Tłumaczenie maszynowe i sztuczna myśl były marzeniem pierwszych programistów, przypuszczalnie, ponieważ te tematy byłyby dobrze rozumiane dla rozległej publiczności. Tłumaczenie jest trudnym zadaniem, które mógą załatwiać jedynie kilku ludzi po długiej nauce. Dlatego komputer, który tłumaczy, byłby dowodem dla zdatności komputerów.

Każdy teraz wie, że nie istnieją komputery, które mógą myśleć albo tłumaczyć w poziomie od ludzi. Długo po licznych {fiaskaj} projektach, w których zgubiono dużą ilość pieniędzy, nawet specjaliści myśleli, że programowanie tych systemów nie jest możliwe. Historia językoznawstwa informatycznego dobrze opisuje znany dokument {Machine} {Translation}: past, present, future. Często nawet Esperantyści werbują dla Esperanto z argumentem, że tłumaczenie maszynowe nie jest możliwe i nigdy nie będzie możliwe. W tym przypadku często prezentuje się bardzo ekscentryczne zdania, które jedynie bardzo trudno są możliwe do tłumaczenia nawet dla zawodowych tłumaczy. Jestem pewny, że podobnymi argumentami można by było także dowieść, że tłumaczenie ogólnie nie jest możliwe. Lecz temat komputerowego językoznawstwa nie zmarł i nawet ostatnio dobrze robi postępy. Aczkolwiek nie istnieją perferkcyjne programy tłumaczeniowe, pojedyncze odrobiny komputerowego językoznawstwa pojawiają się coraz częściej. Nieomal każdy użytkuje teraz korektę ortograficzną w edytorach tekstu i słowniki komputerowe. Także “{google}” jest wszakże dziecko językoznawstwa komputerowego.

Dlaczego spełzło na niczym tyle projektów o tłumaczeniu maszynowym?

Można by było ogólnie powiedzieć, że projekty komputerowe bardzo często spełzną na niczym. Połowa projektów nigdy nie skończy się i 75 % projektów nie osiąga celów. Oni są kosztowniejsi albo nie mają koniecznych zaplanowanych funkcji. Temat maszynowego tłumaczenia ma domiary specjalne cechy, które nawet robią te projekty nawet trudniejsze i niebezpieczniejsze. To jest:

Ma się bardzo wysokie oczekiwania. Chce się programy, które władają licznymi językami, tłumaczy się w rzeczywistym czasie w licznych kierunkach i można rozumieć powiane słowa i sami mówić.
Potrzebuje się licznych specjalistów rozmaitych zakresów
Kluczowa lingwistyczna teoria, która jest w praktyce zdatna, nie istniała. Historyczne teorie nie były zdatne dla licznych przypadków.
Lingwistyczni programowi wymaga duże konieczności do komputerów. Do 1980 komputery nie są zdatne dla językoznawstwa, ponieważ oni nie mieli koniecznej prędkości i pamięci. Osiągalne komputery we wczesnym czasie były zbyt kosztowne. Powinno się przemyśleć, że nawet kluczowy słownik ma 50000 słów. Przetwarzać, przeszukać albo redagować tą ilość informacji jest dla ówczesnych komputerów bardzo trudne zadanie.
Projekty nieomal zawsze zaczynały od zera. Lingwiści nic nie wiedzieli o komputerach, programiści nic nie wiedzieli o językoznawstwie. Trzeba by było pisać programy i rozwiązywać kluczowe techniczne wyzwania. Lingwiści musieli stworzyć zdatne teorie.
Każdy zawodowy projekt ma jedynie ograniczoną ilość sposobów. Pierwsza granica jest czasem. Trzeba mieć wyniki po jednym albo dwóch latach. Po tym czasie członkowie projektu zaczynają trochę rozumieli o temacie projektu.
Te projekty były zbyt duże. Organizacja dużych projektów jest nawet więcej skomplikowana aniżeli temat projektów. Odpowiedzialni często myślą, że każdy problem jest rozpuszczalny dodatkowymi uczestnikami projektu. Znana {programista} anegdota mówi, że według ten tryb myślenia można by było stwierdzać: Aby mieć jednym nowego człowieka byłoby się potrzebny jedną kobietę i 9 miesięcy czasu. Można by było rozdwajać czas mając dwie kobiety.
Nie istniały tworzywa komputerowe, które można było użytkować od początku.

Myślę, że pierwszy problem jest, że projekty chciały jedynie osiągnąć wszystko. Nie próbowano podzielić zadanie w licznych zakresach. Aczkolwiek projekty spełzną na niczym, oni często pozwalają liczne wyniki albo nawet rozwiązania pojedynczych problemów. Lecz dla powodów pieniężnych jest często przypuszczalnie inaczej zdawać te wyniki do kolejnych projektów. Więc liczne wyniki znikają w archiwach na zawsze. Projekty znikają, jakby oni nigdy nie byli. W najbardziej dobrym przypadku zostaje od tych projektów małe sprawozdanie albo naukowe urządzenie, lecz słowniki albo prawodawstwo programowe, to wszystko znika na zawsze.

Pierwsze projekty zostały zapłacone przez wojenne siły, ponieważ oni potrzebowali tłumaczenie maszynowe dla szpiegostwa innych krajów. Dlatego wyniki tych projektów były państwowymi sekretami. W uniwersytetach, które także miały lingwistyczne projekty, użytkowano dla projektów studentów, którymi nie są dobrzy doświadczoni programiści i często porzucali projekt po jednym albo dwóch latach. To jest zbyt krótki okres aby skutecznie produkować zdatne wyniki. Handlowe projekty spełzły na niczym według mojej opinii przede wszystkim dla przypadku krótkiego czasu. Handlarze myślą przede wszystkim jedynie w jednorocznych okresach księgowości. Do teraz nieomal nie istnieje rynek dla części rozwiązań informatyki. Ten zakres handlowego programowania nie pracuje według sposób wszystko albo nic. Czy ktoś pamięta o systemach jako {Amiga} OS, OS / 2 albo rozmaite inne programy, które na zawsze znikały, aczkolwiek ono toczyły dobrze i były zdatne. Do przed krótkim czasem wydawało się, że w tym handlowym zakresie może być jedynie jedne zdobywcą. To jest albo IBM albo MS. Lecz teraz istnieje inny świat komputerowy wolnych programów. Więc jest przypuszczalnie toczyć cały system jedynie wolnym oprogramowaniem.

Lingwistyczne projekty. Czy problem interkomunikacji?

Programiści i lingwiści pochodzą z całkiem innych zakresów wiedzy. Oni mieli inny sposób rozwiązywać problemy. Myślę, że zła współpraca pomiędzy lingwistami i programistami jest także dużym powodem niepowodzeń. Programiści pochodzą z naukowego zakresu matematyki. Oni szukali według sposób matematyczny krótkiego dokładnego przepis, który jest prawdziwy dla każdego przypadku. Teoria akademicka językoznawstwa jest pełna logicznych przepisów, które nieomal są inaczej w praktycznym użyciu. Naturalnych języków nie można opisać prostymi przepisami.

W projektach komputerowych zazwyczaj ma się dwie grupy ludzi. Pierwsza grupa jest tak zwanymi technicznymi specjalistami. To są programiści. Inna grupa jest naukowymi specjalistami, którzy wiedzą trochę o temacie projektu. Sukces projektu zależy często od możliwości nauki dwóch grup jeden od drugim. Programiści muszą uczyć się od specjalistów i specjaliści muszą uczyć się od programistów.

Lingwiści pochodzą z ludzkich wiedz, podobnie do filozofi albo literatury. Dla nich język był historycznie czymś {sakra}, coś magiczne, coś, co nie koniecznie trzeba logicznie rozumieć. Lingwiści zajmują się języki z nieomal pobożnym sposobem. Oni akceptują misteria i nielogiczne wyrażenia. Oni nie udowadniają. Oni lubią oficjalnie dyskutować o osobliwościach. Argument autorytetu jest ważniejszy aniżeli logiczny dowód. Lingwistyczne teorie były więc wcześnie całkiem zdatne inaczej dla programistów, którzy muszą wszakże wydać pragmatyczne i praktyczne wyniki. Myślę, że nowe pokolenie lingwistów krok po kroku uczy się użytkować naukowe metody w językoznawstwie. Oni użytkują statystykę, udowadniają wyniki na dużych grupach tekstów. Oni uczyli się segregować teorię według częstość użyteczności. Osobliwości więcej nie grają rolę ważną rolę w teoriach. Oni nawet uczyli się użytkować komputer i zezwalają do innych dotykać ich {sakran} język.

Lecz także stosunek programistów ze sztywną matematyczną głębią jest szkodliwy dla lingwistycznych projektów. Dobry opis taksy programowania dają nam Kulturowe aspekty komputerowego programowania. Programiści czekali od naturalnego języka na podobne cechy, jak oni to znają od programowych języków. Zajmować się naturalne języki jest po pierwsze sztuka zarządzać wyjątki. Dlatego nie można zważać jakiś przepis, który opisuje wszystkie zjawiska języka.

Zwyczajne problemy, z którymi spotykają się programiści, są także inne aniżeli ci językoznawstwa. Zazwyczaj wyniki programów muszą być bardzo pewne. Powinno się przemyśleć systemy komputerowe, które licznych lat pracują w bankach albo w handele. Komputery nastawiają liczne systemy. Oni przechowują duże danie. Oni muszą być bezpieczni i pewni. W językoznawstwie, problemy są często nie pewne. Problemy mają statystyczną przyrodę. W informatyce, każde wyrażenie jest albo prawdziwe albo fałszywe. Naturalne języki nie mają tych cech. Dlatego lingwistyczne programy muszą przetwarzać daty, które mieszczą omyłki,, które nie są całkiem możliwe do analizy. Wyniki tłumaczenia maszynowego jedynie trudno można ocenić, ponieważ nawet tłumaczenia ludzi są sporne. Nie istnieje przedmiotowa miara jakości tłumaczenia.

Naturalny język podąża za statystycznymi zasadami naturalnych zjawisk. Na przykład można z 10 prostymi prawidłami dobrze opisać 80 % od teksty, dla pozostałe 10 % potrzebowałoby 20 prawideł, i dla ostatnich 10 % tekstów potrzebowałoby się całkiem inną teorię i dla licznych ludzi te zdania byłyby godne dyskusji względem ich poprawności. Tym zjawiskiem jest znana na nazwie zasada Pareta

Językoznawstwo komputerowe w obecnym Stanie

Lingwiści i programiści wiele uczyli się od wczesnych niepowodzeń. Obecne naukowe urządzenia mają wysoką praktyczną zdatność. Istnieją udane projekty, które zajmują się jedynie jeden ograniczony zakres językoznawstwa. Inne projekty mógą użytkować wynik innych projektów. Dla tego ważniejszego jest także wolne programowanie, które bez pieniężnych komplikacji zezwala użytkować wczesne wyniki innych projektów. GPL licencja zapewnia, że praca ludzi staje się częścią człowieczego dziedzictwa i nie znika w jakiejś szufladzie. Ta praca nie może być także użyta mylnie przez handlowe firmy. Lecz zawsze istnieje niebezpieczeństwo, że duże handlowe siły, które aby stać się większe użytkują ich najbardziej niebezpieczne bronie, to są adwokaci, dla zabraniać do innych jakąś działalność i tryb myślenia. Najbardziej bezecny i pełny fałszów przyrząd w pieniądzach adwokatów jest {softvaraj} patentami.

Zadowalający inaczej jest także {komercigo} uniwersyteckich projektów. Aczkolwiek liczne uniwersyteckie projekty są wcześniej finansowane przez publiczne pieniądze, który pochodzi wszakże z naszych podatków, wyniki tych badań nie są wolnie osiągalne. Więc dla języka angielskiego istnieje wolna semantyczna mapa słów {WordNet}, lecz podobny projekt dla europejskich języków {EuroNet} jest osiągalny jedynie o dużej cenie. Liczne uniwersytety współdziałają w tym zakresie i wymieniają wyniki ich badań gratis, lecz to wszakże znaczyłoby, że jedynie uniwersytety mają prawo badać naukowo według naukowe zasady, według które wszakże naukowa wiedza jest publicznym dobrem. W końcu ta {komercigita} wiedza nie pomogłaby nikomu i wyniki, które nie są osiągalne w prawdzie nie istnieją.

Zrozumienie uprawnień autorskich przy lingwistycznych źródłach mogłoby być trudnym problemem dla językoznawstwa komputerowego. Ogólnie język nie zalicza się jakiemuś specjalnemu osobnikowi. Zamenhof także czynił Esperanto publicznym dobrem i on zrezygnował z uprawnień autorskich Esperanto. Lecz to nie jest pewna sprawa przy słownikach. Słownik jest po pierwsze mieniem wydawnictwa. Czy słowo, które pojawia się we słowniku staje się automatycznie mienie wydawnictwa. Czy jakieś zdanie, albo jakimś specjalnym użyciem słowa jest mienie autora tego zdania. Aby unikać te problemy jedynie użytkuję wolne źródła jako REVO przy moim programowaniu. Mogłoby być, że inne źródła są lepsze, lecz użycie tych źródeł jest {malrekomendinda}. Powiniśmy przemyśleć więc położenie. Poprawiałem wewnętrzny słownik w programie według opis zawodowego słownika w tradycyjnej kondycji książkowej, którą kupiłem o normalnej cenie. Przy jednym słowie to wszakże nie jest problem, lecz jeśli to zrobiłem przy 100 albo 1000 słów, mogę mieć problemy, ponieważ ktoś może zaskarżyć mnie, że ukradłem część słownika. Ten będzie mógł być bardzo dużym problemem przy Esperanto, ponieważ ten język jest nowy i zbudowany, naprzeciw do narodowych języków można by było znaleźć twórca jakiegoś słowa, zdanie i specjalne gramatyczne użycie. Mam nadzieję, że nie będę mieć tego problemu, ponieważ ani program ani Esperanto nie stanie się tak słynny, że jacyś handlarze będą mieć interesy finansować adwokatów aby znieść ten projekt. Przypuszczalnie z powodu normalnych osobników to ogólnie wydaje się bardzo możliwa inaczej sprawa, lecz to niestety często odbywa się przy programowaniu.

Powstały jednak dodatnie sprawy. Liczne handlowe firmy opublikują wyniki ich pracy według GPL licencja. Na przykład bardzo znany język programowania JAVA stał się ostatnio częścią wolnego oprogramowania. Naturalnie, firmy robią to w położeniu, kiedy oni nie mógą pokonać handlowego zawodnika i tym krokiem, oni chcą minimalnie nadwątlić zawodnika. Lecz firmy także zauważyły, że otwarcie projektów pozytywnie wywiera wpływ na projekty i jednak pozwala do nich możliwości zarabiać pieniądze dodatkowymi usługami. Także duży lingwistyczny projekt {Open} Będzie nęcić stał się otwarty. To jest bardzo zadowalająca sprawa, ponieważ źródła, którymi po pierwsze staje się część wolnego programowania nie może zostać {enproprigitaj} przez kogoś, więc nimi stają się część ludzkiego dziedzictwa.

Teraz istnieją liczne źródła w sieci globalnej, od której można wyczerpywać wiedza o językoznawstwie. {Okulfrape} jest, że przede wszystkim jedynie z powodu języka angielskiego istnieje kompletna oferta rozwiązań. Nieszczęśliwie język angielski jest językiem, który zalicza się od komputerowego punktu widzenia najtrudniejszemu językowi dla komputerowego zajmowania. Dlatego postęp jest bardzo wolny. Bardzo zadowalający dla mnie jest fakt, że także dla polskiego i niemieckiego języka pojawiają się dobre źródła. (gramatyka polska, słownik Niemiecki bliskoznaczników) Oni są często {publikigaj} od entuzjaści, lecz z dobrą jakością.

Dla dużych języków teraz można by było budować silny system części, które teraz istnieją. Programiści wiedzą, że wklejenie modułów, które użytkują różne techniki komputerowe są często bardzo trudne zadanie. Dlatego nie powinno się czekać na szybki postęp.
W handlowym zakresie istnieją firmy, które mają powodzenie sprzedać językoznawcze programy do zawodowych tłumaczy o dużej cenie. Aczkolwiek zawodowi tłumacze są często najbardziej wielkimi krytykami pomysłu maszynowego tłumaczenia, oni samą często użytkują te programy. Dziwię się, że do teraz opłaca się dla tłumaczeń o przetłumaczonym słowie, aczkolwiek często dla zwyczajnych dokumentów, tłumacze mają wszakże szablony z gotowym tłumaczeniem na ich komputerach i przy “tłumaczeniu” oni muszą wpisywać jedynie kilka nazw i dat. Zawodowe tłumaczenie oficjalnych dokumentów jest fabryką pieniędzy, i ci ludzie zrobią wszystko aby długo mieć to źródło łatwych pieniędzy.

Nie powinno się mieć nadzieję, że zawodowe programy pojawiają się kiedyś dla Esperanto. Nie istnieją oficjalne dokumenty w Esperanto, które trzeba by było tłumaczyć, więc konieczność tych programów nieomal nie istnieją. Teraz jedynie kilka dużych języków jest w całości zajmowane się przez te programy.

Esperanto w językoznawstwie komputerowym

Często mówi się w Środowisku esperanckim o zdatności Esperanto dla lingwistycznej informatyki. Jednak wyniki są liche. Kardynalny powód tego jest, że projekty, które są zapłacone przez narodowe źródła, nie chcą poprzeć nie narodowy język. Esperanto mogło wszakże przekradać się do tych projektów jako lingua franca, lecz prawdę mówiąc Esperanto nie jest z technicznego punktu widzenia dobrą linguą franca (powina odtwarzać). Nie myślę, że to często zdarzy się ponownie w przyszłym czasie. Lecz istnieją projekty w innym kierunku, które są poprzane przez esperanckie środowisko. Dla mnie ważne projekty są REVO, grupa tekstów i PMEG. Esperancka wikipedia jest także ważna. Trzeba stwierdzać, że Esperanto konkuruje z innymi językami w tym zakresie. Jeśli zaczyna się lingwistyczny projekt, zajmuje się, które źródła i rozwiązania są teraz zdatne i gotowe. W pierwszej stronie Esperanto obiecuje, że ono będzie łatwiejsze, w drugiej stronie inne języki (w zasadzie angielski język) mają więcej gotowe rozwiązania i źródła. Myślę, że także w tym zakresie Esperanto już ponosiło klęskę z językiem angielskim. Po pierwsze teraz każdy programista zna już angielski język, ponieważ bez języka angielskiego sobie nie miał powodzenie stać się programistą. Po drugie, który chce uczyć się nowego i rzadko użytkowanego język małej grupy aby zrobić doświadczenia z nim? Robi się to jedynie z powodu interesu hobbego albo dla nauki. Łatwość Esperanto nie może zdobyć rozległe pojawienie się angielskiego języka w językoznawstwie komputerowym. Myślę, że teraz pierwsza szansa jakimś pobytem Esperanto w językoznawstwie komputerowym jest projektami hobbymi i wolnym programowaniem. W tym położeniu jest ważnie, że wszystkie źródła są opublikowane według wolna licencja.

Wolne programowanie i językoznawstwo komputerowe

Wolne programowanie miało kilka sukcesów we swojej histori. Największy sukces jest wolnym systeym operacyjny systemem Linuks. Teraz jest przypuszczalnie użytkować komputer, który toczy jedynie wolne programy. Te programy są nawet tak wielce udane, że handlowe firmy, jest zainteresowane o tych projektach, i nie programiści użytkują te programy. Do teraz wolne programy są napisane najbardziej od programistów dla programistów. Oni programowali systemy operacyjne, edytorów tekstu, przyrządy programowe dla swojej codziennej pracy. Naturalny język jest dla programistów nie bardzo interesujący. Jednak zostaje byłe marzenie wczesnych programistów programować komputer, który myśli i kto tłumaczy.

Wyzwanie maszynowego tłumaczenia jest więc interesujące i znane dla programistów. Do teraz pojawiły się już kilka projektów, które albo szybko zmarło albo nie jest aktywnie {pluevoluigita} (Tłumaczyć, {Linguaphile}, {Translato}). To jest normalna sprawa. Najczęściej programiści nie są gotowi jedynie i dla długiego czasu przetwarzać jeden temat. Ponieważ powstaje bardzo liczna ilość wolnych projektów, jedynie bardzo trudno można znaleźć użytkowników i pomoce. Szansa, że jakiś projekt przeżyje czas interesu pierwszego autora jest bardzo mały. Projekty komputerowe są potrzebne zazwyczaj kilka lat dojrzewania. Ten długi czas jest konieczny właśnie dla lingwistycznych projektów, ponieważ w tym czasie trzeba uczyć się rozległej teori. {maturiĝoestas} także konieczny po reakcjach użytkowników. Jest bardzo trudna sprawa programować program, który jest lekko zdatny. Dla programistów, ich własne programy są zawsze łatwe, dlatego oni jedynie trudno zauważają trudności o użyteczności programów.

Projekt “Esperantilo”

Kiedy zacząłem programować pierwsze linie prawodawstwa dla Esperantilo, nigdy nie myślałem, że po dwóch latach będę programować tłumaczenie maszynowe i będzie myśleć o syntaktycznej analizie. Chciałem jedynie mieć prostego edytora tekstu dla Windowsu i Linuks, którym bez żmudnego instalowania można pisać te osobliwe esperanckie litery. Potem myślałem o korekcie ortograficznej i gramatycznej korekturze, ponieważ zawsze zapominałem bierniku. Pisałem program po pierwsze dla mnie samego. Potem odtwarzałem wiele o tłumaczeniu maszynowym i ogólnie o językoznawstwie komputerowym. Zauważyłem, że autorzy nie byli dobrymi programistami, i że oni całkiem nie znają nowych technik programowania. W ówczesnym czasie trudniłem się o nowym języku programowym {XOTcl} i {programada} środowisko {XOTclIDE}, którego przedtem sam programowałem. Szukałem tematu aby dowieść zdatność tego języka i programowego środowiska. W moich wczesnych doświadczeniach zauważyłem, że ten język programowy zezwala do mnie efektywniejsze programowanie. Także znalazłem w sieci globalnej kilka tworzyw o Esperanto. Esperanto uczyłem się wcześnie całkiem losowo od mojego kolegi i nawet uczestniczyłem w lokalnym kursie w mieście Essen. Nie stałem się członkiem jakiegoś esperanckiego stowarzyszenia. Znalazłem bardzo rześkiego REVO, MPEG i grupę tekstów. Więc nie musiałem zacząć od zera. Miałem źródła, które mogłem użytkować. Także informowałem mnie o podobnych projektach i często przeszukałem sieć. Nie mam dużych celów i planów, lecz próbowałem dokładać nowe funkcje, i jeśli oni funkcjonują, programuję dalej. Ponieważ wiedziałem, że ryzyko, że nie będę mieć powodzenie, jestem bardzo duży, ja początku wybrałem kilka strategi aby spuszczać to ryzyko.

Moja metoda programowa jest wielce wywierana wpływ od tak zwana Extrame Programming, którą znałem od języka programowania Smalltalk. Środowisko programowe umożliwia tak zwane interaktywne programowanie. Według ta metoda można zmienić program, który jednocześnie toczy. To jest bardzo uczynne przy lingwistycznych programach i to zachęca do doświadczeń. Po pierwsze wytyczałem najodleglejsze cele do tych, którzy ja sam mógą kiedyś osiągnąć. Więc chciałem wymyślić nowy język albo budować całkiem nową technikę. Po drugie definiowałem dla mnie kilka strategi:

Program dąży jedynie tłumaczyć od Esperanto i przetwarzać jedynie Esperancki język.
Docelowe języki są językami, które ja sam znam.
Nie obliczam o pomocy innych o motcie: “zacząłem coś i inni to zakończyli ”.
Użytkuję już znane techniki i teorie. Ponieważ nie jestem lingwistą, nie chcę zacząć pracę nowe naukowe teorie.
Jeśli to jest możliwe, użytkuję gotowe wolne rozwiązania. Koncentrowałem się o specjalnych esperanckich tematach, ponieważ jestem nie prawdopodobnie, że inni tego zrobili.
Program zawsze musiałby być zdatny dla jakiejś taksy i wydać wyniki. Potem cel jest ulepszyć wyniki. Dążę do rozwojowego postępu. Nie chciałem, że program jest zdatny jedynie po kilku latach.
Staję się publiczny jednocześnie wszystkie wyniki: słowniki, źródłowe prawodawstwo, testowe zdania.
Po pierwsze robię zadania, które jedynie ja sam mogę zrobić. Więc programuję, lecz użytkuję gotowe słowniki. Ja sam nie staję się kompletny słowników, ponieważ to może zrobić potem inni. Ulepszam słowniki jedynie przy oczywistych omyłkach.
Szukam dialog z użytkownikami według sposób wolnego programowania.
Nie związuję z programem jakichś handlowych planów i unikam odnośniki z handlowymi środowiskami.

Esperantilo jest doświadczeniem, programowanie mogłoby zawsze skończyć się, na przykład ponieważ nie widziałbym szans dla dodatkowej ewolucji albo więcej nie cieszyłbym się programowanie. Dlatego chcę schronić wyniki tego projektu. Opublikuję wszystkie źródła i słowniki. Kolejne projekty mogłyby te źródła użytkować. Także piszę ten weblog aby wykazać pracę. Także, jeśli projekt jest hobby i perferkcyjny inaczej, ono może być źródłem dla krytyki i dla porównania z kolejnymi projektami.

Ludzie podsuwali do mnie, że ten projekt jest zbyt ambitny, dla projektu hobbego jedne człowieka. Tak, z pewnością całkiem zarówno zajmowałem się ten projekt wcześnie, jeśli ktoś dał mi plan programować jego. Lecz teraz już dowiodłem dla mnie samego, że jestem przypuszczalnie więcej aniżeli ja to myślałem wcześnie. Z pewnością to nie jest dowód, że projekt robi postępy w podobnym czasie potem. W tym projekcie więc nie powinno się ocenić planów lecz faktów. I fakty nie mógą być ambitne, oni są prawdziwi albo fałszywi. Piszę to, ponieważ doświadczam, że często nawet użytkownicy, którzy troszeczkę użytkowali program, nie raportują omyłek, ponieważ oni myślą, że projekt nie ma szansy {pluevoluo}.

Także nie jestem łatwowiernym programistą o wolnym programowaniu, ponieważ mam długie doświadczenie w tym środowisku. Fakt jest, że najbardziej duża część projektów żyje od jednej osoby, więc muszę zrobić wszystko jedynie. Programiści, którzy właśnie pisali kilka lini i potem werbują dla innych programistów muszą zawieść, jeśli oni mają nadzieję o dużej pomocy. Powodowie programistów wolnego programowania są różną, czystą uczynnością są bardzo rzadcy. Z pewnością nie można policzyć o uczynności fachowców, ponieważ oni utrzymują się ich zawodowością. Także nie powinno się policzyć o dokładnej krytyce, to także byłaby wszakże jakaś pomoc.

W tym czasie także uczyłem się mnóstwa i musiałem zastosować moje wczesne oczekiwania. Po pierwsze musiałem stwierdzać, że Esperanto jest naturalnym językiem i nie bardzo różny od innych naturalnych języków. Istnieją zakresy w Esperanto, które są zarówno skomplikowane jak w innych językach. Więc łatwość Esperanto jest jedynie ograniczona w pozostałych zakresach.
Po drugie zauważyłem, że teoria Esperanto nie jest trwała. Istnieją liczne różne teorie o tym języku i jest trudno znaleźć czyste odpowiedzi o drobiazgach. Także źródła, które są osiągalne w TTT, nie są kompletne.
Musiałem więc często przetwarzać kluczowe źródła jako słowniki. Ponieważ Esperanto jest bardzo nowym językiem i mocno rozwija się, nie istnieje trwały sposób jego użycia. Esperantyści często imitują swój ojczysty język. Dlatego syntaktyczna analiza jest dużym wyzwaniem. Bardzo efektywne słowotwórstwo w Esperanto utrudnia {samgrade} tłumaczenie maszynowe. Liczne statystyczne techniki maszynowego tłumaczenia nie zdatnego dla Esperanto, ponieważ w tym języku brakują dosyć dużych równoległych teksty (Teksty w dwa albo liczne języki). Lecz to jest wszakże normalna cena łatwowiernego i hobbego początku.

Reakcje użytkowników powodują często więcej pomocniczo aniżeli pomoc. Lecz oni są konieczni i zawsze odpowiadam o listach użytkowników i zaciekawiających. Cieszę się zawsze z reakcji i mogę powiedzieć, że każdy, który pisze do mnie, uczestniczy w projekcie. Tym weblogiem jest także dla mnie przyrząd aby powiększyć inaczej pracę z reakcjami użytkowników. Będę mógł wszakże teraz często odpowiedzieć: Zechciej odtwarzać weblog z numerem ten i ten. Moja nadzieja jest także, że inni programiści ujawniają dla siebie samego, że językoznawstwo komputerowe nie jest dlatego beznadziejnie skomplikowanym zakresem, jak to kształci się.

Artukuł został przetłumaczony w pełni maszynowo przez wolny program Esperantilo
Adres kontaktowy:

mail@xdobry.de