Spis treści Artykuł originalny « Poprzedni artykul Nastepny artykul »

Analiza łączników w Wikipedi

Analizo de ligiloj en Vikipedio

Orignał w języku EsperantoMaszynowe tłumaczenie na język polski

La tre grava avantaĝo de vikipedio super la paperaj enciklopedioj estas ligiloj inter artikoloj. La vikipedio oferas ankaŭ la eblon navigi en ambaŭ direktoj. Do trovi artiklojn, kiu havas ligilon al cetera artikolo.

Mi iomete ludis kun statistika analizo de tiuj legiloj. Kiel kutime mi programis etan programon, kiu legas ceteran artikolon kaj analizas rekursie ligilon kun difinita profundo. La plej komplika parto de programo estas la vida montro de rezultoj. La programo unue kolektas ĉiujn ligojn, poste la ligoj estas orditaj laŭ ofteco. La speciala algoritmo kalkulas la gravecon de speciala vorto rilate de cetera vorto (kerna vorto). Je pli malproksima la vorto al kerna vorto des pli grava la vorto. La graveco estas ankaŭ pli granda, se la vorto estas ofte ligita al aliaj artikoloj.

ligila reto por esperanto

La ideo de analizo de retaj ligiloj ne estas nova. Tio estas la ĉefa ideo de algoritmo de konata “Google”, kiu ordigas la TTT-paĝojn laŭ graveco. La hipotezo estas, ke gravaj paĝoj havas multajn elirajn ligilojn. Se ni transigas tiun ideo al vikipedio, tiukaze la kernaj vortoj devas esti pli ofte ligitaj ol flankaj vortoj. Miaj unuaj pruvoj konstatis tiun hipotezon. Ekzemple por vorto “vino” ni povas tre rapide trovi flankaj vortojn: vinbero, barelo, tino, komunio, likvaĵo, oziriso, amforo, trinkaĵo, biero, egipto. Sed ofte la ligojn kondukas tre rapide al tre nova kampo. Ekzemple: viro -> afriko -> libio. La kazo estas, ke en artikolo pri homo troviĝas foto kun viro el afriko, kaj la lasta estas ligita al artikolo pri afriko. Ofte la ligilaj vojoj estas tre surprizaj kaj pensigaj. Laŭ tiu maniero oni povas ankaŭ bone ekkoni, ke aŭtoroj sekvas ne nur enciklopediaj devojn.

Mi pensas ke tiu analizo estas tre taŭga por trovi aŭtomate kernaj vortoj rilate al iu faka vorto. Sur tiu vojo oni povas tre rapide (kaj plene aŭtomate) konstati, ke vortoj : “programaro, linukso, programlingvo, dosierujo” apartenas al kampo de “komputiko”. Tio laboras mirige fidele. Mia precipa intereso de tiu ekzerco rilatas kiel kutime al maŝina tradukado. Mi pensis pri aŭtomta kategorigo de vortoj kaj tekstoj por pli bone elekti tradukajn vortarojn (percipe sinonimoj). La bonan kolekton de vortaj kompoj donas al ni jam REVO. La analizo de ligiloj en vikipedio povus plivastigi la bazan provizon de REVO. Oni povus analizi ne nur ligilojn, sed ankaŭ la koncernajn artikolojn mem por atingi pli bonajn rezultojn.

Fine mi pensas ankaŭ pri semantikaj retoj, kiuj estas necesaj por bonkvalita maŝina tradukado. La elstara projekto en tiu kampo estas angla WordNet. Retoj de ligiloj kaj semantikaj retoj estas certe aliaj aferoj, sed eble retoj de ligiloj povus helpi ĉe konstruo de semantika reto. Por miaj celoj tiel preciza semantika reto laŭ modelo de “WordNet” ne estas bezonata. La pli ĝenerala kategoriigo estus sufiĉa. Ofte la problemo estas, ke oni devas scii, ĉu iu substantivo estas: persono, vivaĵo, abraktaĵo aŭ objekto. Mi esperas, ke kun aliaj teknikoj kiel sintaksa analizo de vikipedio, tiu kategoriigo povus esti farita tute aŭtomate.

Ekzemple de frazo: “frato estas homo, kiu …” oni povas derivi ke “frato” estas “persono”. Aŭ de frazo: “patro pensis pri tiu”, oni povas derivi, ke nur inteligentaj vivaĵoj povas pensi, do “patro” estas inteligenta vivaĵo. Ankaŭ adjektivaj atributoj povas diri ion pri la subjekto. Se io havas farbon kaj grandecon, tio signifas, ke tio ne estas abstrakta. Ekzistas ankaŭ trampaj figuraj frazoj, kiun oni devas statistike forfiltri.

Bardzo ważna zaleta wikipedi ponad papierowymi encyklopediami jest łącznikami pomiędzy artykułami. Wikipedia ofiaruje także możliwość żeglować w obydwóch kierunkach. Więc znaleźć produkty, który ma łącznika do pozostałego artykułu.

Troszeczkę grałem ze statystyczną analizą tych czytników. Jak zazwyczaj programowałem mały program, który odtwarza pozostały artykuł i rozpatruję {rekursie} łącznika z konieczną głębokością. Najbardziej skomplikowana część programu jest wzrokowym pokazaniem wyników. Program po pierwsze zbiera wszystkie odnośniki, potem odnośniki są podzielone według częstość. Specjalny algorytm oblicza powagę specjalnego słowa względem od pozostałego słowa (zasadnicze słowo). Na bardziej daleki słowo do zasadniczego słowa tym ważniejszy słowo. Powaga jest także większa, jeśli słowo jest często wcześniej wiązane do innych artykułów.

ligila reto por esperanto

Pomysł analizy internetowych łączników nie jest nowy. To jest główny pomysł algorytmu od znany “{Google}”, który segreguje {TTT-paĝojn} według powaga. Hipoteza jest, że ważne strony mają licznych {elirajn} łączników. Jeśli zdajemy tego pomysł do wikipedi, w tym przypadku zasadnicze słowa muszą zostać częściej wcześniej wiązane aniżeli poboczne słowa. Moje pierwsze dowody stwierdzały tą hipotezę. Na przykład dla słowa “wino” my może bardzo szybko znaleźć poboczne słowa: winogrono, beczka, ceber, komunia, płyn, Ozyrys, amfora, napój, piwo, Egipt. Lecz często odnośniki wodzi bardzo szybko do bardzo nowego zakresu. Na przykład: mężczyzna - > Afryka - > Libia. Przypadek jest, że w artykule o człowieku znajduje się zdjęcie z mężczyzną z Afryki, i ostatni jest wcześniej wiązany do artykułu o Afryce. Często {ligilaj} drogi są bardzo zaskakujące i {pensigaj}. Według ten sposób można także dobrze poznać, że autorzy podążają nie jedynie encyklopedyczni za powinnościami.

Myślę, że ta analiza jest bardzo zdatna aby znaleźć automatycznie zasadnicze słowa względem jakiegoś naukowego słowa. Na tej drodze można bardzo szybko (i pełno automatycznie) stwierdzać, że słowa: “oprogramowanie, Linuks, język programowania, folder” zalicza się zakresowi “informatyki”. To pracuje zadziwiające wiernie. Mój główny interes tego zadania odnosi się jak zazwyczaj do tłumaczenia maszynowego. Myślałem o {aŭtomta} {kategorigo} słów i tekstów aby lepiej wybrać słowniki tłumaczeniowe ({percipe} bliskoznaczniki). Dobrą kolekcję wyrazowych {kompoj} daje nam już REVO. Analiza łączników w wikipedi mogłaby poszerzyć kluczowe zaopatrzenie REVO. Można by było rozpatrywać nie jedynie łączników, lecz także dane artykuły sami dla osiągnąć lepsze wyniki.

W końcu myślę także o semantycznych sieciach, które są konieczne dla wysokojakościowego maszynowego tłumaczenia. Wybitny projekt w tym zakresie jest angielski {WordNet}. Sieci łączników i semantycznych sieci są z pewnością innymi sprawami, lecz przypuszczalnie sieci łączników mogłyby pomóc przy budowie semantycznej sieci. Dla moich celów tak dokładna semantyczna sieć według model od “{WordNet}” nie jest potrzebna. Ogólniejszy {kategoriigo} byłby wystarczający. Często problem jest, że trzeba wiedzieć, czy jakiś rzeczownik jest: osoba, bydlę, {abraktaĵo} albo rzecz. Mam nadzieję, że z innymi technikami jak syntaktyczna analiza wikipedi, ten {kategoriigo} mógłby zostać zrobiony całkiem automatycznie.

Na przykład zdania: “brat jest człowiekiem, który …” może wywodzić, że “brat” jest “osobą”. Albo od zdania: “ojciec myślał o tym”, można wywodzić, że jedynie inteligentne bydla mógą myśleć, więc “ojciec” jest inteligentnym bydlem. Także przymiotnikowe właściwości mógą powiedzieć coś o subiekcie. Jeśli coś ma farbę i wielkość, to znaczy, że to nie jest abstrakcyjne. Istnieją także {trampaj} obrazowe zdania, które trzeba statystycznie {forfiltri}.

Artukuł został przetłumaczony w pełni maszynowo przez wolny program Esperantilo
Adres kontaktowy:
mail@xdobry.de