System NEKST

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj

System NEKST jest pierwszą polską semantyczną wyszukiwarką internetową. Powstała w Instytucie Podstaw Informatyki Polskiej Akademii Nauk (IPI PAN) w latach 2009-2014. Adres domowy: nekst.pl

Informacje

Pierwsza w Polsce i największa dotychczas semantyczna wyszukiwarka internetowa NEKST powstała w ramach Programu Operacyjnego Innowacyjna Gospodarka POIG.01.01.02-14-013/09: Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych.

NEKST to skrót od: Narzędzia EKsploracji Semantycznej Tekstów.

Wyszukiwarka NEKST ma docelowo obejmować 1 miliard dokumentów polskojęzycznych. W chwili obecnej korzysta z ponad 600 milionów dokumentów. W trakcie prac nad wyszukiwarką opracowano szereg rozwiązań związanych z analizą ogromnych danych tekstowych. Użyto bądź opracowano wiele zaawansowanych narzędzi lingwistycznych w celu umożliwienia semantycznej analizy języka polskiego. Zaimplementowano również cały system wyszukiwarki, pająki internetowe jak i framework do przetwarzania wielkich zbiorów danych (Apache HADOOP).

Celem całego projektu była konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych. Analiza miała dotyczyć zawartej w dokumentach wiedzy i informacji reprezentowanej w postaci tekstu oraz wybranych elementów multimedialnych. System łączy mechanizmy: automatycznej odpowiedzi na zadane w języku polskim pytania, automatycznej analizy opinii oraz wielkoskalowej, przekrojowej analizy semantycznej źródeł elektronicznych, połączonej z wyszukiwaniem i wizualizacją wyników. Głównym obiektem analizy są polskojęzyczne dokumenty tekstowe. Liderem projektu był IPI PAN, partnerem Instytut Informatyki Politechniki Wrocławskiej. Projekt trwał od 2009/04/01 do 2014/06/25 i miał budżet w wysokości 14.991.014 PLN.

Geneza powstania usługi antyplagiatowej

W trakcie prac nad wyszukiwarką wielkim problemem okazały się lustrzane strony. Internet okazał się bardzo redundantny. Powszechną praktyką było np. stawianie na własnej domenie kopii Wikipedii. Bardzo często zdarzało się, że niektóre strony firmowe były powielone na kilku różnych domenach należących do tych samych podmiotów. Problem ten należało wyeliminować by po wpisaniu hasła do wyszukiwarki nie pojawiały się te same wyniki z odniesieniami do różnych domen. Opracowano wtedy wysokowydajny moduł do odnajdowania duplikatów stron.

Ponieważ NEKST posiada ogromny zbiór dokumentów internetowych oraz ciągle działające pająki skanujące polską sieć, stworzono dodatkowo możliwość świadczenia usługi antyplagiatowej. Zmieniając nieznacznie koncepcję wyszukiwania duplikatów (jako całych dokumentów) na koncepcję wyszukiwania podobnych fragmentów (jako fraz dokumentu) udało się zaprojektować bardzo wydajną i szybką usługę znajdowania zapożyczeń.

Zobacz też