System NEKST

Z Otwarty System Antyplagiatowy
Wersja z dnia 19:20, 27 cze 2015 autorstwa Acacko (dyskusja | edycje) (Utworzono nową stronę "'''System NEKST''' jest pierwszą polską semantyczną wyszukiwarką internetową. Powstała w IPI PAN w latach 2009-2014. Adres domowy: [http://nekst.pl nekst.pl] == I...")

(różn.) ← poprzednia wersja | przejdź do aktualnej wersji (różn.) | następna wersja → (różn.)
Skocz do: nawigacja, szukaj

System NEKST jest pierwszą polską semantyczną wyszukiwarką internetową. Powstała w IPI PAN w latach 2009-2014. Adres domowy: nekst.pl

Informacje

Pierwsza w Polsce i największa dotychczas semantyczna wyszukiwarka internetowa NEKST powstała w ramach Programu Operacyjnego Innowacyjna Gospodarka POIG.01.01.02-14-013/09: Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych

NEKST to skrót od: Narzędzia EKsploracji Semantycznej Tekstów

Wyszukiwarka NEKST ma docelowo działać w oparciu o koło 1 miliard dokumentów polskojęzycznych. W chwili obecnej działa w oparciu o ponad 600 milionów dokumentów. W trakcie prac nad wyszukiwarką opracowano szereg rozwiązań związanych z analizą ogromnych danych tekstowych. Użyto bądź opracowano wiele zaawansowanych narzędzi lingwistycznych w celu stworzenia semantyczności wyszukiwarki (rozumienia języka polskiego). Zaimplementowano również cały system wyszukiwarkowy, pająki internetowe jak i framework do przetwarzania wielkich zbiorów danych (oparty o Apache HADOOP).

Geneza powstania usługi antyplagiatowej

W trakcie prac nad wyszukiwarką wielkim problemem okazały się lustrzane strony. Internet okazał się bardzo redundantny. Powszechną praktyką było np. stawianie na własnej domenie kopii Wikipedii. Bardzo często zdarzało się, że niektóre strony firmowe były powielone na kilku różnych domenach należących do tych samych podmiotów. Problem ten należało wyeliminować by po wpisaniu hasła do wyszukiwarki nie pojawiały się te same wyniki z odniesieniami do różnych domen. Opracowano wtedy wysokowydajny moduł do odnajdowania duplikatów stron.

Fakt, że NEKST posiada ciągle działające pająki internetowe skanujące polską sieć - stworzono dodatkowo możliwość świadczenia usługi antyplagiatowej. Zmieniając nieznacznie koncepcję wyszukiwania duplikatów (jako cały dokument) na koncepcję wyszukiwania podobnych fragmentów (jako frazy dokumentu) udało się zaprojektować bardzo wydajną i szybką usługę antyplagiatową.