System NEKST

System NEKST jest pierwszą polską semantyczną wyszukiwarką internetową. Powstała w IPI PAN w latach 2009-2014. Adres domowy: nekst.pl

Spis treści

1 Informacje
2 System wydajnego indeksowania dokumentów tekstowych
3 Rozproszona baza danych typu NoSQL
4 Geneza powstania usługi antyplagiatowej

Informacje

Pierwsza w Polsce i największa dotychczas semantyczna wyszukiwarka internetowa NEKST powstała w ramach Programu Operacyjnego Innowacyjna Gospodarka POIG.01.01.02-14-013/09: Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych

NEKST to skrót od: Narzędzia EKsploracji Semantycznej Tekstów

Wyszukiwarka NEKST ma docelowo działać w oparciu o koło 1 miliard dokumentów polskojęzycznych. W chwili obecnej działa w oparciu o ponad 600 milionów dokumentów. W trakcie prac nad wyszukiwarką opracowano szereg rozwiązań związanych z analizą ogromnych danych tekstowych. Użyto bądź opracowano wiele zaawansowanych narzędzi lingwistycznych w celu stworzenia semantyczności wyszukiwarki (rozumienia języka polskiego). Zaimplementowano również cały system wyszukiwarkowy, pająki internetowe jak i framework do przetwarzania wielkich zbiorów danych (oparty o Apache HADOOP).

Celem całego projektu była konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych. Analiza ma dotyczyć zawartej w dokumentach wiedzy i informacji reprezentowanej w postaci tekstu oraz wybranych elementów multimedialnych. System będzie łączy mechanizmy: automatycznej odpowiedzi na zadane w języku polskim pytania, automatycznej analizy opinii oraz wielkoskalowej, przekrojowej analizy semantycznej źródeł elektronicznych, połączonej z wyszukiwaniem i wizualizacją wyników. Głównym obiektem analizy będą polskojęzyczne dokumenty tekstowe. Kierownikiem projektu jest IPI PAN, partnerem Instytut Informatyki Politechniki Wrocławskiej. Czas trwania projektu: 2009/04/01 - 2014/06/25, wartość projektu: 14.991.014 PLN.

System wydajnego indeksowania dokumentów tekstowych

Moduł indeksowania dokumentów tekstowych umożliwia rozproszone, wysokowydajne wzbogacanie dokumentów tekstowych o następujące elementy: a) podział na zdania, b) lematyzacja słów, c) anotacja słów częściami mowy, d) rozkład zależnościowy zdań. Moduł umożliwia indeksowanie setek milionów dokumentów w czasie rzędu kilku godzin, przyjmuje na wejściu dokumenty tekstowe przechowywane w rozproszonej bazie danych. Technologie wykorzystane: Java, Spring, Hadoop, Oozie, narzędzia do NLP.

Rozproszona baza danych typu NoSQL

Moduł odpowiada za składowanie danych generowanych przez wszystkie procesy w systemie. Pozwala na zakładanie tabel przechowujących rekordy typu klucz-wartość, gdzie klucz oraz wartość to obiekty serializowane do ciągów bajtów. System, w porównaniu do innych tego typu rozwiązań, charakteryzuje się następującymi właściwościami: - rozproszenie następuje według wartości haszującej obliczonej dla klucza (równomierne rozłożenie rekordów na węzłach bazy danych, w przeciwieństwie do systemu HBase), - wszystkie dane zapisywane są w rozproszonym systemie plików Hadoop HDFS, co efektywnie zabezpiecza przed utratą danych (podstawowa różnica w stosunku do systemów typu Cassandra czy MongoDB), - efektywna implementacja operacji JOIN na tabelach, - efektywna iteracja po tabelach za pomocą mechanizmu Map-Reduce, - obsługa awarii pojedynczych węzłów (failover), - wydajna implementacja strumieniowego zapisu danych do tabeli (do 50 MB/s per węzeł). Moduł działa w oparciu o technologie: Java, Hadoop.

Geneza powstania usługi antyplagiatowej

W trakcie prac nad wyszukiwarką wielkim problemem okazały się lustrzane strony. Internet okazał się bardzo redundantny. Powszechną praktyką było np. stawianie na własnej domenie kopii Wikipedii. Bardzo często zdarzało się, że niektóre strony firmowe były powielone na kilku różnych domenach należących do tych samych podmiotów. Problem ten należało wyeliminować by po wpisaniu hasła do wyszukiwarki nie pojawiały się te same wyniki z odniesieniami do różnych domen. Opracowano wtedy wysokowydajny moduł do odnajdowania duplikatów stron.

Fakt, że NEKST posiada ciągle działające pająki internetowe skanujące polską sieć - stworzono dodatkowo możliwość świadczenia usługi antyplagiatowej. Zmieniając nieznacznie koncepcję wyszukiwania duplikatów (jako cały dokument) na koncepcję wyszukiwania podobnych fragmentów (jako frazy dokumentu) udało się zaprojektować bardzo wydajną i szybką usługę antyplagiatową.