System NEKST: Różnice pomiędzy wersjami

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj
Linia 6: Linia 6:
 
'''NEKST''' to skrót od: Narzędzia EKsploracji Semantycznej Tekstów
 
'''NEKST''' to skrót od: Narzędzia EKsploracji Semantycznej Tekstów
  
Wyszukiwarka NEKST ma docelowo działać w oparciu o koło 1 miliard dokumentów polskojęzycznych. W chwili obecnej działa w oparciu o ponad 600 milionów dokumentów. W trakcie prac nad wyszukiwarką opracowano szereg rozwiązań związanych z analizą ogromnych danych tekstowych. Użyto bądź opracowano wiele zaawansowanych narzędzi lingwistycznych w celu stworzenia semantyczności wyszukiwarki (rozumienia języka polskiego). Zaimplementowano również cały system wyszukiwarkowy, pająki internetowe jak i framework do przetwarzania wielkich zbiorów danych (oparty o Apache HADOOP).
+
Wyszukiwarka NEKST ma docelowo obejmować 1 miliard dokumentów polskojęzycznych. W chwili obecnej korzysta z ponad 600 milionów dokumentów. W trakcie prac nad wyszukiwarką opracowano szereg rozwiązań związanych z analizą ogromnych danych tekstowych. Użyto bądź opracowano wiele zaawansowanych narzędzi lingwistycznych w celu umożliwienia semantycznej analizy języka polskiego. Zaimplementowano również cały system wyszukiwarki, pająki internetowe jak i framework do przetwarzania wielkich zbiorów danych (Apache HADOOP).
  
Celem całego projektu była konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych. Analiza ma dotyczyć zawartej w dokumentach wiedzy i informacji reprezentowanej w postaci tekstu oraz wybranych elementów multimedialnych. System będzie łączy mechanizmy: automatycznej odpowiedzi na zadane w języku polskim pytania, automatycznej analizy opinii oraz wielkoskalowej, przekrojowej analizy semantycznej źródeł elektronicznych, połączonej z wyszukiwaniem i wizualizacją wyników. Głównym obiektem analizy będą polskojęzyczne dokumenty tekstowe. Kierownikiem projektu jest IPI PAN, partnerem Instytut Informatyki Politechniki Wrocławskiej. Czas trwania projektu: 2009/04/01 - 2014/06/25, wartość projektu: 14.991.014 PLN.
+
Celem całego projektu była konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych. Analiza miała dotyczyć zawartej w dokumentach wiedzy i informacji reprezentowanej w postaci tekstu oraz wybranych elementów multimedialnych. System łączy mechanizmy: automatycznej odpowiedzi na zadane w języku polskim pytania, automatycznej analizy opinii oraz wielkoskalowej, przekrojowej analizy semantycznej źródeł elektronicznych, połączonej z wyszukiwaniem i wizualizacją wyników. Głównym obiektem analizy polskojęzyczne dokumenty tekstowe. Kierownikiem projektu byłIPI PAN, partnerem Instytut Informatyki Politechniki Wrocławskiej. Czas trwania projektu: 2009/04/01 - 2014/06/25, wartość projektu: 14.991.014 PLN.
 
+
==System wydajnego indeksowania dokumentów tekstowych==
+
Moduł indeksowania dokumentów tekstowych umożliwia rozproszone, wysokowydajne wzbogacanie dokumentów tekstowych o następujące elementy: a) podział na zdania, b) lematyzacja słów, c) anotacja słów częściami mowy, d) rozkład zależnościowy zdań. Moduł umożliwia indeksowanie setek milionów dokumentów w czasie rzędu kilku godzin,  przyjmuje na wejściu dokumenty tekstowe przechowywane w rozproszonej bazie danych. Technologie wykorzystane: Java, Spring, Hadoop, Oozie, narzędzia do NLP.
+
 
+
==Rozproszona baza danych typu NoSQL==
+
Moduł odpowiada za składowanie danych generowanych przez wszystkie procesy w systemie. Pozwala na zakładanie tabel przechowujących rekordy typu klucz-wartość, gdzie klucz oraz wartość to obiekty serializowane do ciągów bajtów. System, w porównaniu do innych tego typu rozwiązań, charakteryzuje się następującymi właściwościami:
+
* rozproszenie następuje według wartości haszującej obliczonej dla klucza (równomierne rozłożenie rekordów na węzłach bazy danych, w przeciwieństwie do systemu HBase),
+
* wszystkie dane zapisywane są w rozproszonym systemie plików Hadoop HDFS, co efektywnie zabezpiecza przed utratą danych (podstawowa różnica w stosunku do systemów typu Cassandra czy MongoDB),
+
* efektywna implementacja operacji JOIN na tabelach,
+
* efektywna iteracja po tabelach za pomocą mechanizmu Map-Reduce,
+
* obsługa awarii pojedynczych węzłów (failover),
+
* wydajna implementacja strumieniowego zapisu danych do tabeli (do 50 MB/s per węzeł).
+
Moduł działa w oparciu o technologie: Java, Hadoop.
+
  
 
==Geneza powstania usługi antyplagiatowej==
 
==Geneza powstania usługi antyplagiatowej==
 
W trakcie prac nad wyszukiwarką wielkim problemem okazały się lustrzane strony. Internet okazał się bardzo redundantny. Powszechną praktyką było np. stawianie na własnej domenie kopii Wikipedii. Bardzo często zdarzało się, że niektóre strony firmowe były powielone na kilku różnych domenach należących do tych samych podmiotów. Problem ten należało wyeliminować by po wpisaniu hasła do wyszukiwarki nie pojawiały się te same wyniki z odniesieniami do różnych domen. Opracowano wtedy wysokowydajny moduł do odnajdowania duplikatów stron.
 
W trakcie prac nad wyszukiwarką wielkim problemem okazały się lustrzane strony. Internet okazał się bardzo redundantny. Powszechną praktyką było np. stawianie na własnej domenie kopii Wikipedii. Bardzo często zdarzało się, że niektóre strony firmowe były powielone na kilku różnych domenach należących do tych samych podmiotów. Problem ten należało wyeliminować by po wpisaniu hasła do wyszukiwarki nie pojawiały się te same wyniki z odniesieniami do różnych domen. Opracowano wtedy wysokowydajny moduł do odnajdowania duplikatów stron.
  
Fakt, że NEKST posiada ogromny zbiór dokumentów internetowych oraz ciągle działające pająki internetowe skanujące polską sieć - stworzono dodatkowo możliwość świadczenia usługi antyplagiatowej. Zmieniając nieznacznie koncepcję wyszukiwania duplikatów (jako cały dokument) na koncepcję wyszukiwania podobnych fragmentów (jako frazy dokumentu) udało się zaprojektować bardzo wydajną i szybką usługę znajdowania zapożyczeń względem dokumentów.
+
Ponieważ NEKST posiada ogromny zbiór dokumentów internetowych oraz ciągle działające pająki internetowe skanujące polską sieć, stworzono dodatkowo możliwość świadczenia usługi antyplagiatowej. Zmieniając nieznacznie koncepcję wyszukiwania duplikatów (jako cały dokument) na koncepcję wyszukiwania podobnych fragmentów (jako frazy dokumentu) udało się zaprojektować bardzo wydajną i szybką usługę znajdowania zapożyczeń.
  
 
== Zobacz też ==
 
== Zobacz też ==

Wersja z 13:52, 26 paź 2015

System NEKST jest pierwszą polską semantyczną wyszukiwarką internetową. Powstała w IPI PAN w latach 2009-2014. Adres domowy: nekst.pl

Informacje

Pierwsza w Polsce i największa dotychczas semantyczna wyszukiwarka internetowa NEKST powstała w ramach Programu Operacyjnego Innowacyjna Gospodarka POIG.01.01.02-14-013/09: Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych

NEKST to skrót od: Narzędzia EKsploracji Semantycznej Tekstów

Wyszukiwarka NEKST ma docelowo obejmować 1 miliard dokumentów polskojęzycznych. W chwili obecnej korzysta z ponad 600 milionów dokumentów. W trakcie prac nad wyszukiwarką opracowano szereg rozwiązań związanych z analizą ogromnych danych tekstowych. Użyto bądź opracowano wiele zaawansowanych narzędzi lingwistycznych w celu umożliwienia semantycznej analizy języka polskiego. Zaimplementowano również cały system wyszukiwarki, pająki internetowe jak i framework do przetwarzania wielkich zbiorów danych (Apache HADOOP).

Celem całego projektu była konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych. Analiza miała dotyczyć zawartej w dokumentach wiedzy i informacji reprezentowanej w postaci tekstu oraz wybranych elementów multimedialnych. System łączy mechanizmy: automatycznej odpowiedzi na zadane w języku polskim pytania, automatycznej analizy opinii oraz wielkoskalowej, przekrojowej analizy semantycznej źródeł elektronicznych, połączonej z wyszukiwaniem i wizualizacją wyników. Głównym obiektem analizy są polskojęzyczne dokumenty tekstowe. Kierownikiem projektu byłIPI PAN, partnerem Instytut Informatyki Politechniki Wrocławskiej. Czas trwania projektu: 2009/04/01 - 2014/06/25, wartość projektu: 14.991.014 PLN.

Geneza powstania usługi antyplagiatowej

W trakcie prac nad wyszukiwarką wielkim problemem okazały się lustrzane strony. Internet okazał się bardzo redundantny. Powszechną praktyką było np. stawianie na własnej domenie kopii Wikipedii. Bardzo często zdarzało się, że niektóre strony firmowe były powielone na kilku różnych domenach należących do tych samych podmiotów. Problem ten należało wyeliminować by po wpisaniu hasła do wyszukiwarki nie pojawiały się te same wyniki z odniesieniami do różnych domen. Opracowano wtedy wysokowydajny moduł do odnajdowania duplikatów stron.

Ponieważ NEKST posiada ogromny zbiór dokumentów internetowych oraz ciągle działające pająki internetowe skanujące polską sieć, stworzono dodatkowo możliwość świadczenia usługi antyplagiatowej. Zmieniając nieznacznie koncepcję wyszukiwania duplikatów (jako cały dokument) na koncepcję wyszukiwania podobnych fragmentów (jako frazy dokumentu) udało się zaprojektować bardzo wydajną i szybką usługę znajdowania zapożyczeń.

Zobacz też