Opis algorytmów
Z Otwarty System Antyplagiatowy
System OSA jest tworzony przez polskich naukowców i doświadczonych programistów/administratorów. Używamy nowoczesnego autorskiego algorytmu będącego wynikiem połączenia kilku metod antyplagiatowych i wzięcia z nich to co najlepsze. Jako jedyni chwalimy się naszymi metodami w świecie naukowym na konferencjach jak i w artykułach naukowych co czyni je pewnymi i sprawdzonymi przez grono polskich i światowych specjalistów.
Spis treści
Przegląd znanych metod i algorytmów
Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech.
Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching)
Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie.
- Wymaga dostępu do treści wszystkich prac w oryginale
- Wyszukuje wspólne podciągi słów / znaków
- Bardzo powolne
- Złożoność liniowa przy wyszukiwaniu
- Złożoność kwadratowa przy analizie całej bazy
- Konieczność iteracji po wszystkich elementach
Model wektorowy (Vector Space Model)
- Wymaga przygotowania bazy
- Krótszy czas porównania dokumentów
- Możliwość zastosowania różnych miar i metryk podobieństwa
- Złożoność liniowa / kwadratowa
- Nie korzysta z oryginałów
- Konieczność sprawdzenia kandydatów na koniec innym algorytmem
- Wymaga przechowywania nadmiarowych danych
Odciski palców (Fingerprinting)
- Wymaga przetworzenia bazy
- Porównywanie nie pracuje na oryginałach
- Najszybsze w działaniu
- Długa faza przygotowania
- Możliwość zastosowania w bardzo dużych zbiorach
- Możliwość zbudowania wydajnego indeksu (złożoność logarytmiczna lub stała względem bazy)
- Konieczność przechowywania nadmiarowych danych