Opis algorytmów

Z Otwarty System Antyplagiatowy
Skocz do: nawigacja, szukaj

System OSA jest tworzony przez polskich naukowców i doświadczonych programistów/administratorów. Używamy nowoczesnego autorskiego algorytmu będącego wynikiem połączenia kilku metod antyplagiatowych i wzięcia z nich to co najlepsze. Jako jedyni chwalimy się naszymi metodami w świecie naukowym na konferencjach jak i w artykułach naukowych co czyni je pewnymi i sprawdzonymi przez grono polskich i światowych specjalistów.

Przegląd znanych metod i algorytmów

Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech.

Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching)

Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie.

  • Wymaga dostępu do treści wszystkich prac w oryginale
  • Wyszukuje wspólne podciągi słów / znaków
  • Bardzo powolne
  • Złożoność liniowa przy wyszukiwaniu
  • Złożoność kwadratowa przy analizie całej bazy
  • Konieczność iteracji po wszystkich elementach

Model wektorowy (Vector Space Model)

  • Wymaga przygotowania bazy
  • Krótszy czas porównania dokumentów
  • Możliwość zastosowania różnych miar i metryk podobieństwa
  • Złożoność liniowa / kwadratowa
  • Nie korzysta z oryginałów
  • Konieczność sprawdzenia kandydatów na koniec innym algorytmem
  • Wymaga przechowywania nadmiarowych danych

Odciski palców (Fingerprinting)

  • Wymaga przetworzenia bazy
  • Porównywanie nie pracuje na oryginałach
  • Najszybsze w działaniu
  • Długa faza przygotowania
  • Możliwość zastosowania w bardzo dużych zbiorach
  • Możliwość zbudowania wydajnego indeksu (złożoność logarytmiczna lub stała względem bazy)
  • Konieczność przechowywania nadmiarowych danych

Semantic comparison

Citation analysis

Machine Learning

Stylometry