System OSA jest tworzony przez polskich naukowców i doświadczonych programistów/administratorów. Używamy nowoczesnego autorskiego algorytmu będącego wynikiem połączenia kilku metod antyplagiatowych i wzięcia z nich to co najlepsze. Jako jedyni chwalimy się naszymi metodami w świecie naukowym na konferencjach jak i w artykułach naukowych co czyni je pewnymi i sprawdzonymi przez grono polskich i światowych specjalistów.

Spis treści

1 Przegląd znanych metod i algorytmów

Przegląd znanych metod i algorytmów

Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech.

Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching)

Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie.

Wymaga dostępu do treści wszystkich prac w oryginale
Wyszukuje wspólne podciągi słów / znaków
Bardzo powolne
Złożoność liniowa przy wyszukiwaniu
Złożoność kwadratowa przy analizie całej bazy
Konieczność iteracji po wszystkich elementach

Model wektorowy (Vector Space Model)

Wymaga przygotowania bazy
Krótszy czas porównania dokumentów
Możliwość zastosowania różnych miar i metryk podobieństwa
Złożoność liniowa / kwadratowa
Nie korzysta z oryginałów
Konieczność sprawdzenia kandydatów na koniec innym algorytmem
Wymaga przechowywania nadmiarowych danych

Odciski palców (Fingerprinting)

Wymaga przetworzenia bazy
Porównywanie nie pracuje na oryginałach
Najszybsze w działaniu
Długa faza przygotowania
Możliwość zastosowania w bardzo dużych zbiorach
Możliwość zbudowania wydajnego indeksu (złożoność logarytmiczna lub stała względem bazy)
Konieczność przechowywania nadmiarowych danych

Analiza języka naturalnego (Semantic comparison)

Rozpoznawanie tekstów podobnych, o tym samym znaczeniu, parafraza
Bardzo dokładne
Starają się zrozumieć tekst analogicznie do człowieka
Bardzo duża złożoność obliczeniowa, działanie "w sąsiedztwie"

Analiza cytowań (Citation analysis)

Wymagana jest solidnie zrobiona bibliografia wraz z odnośnikami
Stosowana głównie w pracach naukowych
Bardzo szybka metoda
Łatwo oszukać manipulując bibliografią i cytowaniami
Można użyć jako dodatkowego algorytmu preselekcji

Uczenie maszynowe (Machine Learning)

Wymagany bardzo dobry zbiór uczący
Duża złożoność obliczeniowa
Naśladują człowieka (sieci neuronowe)
Możliwość wykrywania dokumentów podobnych

Stylometria (Stylometry)

Możliwość wyszukiwania osób piszących prace dyplomowe na zlecenie (analiza całej bazy)
Można ocenić czy praca jest danego studenta na podstawie innych jego tekstów
Analiza "gorących słów"
Używana w historii (wiek tekstu, autorstwo tekstu)
Można oszukać poprzez wcześniejsze użycie programu stylometrycznego, częste błędy użytkownika są poprawiane przez automaty

Otwarty System Antyplagiatowy

Opis algorytmów