Opis algorytmów
Z Otwarty System Antyplagiatowy
System OSA jest tworzony przez polskich naukowców i doświadczonych programistów/administratorów. Używamy nowoczesnego autorskiego algorytmu będącego wynikiem połączenia kilku metod antyplagiatowych i wzięcia z nich to co najlepsze. Jako jedyni chwalimy się naszymi metodami w świecie naukowym na konferencjach jak i w artykułach naukowych co czyni je pewnymi i sprawdzonymi przez grono polskich i światowych specjalistów.
Spis treści
- 1 Przegląd znanych metod i algorytmów
- 1.1 Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching)
- 1.2 Model wektorowy (Vector Space Model)
- 1.3 Odciski palców (Fingerprinting)
- 1.4 Analiza języka naturalnego (Semantic comparison)
- 1.5 Analiza cytowań (Citation analysis)
- 1.6 Uczenie maszynowe (Machine Learning)
- 1.7 Stylometria (Stylometry)
Przegląd znanych metod i algorytmów
Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech.
Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching)
Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie.
- Wymaga dostępu do treści wszystkich prac w oryginale
- Wyszukuje wspólne podciągi słów / znaków
- Bardzo powolne
- Złożoność liniowa przy wyszukiwaniu
- Złożoność kwadratowa przy analizie całej bazy
- Konieczność iteracji po wszystkich elementach
Model wektorowy (Vector Space Model)
- Wymaga przygotowania bazy
- Krótszy czas porównania dokumentów
- Możliwość zastosowania różnych miar i metryk podobieństwa
- Złożoność liniowa / kwadratowa
- Nie korzysta z oryginałów
- Konieczność sprawdzenia kandydatów na koniec innym algorytmem
- Wymaga przechowywania nadmiarowych danych
Odciski palców (Fingerprinting)
- Wymaga przetworzenia bazy
- Porównywanie nie pracuje na oryginałach
- Najszybsze w działaniu
- Długa faza przygotowania
- Możliwość zastosowania w bardzo dużych zbiorach
- Możliwość zbudowania wydajnego indeksu (złożoność logarytmiczna lub stała względem bazy)
- Konieczność przechowywania nadmiarowych danych
Analiza języka naturalnego (Semantic comparison)
- Rozpoznawanie tekstów podobnych, o tym samym znaczeniu, parafraza
- Bardzo dokładne
- Starają się zrozumieć tekst analogicznie do człowieka
- Bardzo duża złożoność obliczeniowa, działanie "w sąsiedztwie"
Analiza cytowań (Citation analysis)
- Wymagana jest solidnie zrobiona bibliografia wraz z odnośnikami
- Stosowana głównie w pracach naukowych
- Bardzo szybka metoda
- Łatwo oszukać manipulując bibliografią i cytowaniami
- Można użyć jako dodatkowego algorytmu preselekcji
Uczenie maszynowe (Machine Learning)
- Wymagany bardzo dobry zbiór uczący
- Duża złożoność obliczeniowa
- Naśladują człowieka (sieci neuronowe)
- Możliwość wykrywania dokumentów podobnych
Stylometria (Stylometry)
- Możliwość wyszukiwania osób piszących prace dyplomowe na zlecenie (analiza całej bazy)
- Można ocenić czy praca jest danego studenta na podstawie innych jego tekstów
- Analiza "gorących słów"
- Używana w historii (wiek tekstu, autorstwo tekstu)
- Można oszukać poprzez wcześniejsze użycie programu stylometrycznego, częste błędy użytkownika są poprawiane przez automaty