Opis algorytmów: Różnice pomiędzy wersjami
Z Otwarty System Antyplagiatowy
Linia 36: | Linia 36: | ||
* Konieczność przechowywania nadmiarowych danych | * Konieczność przechowywania nadmiarowych danych | ||
− | == Semantic comparison == | + | == Analiza języka naturalnego (Semantic comparison) == |
− | == Citation analysis == | + | |
− | == Machine Learning == | + | * Rozpoznawanie tekstów podobnych, o tym samym znaczeniu, parafraza |
− | == Stylometry == | + | * Bardzo dokładne |
+ | * Starają się zrozumieć tekst analogicznie do człowieka | ||
+ | * Bardzo duża złożoność obliczeniowa, działanie "w sąsiedztwie" | ||
+ | |||
+ | == Analiza cytowań (Citation analysis) == | ||
+ | |||
+ | * Wymagana jest solidnie zrobiona bibliografia wraz z odnośnikami | ||
+ | * Stosowana głównie w pracach naukowych | ||
+ | * Bardzo szybka metoda | ||
+ | * Łatwo oszukać manipulując bibliografią i cytowaniami | ||
+ | * Można użyć jako dodatkowego algorytmu preselekcji | ||
+ | |||
+ | == Uczenie maszynowe (Machine Learning) == | ||
+ | |||
+ | * Wymagany bardzo dobry zbiór uczący | ||
+ | * Duża złożoność obliczeniowa | ||
+ | * Naśladują człowieka (sieci neuronowe) | ||
+ | * Możliwość wykrywania dokumentów podobnych | ||
+ | |||
+ | == Stylometria (Stylometry) == | ||
+ | |||
+ | * Możliwość wyszukiwania osób piszących prace dyplomowe na zlecenie (analiza całej bazy) | ||
+ | * Można ocenić czy praca jest danego studenta na podstawie innych jego tekstów | ||
+ | * Analiza "gorących słów" | ||
+ | * Używana w historii (wiek tekstu, autorstwo tekstu) | ||
+ | * Można oszukać poprzez wcześniejsze użycie programu stylometrycznego, częste błędy użytkownika są poprawiane przez automaty |
Wersja z 11:28, 30 cze 2015
System OSA jest tworzony przez polskich naukowców i doświadczonych programistów/administratorów. Używamy nowoczesnego autorskiego algorytmu będącego wynikiem połączenia kilku metod antyplagiatowych i wzięcia z nich to co najlepsze. Jako jedyni chwalimy się naszymi metodami w świecie naukowym na konferencjach jak i w artykułach naukowych co czyni je pewnymi i sprawdzonymi przez grono polskich i światowych specjalistów.
Spis treści
[ukryj]- 1 Przegląd znanych metod i algorytmów
- 1.1 Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching)
- 1.2 Model wektorowy (Vector Space Model)
- 1.3 Odciski palców (Fingerprinting)
- 1.4 Analiza języka naturalnego (Semantic comparison)
- 1.5 Analiza cytowań (Citation analysis)
- 1.6 Uczenie maszynowe (Machine Learning)
- 1.7 Stylometria (Stylometry)
Przegląd znanych metod i algorytmów
Poniżej zamieszczamy przegląd znanych i opisanych w literaturze naukowej algorytmów antyplagiatowych wraz z wyróżnieniem ich najmocniejszych i najsłabszych cech.
Porównywanie czystych tekstów i wyszukiwanie wspólnych części (String matching)
Najpopularniejszy i najstarszy algorytm używany przez większość firm antyplagiatowych na świecie.
- Wymaga dostępu do treści wszystkich prac w oryginale
- Wyszukuje wspólne podciągi słów / znaków
- Bardzo powolne
- Złożoność liniowa przy wyszukiwaniu
- Złożoność kwadratowa przy analizie całej bazy
- Konieczność iteracji po wszystkich elementach
Model wektorowy (Vector Space Model)
- Wymaga przygotowania bazy
- Krótszy czas porównania dokumentów
- Możliwość zastosowania różnych miar i metryk podobieństwa
- Złożoność liniowa / kwadratowa
- Nie korzysta z oryginałów
- Konieczność sprawdzenia kandydatów na koniec innym algorytmem
- Wymaga przechowywania nadmiarowych danych
Odciski palców (Fingerprinting)
- Wymaga przetworzenia bazy
- Porównywanie nie pracuje na oryginałach
- Najszybsze w działaniu
- Długa faza przygotowania
- Możliwość zastosowania w bardzo dużych zbiorach
- Możliwość zbudowania wydajnego indeksu (złożoność logarytmiczna lub stała względem bazy)
- Konieczność przechowywania nadmiarowych danych
Analiza języka naturalnego (Semantic comparison)
- Rozpoznawanie tekstów podobnych, o tym samym znaczeniu, parafraza
- Bardzo dokładne
- Starają się zrozumieć tekst analogicznie do człowieka
- Bardzo duża złożoność obliczeniowa, działanie "w sąsiedztwie"
Analiza cytowań (Citation analysis)
- Wymagana jest solidnie zrobiona bibliografia wraz z odnośnikami
- Stosowana głównie w pracach naukowych
- Bardzo szybka metoda
- Łatwo oszukać manipulując bibliografią i cytowaniami
- Można użyć jako dodatkowego algorytmu preselekcji
Uczenie maszynowe (Machine Learning)
- Wymagany bardzo dobry zbiór uczący
- Duża złożoność obliczeniowa
- Naśladują człowieka (sieci neuronowe)
- Możliwość wykrywania dokumentów podobnych
Stylometria (Stylometry)
- Możliwość wyszukiwania osób piszących prace dyplomowe na zlecenie (analiza całej bazy)
- Można ocenić czy praca jest danego studenta na podstawie innych jego tekstów
- Analiza "gorących słów"
- Używana w historii (wiek tekstu, autorstwo tekstu)
- Można oszukać poprzez wcześniejsze użycie programu stylometrycznego, częste błędy użytkownika są poprawiane przez automaty