ssrcw's Introduction

Student’s Scientific Research Course Work

Эта работа посвящена применению методов машинного обучения в системах выявления плагиата с целью решения проблемы узкоспециализированных понятий.

Как известно, в системах выявления плагиата, для определения уникальности текста, используется алгоритм Шинглов. Данный алгоритм не может определить контекст и тему научной статьи для того, чтобы исключить из проверки те слова, которые характерны для данной темы статьи. Это может привести к ситуации, когда человек понимает, что уникальность статьи выше необходимого порога, а алгоритм, поскольку работа изобилует одинаковыми словами (терминами), посчитает её недостаточно уникальной.

Целью работы является построение модели машинного обучения, определяющей характерные слова для данной темы, которые будут удаляться из стати, и в свою очередь уже обработанный текст, будет поступать на вход алгоритма Шинглов. Схематически это выглядит так:

Работа состоит из нескольких шагов:

Сбор данных для анализа. Необходимо...

Recommend Projects

ilyastarkov / ssrcw Goto Github PK

ssrcw's Introduction

Student’s Scientific Research Course Work

ssrcw's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent