Giter Site home page Giter Site logo

grammarly / ua-gec Goto Github PK

View Code? Open in Web Editor NEW
255.0 13.0 21.0 18.46 MB

UA-GEC: Grammatical Error Correction and Fluency Corpus for the Ukrainian Language

Home Page: https://ua-gec-dataset.grammarly.ai/

License: Creative Commons Attribution 4.0 International

Makefile 0.01% Python 0.40% Macaulay2 99.60%
dataset corpus gec grammatical-error-correction ukrainian-language corpus-data corpus-tools natural-language-processing nlp-datasets

ua-gec's People

Contributors

danmysak avatar mariana-scorp avatar olenanahorna avatar osyvokon avatar pavlo-kuchmiichuk avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

ua-gec's Issues

Додайте, будь ласка, максимально коротку інструкцію по першому запуску

Додайте, будь ласка, максимально коротку інструкцію по першому запуску :)

Хотілося б використати даний репозиторій і погратися з ним, але взагалі незрозуміло з чого й починати. Ні документації, ні блоку як працювати з репозиторієм в ReadMe файлі =(

Або ж посилання на іншу інструкцію аналогічну до вашої бібліотеки.

Дякую!

M2 format representation.

Hi there,
That's a truly tremendous contribution to the development of the Ukrainian GEC. Great job!
By the way, do you plan to add the m2 format representation/converter to this dataset?

Issue with data point 730 in train split

There appears to be a problem with the target rendering for data point 730 in the train split. Notice below that the source text contains 5 bullet points whereas the target text contains only 4, because the last two have been merged and this part of the text has been lost altogether: "Вони ходять по вулицях, чекають тебе під будинком, стрибають на тебе в пошуках їжі і гавкають ночами. Враховуючи мою нелюбов до бродячих псів, для мене це був стрес)"

>>> print(doc.source)

Рай чи пекло?

"І на сонці бувають плями" як то кажуть, тому і на цьому дивовижному острові є свої особливості, які можуть перетворити відпочинок у пекло. Для мене особисто такими недоліками стало наступне:

◇ живність - окрім китів, слонів і бурундуків, які милують око, тут є комарі, мурахи, кукарачі, павуки, ящірки, жаби, змії, варани, кажани і тд. І це не в зоопарку. Це у вас в номері/на віллі, на пляжі, на вулицях міста.

◇ шум - всі автобуси з музичним супроводом і дуже голосним, тому будьте готові слухати зірок місцевого шоу-бізу постійно, хочете ви того чи ні. Кондуктори в автобусах постійно кричать у відкриті двері, зазиваючи пасажирів, і на їх фоні наші крикуни "Рівне - Корець - Новоград" на столичному вокзалі, просто забиті тіхоні) На дорогах шалений трафік з автобусів, тук-туків, мопедів і велосипедів. Кожен з них бібікає приблизно раз на 20 секунд (поздоровкатись, попередити про обгін чи поворот, виказати незадоволення). Можете собі уявити яка це симфонія)

◇ бруд - пилючність на дорогах просто нереальна. Якщо проїхатись в автобусі біля відкритого віконечка, писок доведеться довго вмивати потім) В метрі від райського пляжу може бути купа сміття і нікого вона не займає. Така ж історія і у великих містах, шум, гам, срач і бардак.

◇ собаки - багато-багато-багато собак всюди=>усюди:::error_type=Spelling}. Вони ходять по вулицях, чекають тебе під будинком, стрибають на тебе в пошуках їжі і гавкають ночами. Враховуючи мою нелюбов до бродячих псів, для мене це був стрес)

◇ москалі їх ще більше ніж собак. І це такі москалі, в найгіршому їх прояві, в футболках з прапором "вєлікай" Рассєї або "Льоха рєшаєт фсьо", які кричать на весь пляж/ресторан, говорять до всіх російською і дивуються, чому місцеві їх не розуміють. Намагаються всюди влізти без черги і поводять себе максимально по хамськи, власне, характерна для них поведінка. І вони, насправді, дратують більше за комарів, мурах і змій, разом узятих.

То що ж з цим всим робити? А нічого) Ці всі штуки дійсно можуть дратувати і псувати настрій. Але таке можливо, якщо ти невиспаний, болить голова чи просто втомився. Тоді кожна мурашка виводить з себе) А коли проходить голова і втома, то всі ці штуки сприймаються як місцевий колорит) І якщо з цим колоритом познайомитись ближче, то нічого страшного, як виявляється, немає: зміюки ці неотруйні, собак можна відігнати, кажани літають високо і людей не чіпають, співаків в автобусі можна переглушити навушниками або повчити місцеві пісні, від пилу можна взяти з собою тонік для очистки обличчя, і не смітити на пляжах та вулицях, щоб не додавати бруду в місцеві купи сміття. Єдиний мінус - від москалів так просто не здихаєшся, але це питання намагається вирішити не одна нація і тут Шрі-Ланка безсила.

Мабуть недоліки можна знайти всюди, якщо дуже захотіти, але плюсів у Шрі-Ланки значно більше ;)

>>> print(doc.target)

Рай чи пекло?

"І на сонці бувають плями" як то кажуть, тому і на цьому дивовижному острові є свої особливості, які можуть перетворити відпочинок у пекло. Для мене особисто такими недоліками стали:

◇ живність – окрім китів, слонів і бурундуків, які милують око, тут є комарі, мурахи, кукарачі, павуки, ящірки, жаби, змії, варани, кажани і т. ін. І це не в зоопарку. Це у вас у номері/на віллі, на пляжі, на вулицях міста.

◇ шум – всі автобуси з музичним супроводом і дуже голосним, тому будьте готові слухати зірок місцевого шоу-бізу постійно, хочете ви того чи ні. Кондуктори в автобусах постійно кричать у відчинені двері, закликаючи пасажирів, і на їхньому тлі наші крикуни "Рівне – Корець – Новоград" на столичному вокзалі, – просто забиті тишки) На дорогах шалений трафік з автобусів, тук-туків, мопедів і велосипедів. Кожен із них бібікає приблизно раз на 20 секунд (поздоровкатись, попередити про обгін чи поворот, виказати невдоволення). Можете собі уявити, яка це симфонія)

◇ бруд – пилючність на дорогах просто нереальна. Якщо проїхатись в автобусі біля відчиненого віконечка, потім доведеться довго вмивати писок ) В метрі від райського пляжу може бути купа сміття і нікого вона не займає. Така сама історія і у великих містах, шум, гам, срач і бардак.

собаки – багато-багато-багато собак москалі {-=>– їх ще більше ніж собак. І це такі москалі, в найгіршій їхній сутності, у футболках із прапором "вєлікай" Рассєї або "Льоха рєшаєт фсьо", які кричать на весь пляж/ресторан, говорять до всіх російською і дивуються, чому місцеві їх не розуміють. Намагаються всюди влізти без черги і поводять себе максимально по-хамськи, власне, характерна для них поведінка. І вони, насправді, дратують більше за комарів, мурах і змій разом узятих.

То що ж із цим усім робити? А нічого) Ці всі штуки дійсно можуть дратувати і псувати настрій. Але таке можливо, якщо ти невиспаний, болить голова чи просто втомився. Тоді кожна мурашка виводить із себе) А коли проходить біль і втома, то всі ці штуки сприймаються як місцевий колорит) І якщо з цим колоритом познайомитись ближче, то нічого страшного, як виявляється, немає: зміюки ці неотруйні, собак можна відігнати, кажани літають високо і людей не чіпають, співаків в автобусі можна переглушити навушниками або повчити місцеві пісні, від пилу можна взяти зі собою тонік для очищення обличчя, і не смітити на пляжах та вулицях, щоб не додавати бруду в місцеві купи сміття. Єдиний мінус – москалів так просто не здихаєшся, але це питання намагається вирішити не одна нація, і тут Шрі-Ланка безсила.

Мабуть, недоліки можна знайти всюди, якщо дуже захотіти, але плюсів у Шрі-Ланки значно більше ;)

Fix SomethingWrong annotations

The attached files are SomethingWrong fixes for the non-detailed annotated docs. We need to merge them into the current v2-dev. Unfortunately, I don't think this can be automated since there might be edits in the surrounding text

result-fix-wrong.zip
.

Double check files with no annotations

The following documents have no annotations at all. Often, it means that these are "perfect", error-free texts. Occasionally, there might be docs missed by annotators.

Please, review and confirm that these docs don't need further correction (or correct them as needed)

Annotations missing in the train:

  1. 0117
  2. 0120
  3. 0153
  4. 0206
  5. 0238
  6. 0299
  7. 0344
  8. 0386
  9. 0399
  10. 0402
  11. 0460
  12. 0650
  13. 0690
  14. 0708
  15. 0758
  16. 0759
  17. 1872
  18. 1873
  19. 1874
  20. 1875
  21. 1876
  22. 1877
  23. 1878
  24. 1879
  25. 1880
  26. 1881
  27. 1882
  28. 1883
  29. 1884
  30. 1885
  31. 1886
  32. 1887
  33. 1888
  34. 1889
  35. 1890

Annotations missing in the test:

  1. 0683
  2. 0851

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.