UA-GEC: створімо перший анотований GEC-корпус української мови разом!

МРІЯ

Ми, команда Grammarly, мріємо зібрати GEC-корпус (GEC — grammatical error correction, виправлення граматичних помилок) для української мови і викласти у відкритий доступ для загального користування. Віримо, що цей крок прискорить розвиток українського NLP (опрацювання природної мови).

UA-GEC: створімо перший анотований GEC-корпус
української мови разом!

Це колекція текстів, що їх написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Ці тексти міститимуть граматичні, стилістичні та орфографічні помилки — бо хто з нас не помиляється?

Наші лінгвісти перевірять ці тексти і виправлять (проанотують) помилки. Потім такі дані можна використати для тренування та оцінки програм виправлення граматичних помилок.

Що це дасть українській мові?

Нові онлайн-системи виправлення граматики в українськомовних текстах.

Прискорення розвитку українських комунікаційних асистентів.

Сприяння використанню якісної української мови в онлайні.

Що це дасть NLP-спільноті?

Це прискорить розвиток місцевої (і не тільки!) NLP-спільноти, а саме — надасть більше інструментів для досліджень! Виправлення граматичних і стилістичних помилок в українській мові — це цікаве дослідницьке завдання.

І ось чому:

Українська — це мова з розвиненою морфологією. На відміну від англійської, кожне слово тут має багато словоформ (“книга”, “книгою”, “книгами”). Методи NLP, розроблені для англійської, не завжди будуть оптимальними для української. Пошук кращих методів роботи з такими мовами — це окреме завдання, і наш корпус стане тут у пригоді.

Виправленням помилок в англійській мові займається вже не одне покоління дослідників, які назбирали значні обсяги даних. Для більшості мов, зокрема і для української, такої кількості мовних ресурсів просто немає. Це ще одна причина, чому методи, розроблені для англійської, не спрацюють для української. Однак не слід впадати у відчай! Це гарна нагода спробувати себе у задачі обробки мов з обмеженою кількістю ресурсів (low-resource GEC) або й у навчанні без учителя (unsupervised learning).

Останнім часом у світі NLP відбувається революція: великі претреновані моделі, як-от BERT, досягають значних результатів на більшості завдань. Окремий клас таких моделей — це багатомовні претреновані моделі, здатні працювати одночасно з багатьма мовами. Чи можна використати такі моделі для завдань українського GEC? Відповідь на це запитання нам допоможе знайти корпус UA-GEC.

Список можна продовжувати, але насправді ми все одно не можемо передбачити всіх можливих використань датасету. Тому ми зробимо його загальнодоступним — беріть його, досліджуйте, виконуйте нові завдання і розвивайте українське NLP!

Збір текстів триватиме до 13 вересня.

Увага! Оновлено. На вересень 2020 року вже зібрано понад 15 000 речень, а це близько 923 сторінки книжкового тексту! Вдячні за вашу підтримку. Збір текстів продовжено до 31 грудня 2020 року!

Долучайтеся!

Як долучитися до проєкту?

Ми пропонуємо три типи завдань: