UA-GEC: версія 2.0 анотованого GEC-корпусу української мови вже у вільному доступі!

Історія проєкту:

Серпень 2020 року — наша команда ініціювала збір першого GEC-корпусу (Grammatical Error Correction) для української мови (UA-GEC). Ми ставили собі за мету зібрати хоча б 10 000 речень для створення першої версії корпусу.
Грудень 2020 року — завдяки вашій активності ми зібрали понад 20 000 речень. Навіть уявити не могли, що на наш заклик відгукнеться так багато людей!
Січень 2021 року — ми зробили першу версію корпусу загальнодоступною на GitHub.
Листопад 2022 року— ми опублікували на GitHub розширену та вдосконалену версію корпусу 2.0! Набір даних UA-GEC був збільшений до майже 34 000 речень і відтепер містить два варіанти анотації. Це дасть змогу використовувати його у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю. Також ми розробили більш деталізовану класифікацію помилок: зокрема категорії “граматика” і “стиль” розділили ще на 13 і 5 підкатегорій відповідно (і додали підкатегорію для помилок, які не потрапили в жодну з цих підкатегорій).

Що таке GEC-корпус?

Це колекція текстів, що їх написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Ці тексти містять граматичні, стилістичні та орфографічні помилки — бо хто з нас не помиляється?

Наші лінгвісти перевіряють ці тексти, позначають помилки і вказують відповідні виправлення (анотують). Потім такі дані можна використати для тренування та оцінки програм виправлення граматичних помилок.

Що це дає українській мові?

Нові онлайн-системи виправлення граматики в українськомовних текстах.

Прискорення розвитку українських комунікаційних асистентів.

Сприяння використанню якісної української мови в онлайні.

Що це дає NLP-спільноті?

Це прискорить розвиток місцевої (і не тільки!) NLP-спільноти, а саме — надасть більше інструментів для досліджень! Виправлення граматичних і стилістичних помилок в українській мові — це цікаве дослідницьке завдання.

І ось чому:

Українська — це мова з розвиненою морфологією. На відміну від англійської, кожне слово тут має багато словоформ (“книга”, “книгою”, “книгами”). Методи NLP, розроблені для англійської, не завжди будуть оптимальними для української. Пошук кращих методів роботи з такими мовами — це окреме завдання, і наш корпус стане тут у пригоді.

Виправленням помилок в англійській мові займається вже не одне покоління дослідників, які назбирали значні обсяги даних. Для більшості мов, зокрема і для української, такої кількості мовних ресурсів просто немає. Це ще одна причина, чому методи, розроблені для англійської, не спрацюють для української. Однак не слід впадати у відчай! Це гарна нагода спробувати себе у задачі обробки мов з обмеженою кількістю ресурсів (low-resource GEC) або й у навчанні без учителя (unsupervised learning).

Останнім часом у світі NLP відбувається революція: великі претреновані моделі, як-от BERT, досягають значних результатів на більшості завдань. Окремий клас таких моделей — це багатомовні претреновані моделі, здатні працювати одночасно з багатьма мовами. Чи можна використати такі моделі для завдань українського GEC? Відповідь на це запитання нам допоможе знайти корпус UA-GEC.

Список можна продовжувати, але насправді ми все одно не можемо передбачити всіх можливих використань датасету. Тому ми зробили корпус загальнодоступним  — беріть його, досліджуйте, виконуйте нові завдання і розвивайте українське NLP!

Завантажити версію 2.0 корпусу UA-GEC на GitHub