UA-GEC: перший анотований GEC-корпус української мови вже у вільному доступі!

Історія проєкту:

Серпень 2020 року — наша команда ініціювала збір першого GEC-корпусу (Grammatical Error Correction) для української мови (UA-GEC). Ми ставили собі за мету зібрати хоча б 10 000 речень для створення першої версії корпусу.
Грудень 2020 року — завдяки вашій активності ми зібрали понад 20 000 речень і продовжуємо поповнювати корпус текстами. Навіть уявити не могли, що на наш заклик відгукнеться так багато людей!
Січень 2021 року — ми зробили корпус загальнодоступним. Завантажуйте його за посиланням, досліджуйте і розвивайте українське NLP (опрацювання природної мови)!
Cічень–грудень 2021 року— наша команда анотувала нові тексти, які надсилали волонтери через форму для збору, і працювала над підготовкою покращеної та розширеної версії корпусу 2.0.

Що далі?

Очікуйте поліпшену версію корпусу.
Протягом 2021 року наша команда не лише розширювала корпус, але й удосконалювала його технічну цінність. Ми готували додатковий варіант анотації, який дасть змогу використовувати корпус у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю. Наразі збір текстів закрито. Версію корпусу 2.0 ми опублікуємо для відкритого доступу на початку 2022 року. Стежте за оновленнями проєкту на GitHub.

Що таке GEC-корпус?

Це колекція текстів, що їх написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Ці тексти містять граматичні, стилістичні та орфографічні помилки — бо хто з нас не помиляється?

Наші лінгвісти перевіряють ці тексти, позначають помилки і вказують відповідні виправлення (анотують). Потім такі дані можна використати для тренування та оцінки програм виправлення граматичних помилок.

Що це дає українській мові?

Нові онлайн-системи виправлення граматики в українськомовних текстах.

Прискорення розвитку українських комунікаційних асистентів.

Сприяння використанню якісної української мови в онлайні.

Що це дає NLP-спільноті?

Це прискорить розвиток місцевої (і не тільки!) NLP-спільноти, а саме — надасть більше інструментів для досліджень! Виправлення граматичних і стилістичних помилок в українській мові — це цікаве дослідницьке завдання.

І ось чому:

Українська — це мова з розвиненою морфологією. На відміну від англійської, кожне слово тут має багато словоформ (“книга”, “книгою”, “книгами”). Методи NLP, розроблені для англійської, не завжди будуть оптимальними для української. Пошук кращих методів роботи з такими мовами — це окреме завдання, і наш корпус стане тут у пригоді.

Виправленням помилок в англійській мові займається вже не одне покоління дослідників, які назбирали значні обсяги даних. Для більшості мов, зокрема і для української, такої кількості мовних ресурсів просто немає. Це ще одна причина, чому методи, розроблені для англійської, не спрацюють для української. Однак не слід впадати у відчай! Це гарна нагода спробувати себе у задачі обробки мов з обмеженою кількістю ресурсів (low-resource GEC) або й у навчанні без учителя (unsupervised learning).

Останнім часом у світі NLP відбувається революція: великі претреновані моделі, як-от BERT, досягають значних результатів на більшості завдань. Окремий клас таких моделей — це багатомовні претреновані моделі, здатні працювати одночасно з багатьма мовами. Чи можна використати такі моделі для завдань українського GEC? Відповідь на це запитання нам допоможе знайти корпус UA-GEC.

Список можна продовжувати, але насправді ми все одно не можемо передбачити всіх можливих використань датасету. Тому ми зробили корпус загальнодоступним  — беріть його, досліджуйте, виконуйте нові завдання і розвивайте українське NLP!

Стежте за новинами проєкту на нашій сторінці у Facebook!