UA-GEC: перший анотований GEC-корпус української мови вже у вільному доступі!

Історія проєкту:

Серпень 2020 року — наша команда ініціювала збір першого GEC-корпусу (Grammatical Error Correction) для української мови (UA-GEC). Ми ставили собі за мету зібрати хоча б 10 000 речень для створення першої версії корпусу.
Грудень 2020 року — завдяки вашій активності ми зібрали понад 20 000 речень і продовжуємо поповнювати корпус текстами. Навіть уявити не могли, що на наш заклик відгукнеться так багато людей!
Січень 2021 року — ми зробили корпус загальнодоступним. Завантажуйте його за посиланням, досліджуйте і розвивайте українське NLP (опрацювання природної мови)!

Що далі?

Проєкт стає постійним.
Ми продовжимо збирати і додавати тексти до нашого корпусу. Адже що більше даних у корпусі, то більше можливостей для подальшого використання.
Приєднуйтесь і додавайте свої тексти
за посиланнями нижче.

Технічне оновлення корпусу

Очікуйте поліпшену версію корпусу.
Окрім доповнення самого корпусу текстами, наша команда активно удосконалюватиме його технічну цінність. Ми підготуємо додатковий варіант анотації, що дасть змогу використовувати корпус у двох різних завданнях: виправленні тільки граматики та виправленні граматики й стилю.

Що таке GEC-корпус?

Це колекція текстів, що їх написали звичайні люди: есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Ці тексти містять граматичні, стилістичні та орфографічні помилки — бо хто з нас не помиляється?

Наші лінгвісти перевіряють ці тексти, позначають помилки і вказують відповідні виправлення (анотують). Потім такі дані можна використати для тренування та оцінки програм виправлення граматичних помилок.

Що це дає українській мові?

Нові онлайн-системи виправлення граматики в українськомовних текстах.

Прискорення розвитку українських комунікаційних асистентів.

Сприяння використанню якісної української мови в онлайні.

Що це дасть NLP-спільноті?

Це прискорить розвиток місцевої (і не тільки!) NLP-спільноти, а саме — надасть більше інструментів для досліджень! Виправлення граматичних і стилістичних помилок в українській мові — це цікаве дослідницьке завдання.

І ось чому:

Українська — це мова з розвиненою морфологією. На відміну від англійської, кожне слово тут має багато словоформ (“книга”, “книгою”, “книгами”). Методи NLP, розроблені для англійської, не завжди будуть оптимальними для української. Пошук кращих методів роботи з такими мовами — це окреме завдання, і наш корпус стане тут у пригоді.

Виправленням помилок в англійській мові займається вже не одне покоління дослідників, які назбирали значні обсяги даних. Для більшості мов, зокрема і для української, такої кількості мовних ресурсів просто немає. Це ще одна причина, чому методи, розроблені для англійської, не спрацюють для української. Однак не слід впадати у відчай! Це гарна нагода спробувати себе у задачі обробки мов з обмеженою кількістю ресурсів (low-resource GEC) або й у навчанні без учителя (unsupervised learning).

Останнім часом у світі NLP відбувається революція: великі претреновані моделі, як-от BERT, досягають значних результатів на більшості завдань. Окремий клас таких моделей — це багатомовні претреновані моделі, здатні працювати одночасно з багатьма мовами. Чи можна використати такі моделі для завдань українського GEC? Відповідь на це запитання нам допоможе знайти корпус UA-GEC.

Список можна продовжувати, але насправді ми все одно не можемо передбачити всіх можливих використань датасету. Тому ми зробили корпус загальнодоступним  — беріть його, досліджуйте, виконуйте нові завдання і розвивайте українське NLP!

Стежте за новинами проєкту на нашій сторінці у Facebook!







Як долучитися до поповнення GEC-корпусу
української мови?

Збір текстів триває на постійній основі.
Ми будемо вдячні за ваші тексти і пропонуємо
три типи завдань: