Institute of Computer Science

	Topics & Projects

	Grants

	Applications

	Collaborations

	Evaluation

	Published Articles

	Books & Reviews

	Technological Transfer

	International Cooperation

	Patents and Certificates

	Documents and regulations

	Doctoral supervisors

	Conferences

	The Seminar for Fuzzy Systems & A.I. Grigore C. Moisil - 25 years

	Celebrating 20 Years

	Commemoration

» Corpusul limbii române contemporane-CoRoLa

Cod proiect: CEEX 133/2006

Titlu: Corpusul limbii române contemporane-CoRoLa

Perioada de implementare: 2013 –2017

Finanțare: Academia Română

Parteneri:
- Institutul de Inteligență Artificială "Mihai Drăgănescu" al Academiei Române
- Institutul de Informatică Teoretică al ARFI

Descriere: :

Proiectul a avut ca rezultat construirea unui corpus de aproximativ un miliard cuvinte românești care acoperă perioada de după cel de-al Doilea Război Mondial, 300 de ore de înregistrări vocale, din 17 domenii și mai multe stiluri literare, achiziționate din romane, articole de presă, bloguri, scrieri științifice, piese de teatru etc. Textele au fost curățate, segmentate la fraze și cuvinte, iar cuvintele au fost adnotate automat cu informații morfosintactice. Accesul în căutare multicriterială este permis prin 3 interfețe. Corpusul poate fi folosit de persoanele interesate să învețe limba română din exemple, la clasă în scop educațional, dar și în cercetările interesate de studiile lingvistice, prelucrarea automată a limbii române, dezvoltarea modelelor de traducere, recunoaștere și sinteză automată a vorbirii și multe alte tipuri de aplicații bazate pe limbaj. Colectarea datelor s-a realizat pe baza protocoalelor semnate cu furnizorii de texte, titulari ai drepturilor de proprietate intelectuală. Textele sunt însoțite de metadate și au fost supuse unui lanț de procesare care combină preprocesarea manuală asistată de computer și procesarea complet automată.

Alte detalii