Se Connecter

fleche haut

Le projet SCOLEDIT

Sommaire

Le corpus

Ce site vous permet d'accéder au corpus longitudinal recueilli en classes de CP et de CE1.
Pour le CP, il est constitué :

  • de productions écrites réalisées au mois de juin (fin CP),
  • d'une dictée passée au mois de septembre
  • et d'une dictée passée au mois de juin.
Pour le CE1, il est constitué :
  • de productions écrites réalisées au mois de juin
  • d'une dictée passée au mois de juin
Ces différents écrits ont été ensuite transcrits dans une base de données avec un lien vers le scan de la copie d'origine. Vous aurez accès aussi bien à la transcription qu'au scan.


Constitution du corpus de CP

Les productions de CP

Consigne :

Aujourd’hui vous allez écrire chacun l’histoire d’un petit chat. Je vais vous montrer ce qui arrive à ce petit chat. Regardez bien les images. Vous allez écrire cette histoire ici. Si vous avez oublié l’histoire, vous pouvez retourner la feuille pour retrouver les dessins. Vous avez 15 minutes pour ce travail. Vous allez travailler seul ; personne ne vous aidera, par exemple, à écrire un mot.

Vignettes support de la production de CP

Les dictées de CP

Consigne du mois de juin :

je vais vous demander d'écrire 3 mots et phrases. Je vais d'abord vous demander d'écrire des noms d'animaux, les mêmes qu'en septembre. Si vous ne savez pas écrire ces mots, ce n'est pas grave du tout. Essayez de les écrire comme vous pensez qu'ils pourraient s'écrire.

Les mots dictés sont dans l'ordre : "lapin", "rat" et "éléphant".
Maintenant, je vais vous dicter une phrase. J'aimerais que vous l'écriviez sur la quatrième ligne.
La phrase dictée est : "Tom joue avec le rat"
La deuxième phrase dictée est : "Les lapins courent vite."

Constitution du corpus CE1

Les productions de CE1

À partir du choix d’un personnage parmi quatre (cf. figure ci-dessous), les élèves de CE1 devaient également produire un texte narratif, à partir de la consigne «Voici 4 personnages. Choisis un ou deux personnages et raconte une histoire. Entoure le ou les personnages que tu as choisis.» Vignettes support de la production de CE1

Les dictées de CE1

En fin de CE1, une dictée a été proposée contenant
- les six mots suivants : patin, pâtisson, capuchon, récréation, charitable et magnifique
- les deux phrases : En été, les salades vertes poussent dans les jardins et Les jeunes canetons picorent le blé avec la poule noire.

Le projet

L’enjeu scientifique du projet est de procéder à la collecte, à l’annotation et à l’édition d’un grand corpus numérique longitudinal de textes narratifs et descriptifs, rédigés à partir d’un protocole commun, permettant de rendre compte des évolutions des procédés d’écriture à différents moments de la scolarisation de l’école primaire. Il s’agira de réaliser une description linguistique des structures utilisées par des élèves en cours de construction de leurs apprentissages de l’écrit à différents niveaux de fonctionnement linguistique (morphographie, syntaxe, lexique, structuration du discours).

L’enjeu est donc double :

  1. Un enjeu linguistique de constitution d’une ressource outillée pour la recherche en linguistique et en didactique.
  2. Un enjeu pour le traitement automatique des langues (TAL), de caractérisation et de modélisation de types d’écrits souvent très éloignés de la norme.

Ce projet est particulièrement novateur sur deux points notamment : la taille du corpus visé (plus de 3000 textes), et son aspect longitudinal, qui couvre les cinq années de scolarité à l’école élémentaire.

Il rassemble des chercheurs de l’axe1 du Lidilem (Descriptions linguistiques, TAL, corpus) et de l’axe3 (Didactique des langues, recherches en ingénierie éducative) et propose une collaboration avec les chercheurs du LIG, qui ont développé des outils TAL pour l’analyse syntaxique de textes. Par l’intérêt qu’il porte au développement de la compétence d’écriture, par les objectifs de mise à disposition de textes scolaires… qu’il vise, il prend toute sa place dans l’axe stratégique intrapôle : Cognition, comportement, communication, langage, information.

Ce projet prend appui sur le recueil de données effectué dans le cadre du projet national Lire écrire à l’ école primaire, coordonné par Roland Goigoux et financé par la direction générale de l'enseignement scolaire (DGESCO), l’Institut français de l’Éducation (IFé) et le laboratoire Acté (Clermont-Ferrand). Six chercheurs du Lidilem se sont investis dans cette recherche en cours sur les pratiques efficaces d’enseignement de la lecture et de l’écriture en CP. Ils participent au groupe "écriture" du collectif de chercheurs qui met au point les épreuves de production de textes (CP et CE1) ; ils ont pris en charge et réalisé le codage des 3000 dictées du pré-test réalisé en septembre 2013. Pour le corpus visé, 2500 textes ont déjà été recueillis en CP dans 131 classes en juin 2014 ; un autre recueil aura lieu en fin de CE1 en juin 2015 avec les mêmes élèves. Dans le cadre du présent projet, le travail portera sur les productions de 61 classes, recueillies dans cinq académies (Bordeaux, Grenoble, Lyon, Montpellier, Clermont-Ferrand). Le recueil se prolongera jusqu’en 2018 (classe de 6e, fin du nouveau cycle 3) dans ces cinq académies.

Références

  • Wolfarth C., Ponton C., Totereau C. (2015). Apports du TAL à la constitution et à l’exploitation d’un corpus scolaire. Journée d’études « Analyse linguistique de grands corpus d’écrits scolaires ». Laboratoire CLESTHIA. Univeristé Sorbonne Nouvelle. 18 mars 2015.
  • LIA_PHON : Bechet F., (2001). \"LIA_PHON - Un systeme complet de phonetisation de textes\", revue Traitement Automatique des Langues (T.A.L.). volume 42. numero 1/2001. Edition Hermes.
  • TreerTagger