|
École Thématique CNRS Linguistique de Corpus OrauxUniversité de Nantes, Centre International des Langues, 19-24 juin 2006PAGE DE LIENS |
Cette page est en construction (première version le 26 juin 2006, dernière mise à jour le 3 octobre). Les liens qui figurent ici sont proposés par des participants à l'École d'été.
|
Pour le maniement de PRAAT : - un manuel en français, sur le site du LLACAN ; - des ressources sur le site du projet "Phonologie du français contemporain"; - des diaporamas (PowerPoint) de formation à PRAAT, proposés dans le cadre des formations "Savoir-faire" mises à disposition en ligne par l'Ecole Doctorale de Paris 3. Site officiel de PRAAT Il existe également une liste d'utilisateurs sur Yahoo! Groupes. |
Manuel traduit par Christian Chanard, laboratoire CNRS-LLACAN. Manuel d'utilisation de Transpraat : Abderrahim Meqqori et Jacques Durand. Diaporamas créés par Cédric Gendrot, laboratoire CNRS-LPP. |
|
Site officiel de WinPitch (version Light, version Pro, version Language Teaching) |
Logiciel créé par Philippe Martin. |
|
(Voir formation assurée par Philippe Martin.) |
|
|
Logiciels développés à University College London, et mis à libre disposition. En particulier : SFS (Speech Filing System). (Plutôt pour utilisateurs expérimentés.) |
Lien proposé par Christophe Ropers. |
|
Au sujet de la saisie de caractères phonétiques : une introduction à Unicode (niveau débutant), ou comment saisir des caractères phonétiques de façon à éviter les carrés blancs lors des échanges de fichiers. |
Page créée par Alexis Michaud. |
|
La page d'Hans-Jörg Bibiko. C'est un informaticien qui s'intéresse à plein de langues, comme vous le verrez. Question outils, il a développé UNIGODER qui est un outil logiciel visant à faciliter la saisie des signes diacritiques (on obtient Unigoder sous sa rubrique «downloads»). |
Lien proposé par Dominique Vellard. |
Corpus existants, et sites de projets documentaires :
|
Présenté par Chantal Lyche lors de l'Ecole d'été. |
|
|
(en français et en anglais) programme Archivage du LACITO. L'Archive du LACITO donne accès à des exemples de parole spontanée, prioritairement dans des langues « rares », enregistrés dans leur contexte social et transcrits en consultation avec les locuteurs. Son but est de contribuer à la documentation et à l'étude du patrimoine humain que représentent les langues du monde. Elle contient actuellement 136 documents en 31 langues (voir index). |
Présenté par Michel Jacobson lors de l'Ecole d'été. |
|
groupe parisien du Centre de Ressources pour la Description de l'Oral. Centre de Ressources Numériques centré sur les ressources orales. |
Présenté par Michel Jacobson lors de l'Ecole d'été. |
|
(en allemand) SemArch - Semitisches Tonarchiv. All tape recordings of still living Semitic languages and dialects are currently being digitalized and archived at the Institute for Semitic studies at Heidelberg University. Many varieties of Semitic dialects are currently facing extinction. The digitalization project will preserve these valuable materials for future generations and make them available for other scholars to improve the comparative and historical research in the field of Semitic linguistics. |
Voir présentation du Pr. Werner Arnold lors de l'Ecole d'été. |
|
Voir présentation par Emanuela Cresti et Massimo Moneglia lors de l'Ecole d'été. |
|
|
Voir présentation par Shlomo Izre'el lors de l'Ecole d'été. |
|
|
Le corpus CLAPI, Corpus de Langue Parlée en Interaction. La base CLAPI vous permet d'accéder en ligne à la description de corpus de langues parlées en interaction collectés, analysés et stockés par des chercheurs du groupe ICOR du laboratoire ICAR (anciennement GRIC) ou des chercheurs d'autres laboratoires. Vous pouvez : - feuilleter les corpus présents (enregistrements et transcriptions), enrichis de métadonnées accessibles à tous (75 descripteurs) - consulter le lexique de l'ensemble des transcriptions - chercher des attestations, des co-occurences et utiliser l'outil de requêtes sur 23 transcriptions fines (tokens et phénomènes oraux) alignées avec le signal audio/vidéo correspondant, représentatives de la diversité des corpus répertoriés dans CLAPI - accéder aux métadonnées depuis les résultats d'analyse. |
Voir présentation par Carole Etienne lors de l'Ecole d'été. |
|
(en français) BDCOIFA, Base de données sur les corpus oraux interactifs francophones accessibles. Le développement de BDCOIFA repose sur l’idée que pour être partageables, les recherches sur l’oral et l’interaction doivent être fondées sur des ressources qui le soient également (corpus, outils de collecte et de traitement des données). Nous souhaitons : inciter les détenteurs de corpus oraux à être mentionnés dans la base, permettre à des utilisateurs de corpus de trouver des données exploitables, amener les concepteurs de corpus à trouver des indications, voire des lieux d’hébergement pour les données qu’ils souhaiteraient créer. La base de données COIFA a pour objectif à moyen terme un recensement aussi exhaustif que possible des ressources linguistiques francophones dans le domaine de l’oral spontané, avec de ce fait une attention particulière au domaine des interactions langagières. |
Hébergé par le laboratoire CRISCO à Caen. A été réalisé dans le cadre de la composante Corpus d’interaction langagière (resp. A. Lacheret & D. Luzzati). |
|
La base de données UPSID : inventaire de systèmes phonémiques, par Ian Maddieson. |
Voir présentation par Louis-Jean Boë lors de l'Ecole d'été. |
|
(site en anglais) Résumé en anglais : AILLA is a digital archive of recordings and texts in and about the indigenous languages of Latin America. Access to archive resources is free of charge. Most of the resources in the AILLA database are available to the public, but some have special access restrictions. Vincent Monatte a confié au projet AILLA des données, en l'état (sons, et transcriptions telles qu'il les avait réalisées, sans effectuer lui-même de mise en forme particulière), et l'équipe du projet a assuré tout le volet technique de préparation pour l'archivage et la mise en ligne. A quand une solution aussi ergonomique pour les autres familles de langues ! (Par exemple, le programme Archivage du LACITO propose un format, mais pour l'instant il n'est pas en mesure, faute de personnel, d'effectuer tout le travail de passage à XML et à Unicode de documents type Word -- voire manuscrits --, et c'est au chercheur de créer l'archive XML, ce qui est gourmand en temps...) |
Lien signalé par Vincent Monatte. |
|
(en anglais et allemand) Portail de David Lee au sujet des corpus en général, comportant des informations et liens vers des outils. (Site à vocation encyclopédique, il faut s'orienter dans la masse des liens et informations.) |
Lien proposé par Amina Mettouchi. |
|
(en français) Le site d'un projet "Propositions de Normalisation pour une Base de Corpus Multimedia" réalisé à l'Université Paris 3. L'objectif de ce projet est de proposer une réflexion et une démarche pour constituer des ressources linguistiques normalisées (données orales, écrites et vidéo) dans un cadre pluridisciplinaire. Le site du projet est très riche et très technique, mais reste lisible par les débutants motivés ! Les informaticiens apprécieront l'architecture du site et les fameuses métadonnées. Cela illustre aussi la possibilité de montrer en ligne le catalogue sans nécessairement donner un accès libre à toutes les ressources. |
Projet réalisé à l'Université Paris 3. Participants au projet : phonéticiens-phonologues, sociolinguistes... |
|
Liens en vrac (tous commentaires bienvenus) : http://www.engl.polyu.edu.hk/corpuslinguist/corpus.htm http://projects.ldc.upenn.edu/SBCSAE/ http://www.twc.it/ http://www.olestig.dk/endangered-languages/films.html http://lingweb.eva.mpg.de/fieldtools/tools.htm http://www.humnet.ucla.edu/alc/chinese/classes/asian222/ http://www.hrelp.org/documentation/ http://www.tlfq.ulaval.ca/axl/index.shtml http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm http://www.ogmios.org/links.htm http://emeld.org/school/index.html |
Liens proposés par Amina Mettouchi |
|
http://195.221.163.2/anglais/TAL322/Menu.html |
Lien proposé par Sandrine Rutigliano |
Lien vers les communications à l'Ecole d'été "Linguistique de corpus" 2004 (Caen)