Communication Crihn 2023

20 min = 2800 mots

Le tournant éclectique en architecture à travers les procès-verbaux du Conseil des Bâtiments civils (1839-1856)

L’éclectisme en architecture au XIXe siècle ne saurait être seulement réduit à l’historicisme et aux renouveaux stylistiques dans la production bâtie. C’est un phénomène plus profond qui prend racine dans la dialectique rationaliste des Lumières développée par exemple par Jacques-François Blondel pour l’évaluation du projet architectural (Bilodeau 1996), et qui peut être interprété à l’aune de la philosophie prônée par Victor Cousin dans ses cours au Collège de France à partir de 1820 (1853). DIA Comme le suggèrent Peter Collins (1965) ou Jean-Pierre Epron (1997), l’éclectisme se manifeste d’abord en architecture par une nouvelle attitude à l’égard du projet qui s’observe notamment dans les pratiques et les discours des institutions architecturales telles que la Société d’architecture créée en 1840, ou le Conseil des Bâtiments civils. Je présente ici une recherche en cours d’élaboration qui consiste à étudier les évolutions du rapport à la conception architecturale à partir d’une analyse serrée des transformations du discours normatif dans les délibérations de ce Conseil.

DIA

La série continue des procès-verbaux et minutes des séances du Conseil des bâtiments civils de 1795 au début du XXI siècle, conservée dans la sous-série F21 des Archives nationales de France, offre au chercheur une source sans équivalent pour l’étude de l’architecture publique (Château-Dutier 2011b). Dans le cadre de cette étude, il s’agit d’aborder le cœur même de la délibération au Conseil des Bâtiments civils à travers un corpus inédit de procès-verbaux de ses séances. Il s’agit notamment d’évaluer l’applicabilité de techniques d’analyse du discours pour l’étude diachronique du formidable corpus textuel qu’offrent les délibérations du Conseil. À partir de ces sources jusqu’ici largement inexploitées, mais centrales pour comprendre les dynamiques de transformation du discours architectural, nous pensons pouvoir profondément renouveler la connaissance de la pratique de l’architecture publique au milieu du siècle. Enfin, avec ce recours aux derniers développements théoriques et techniques de l’analyse du discours peu mobilisées jusqu’à présent en histoire de l’architecture pour cette période, nous souhaitons poser des bases méthodologiques nouvelles pour l’étude de la conception et de la théorie architecturale.

Plusieurs défis sont cependant à relever. D’une part, il convient d’en acquérir le corpus qui est manuscrit même s’il a déjà fait l’objet d’un dépouillement systématique partiel dans les années 90. D’autre part, le caractère répétitif des affaires et l’unité sémantique du corpus, nous oblige à chercher des méthodes adaptées pour son étude.

Le conseil et la théorie architecturale

DIA

Créé à partir de 1795 comme commission consultative auprès du ministère de l’Intérieur, le Conseil des Bâtiments civils fut appelé à se prononcer sur l’ensemble des questions relatives à l’architecture que lui soumettait le ministre (Château-Dutier 2016a). Dans ce conseil, siégeaient une poignée d’architectes choisis parmi les plus éminents du temps. Ces spécialistes examinaient les dossiers qui leur étaient soumis pour avis par le ministre sous le rapport de l’art.

DIA stat

Au travers du commentaire d’architecture contenu dans les dizaine de milliers de procès-verbaux du Conseil des bâtiments civils, on peut dire que s’élabore une véritable théorie de l’architecture publique (Château-Dutier 2010, 2011a, 2016a). La richesse de cette source a notamment justifié la confection d’une base de données à l’initiative de Françoise Boudon et Werner Szambien au Centre André Chastel (CNRS, Université Paris-Sorbonne) dans les années 1990. Compte tenu du nombre de rapports et d’avis, la solution d’un dépouillement analytique avait été alors retenue pour la création de la base Conbavil qui couvre la période 1795 à 1839 (Boudon 2009). Si celui-ci permet aujourd’hui des recherches ponctuelles efficaces sur l’histoire d’un édifice, sur un architecte ou sur la typologie, pour autant les textes des rapports ne font l’objet que d’un simple signalement et la matière textuelle même du corpus n’est pas traitée. Celle-ci nous paraît pourtant fondamentale afin de pouvoir observer les inflexions du discours architectural dans la première moitié et au milieu du siècle.

DIA registres

La théorie s’y énonce de manière discursive dans le contexte contingent, à chaque fois renouvelé, de l’examen des projets. Les délibérations du Conseil des Bâtiments civils offrent ainsi au chercheur une source textuelle sans équivalent pour s’intéresser à l’étude du jugement architectural (Collins 1971). Or, ce riche matériau textuel n’a jamais été étudié en tant que tel.

Dans son travail pionnier sur les systèmes conceptuels de l’architecture en France de 1650 à 1800, en mobilisant une analyse logique des énoncés, Alexander Tzonis et ses collègues (1975, 1978 ; Bilodeau 1985) sont parvenus à montrer qu’il était possible de développer un châssis permettant de dégager des modèles décisionnels et de classer de tels modèles et leur évolution dans le temps. Une approche comparable nous paraît pouvoir être mobilisée pour l’analyse des avis du Conseil qui sont souvent de nature normative. Toutefois, les matériaux que nous avons à traiter diffèrent en partie du corpus exploré par Tzonis au sens où les délibérations du Conseil ne peuvent seulement être envisagées du point de vue de la logique déontique.

Il s’agit donc plutôt de considérer l’argumentation qui se déploie dans les avis du conseil non seulement du point de vue logique mais aussi rhétorique. Cela incite à ne pas exclure dans l’analyse de l’argumentation ni la pensée, ni la langue, ni le discours. Aussi, afin de pleinement rendre compte du caractère dialogique et interactionniste de la délibération et de la formation des avis, nous nous proposons d’avoir recours aux approches développées récemment dans le domaine de l’analyse du discours (Plantin 1990 ; Maingueneau 1991, 2012, 2014). Celles-ci présentent l’intérêt prendre en charge les différentes dimensions du discours en s’intéressant notamment à la pragmatique (Woods et Walton 1982 ; Anscombre 1997 ; Angenot 2008) et à la rhétorique (Perelman 1970 ; Breton 1997). L’historien d’art peut y trouver des méthodes d’analyse éprouvées qui ont l’avantage par rapport à la simple analyse de contenu de ne pas ignorer la dimension contextuelle de l’argumentation.

L’acquisition du corpus et les méthodes de HTR

DIA db

Chercheur invité au Centre André Chastel dans le cadre d’un congé d’étude et de recherches, je cherche à poser les bases méthodologiques de cette recherche. Il s’agit notamment d’envisager les contours d’un projet d’ampleur pour la poursuite des dépouillements des procès-verbaux entrepris pour la base Conbavil qui impliquerait l’utilisation de la reconnaissance automatique des écritures manuscrites et l’extraction d’entités-nommées. Une entente avec les Archives nationales de France a déjà permis d’engager la numérisation de l’ensemble du fond conservé qui concerne plus d’une centaine de registres manuscrits in-folio.

DIA noire

Afin d’acquérir le corpus textuel, je me propose de mobiliser des techniques de reconnaissance de manuscrit pour l’acquisition du corpus. Des progrès extraordinaires sont intervenus dans le domaine de la reconnaissance des écritures manuscrites ces dernières années. La reconnaissance d’écriture manuscrite (Hand Text Recognition HTR, en anglais) consiste en l’acquisition d’un texte numérique plus ou moins structuré à partir d’images numérisées. Il s’agit d’un processus automatisé qui permet de traiter de larges masses documentaires en réduisant le temps nécessaire à leur traitement et les coûts humains relatifs à la transcription (Gatos et al. 2014). Ces méthodes peuvent être mobilisées à plusieurs fins telles que l’indexation d’un fonds et la création d’un accès plein-texte, la mobilisation de fouille de texte et de lectures distantes (Moretti 2000) ou encore plus simplement l’édition et la publication de textes.

Au cours des cinq dernières années, plusieurs initiatives de grande ampleur ont fait sortir la reconnaissance des écritures manuscrites du strict domaine expérimental de la recherche sur la vision par ordinateur pour prendre une place plus affirmée au sein des programmes de numérisation industriels conduits par les institutions patrimoniales ou dans le cadre de projets en humanités numériques (Transkribus Kahle et al. 2017, HIMANIS Stutzmann et al. 2017, HORAE Boillet et al. 2019, MaRITEM Mariotti 2020, TIME US Chagué et al. 2019, LECTAUREP Chagué et al. 2020, Nouvelle France Numérique Gohier et al. 2020). Ces différentes réalisations ont notamment permis de réunir d’importantes données d’annotation et la constitution de modèles de reconnaissance d’écritures manuscrites très efficaces pour les écritures anciennes. Parallèlement, les modèles et les outils de segmentation des pages pour les documents écrits se sont considérablement perfectionnés ainsi que les chaînes de traitement documentaire pour passer d’un format à l’autre (Bonhonmme 2021).

DIA

La création de plusieurs logiciels interfacés a beaucoup facilité la mobilisation de ces différentes techniques pour le traitement des corpus patrimoniaux. Le projet européen Transkribus a notamment permis la mise au point d’une suite d’outils qui rendent la prise en main et l’application de ces techniques relativement aisées sur de grands corpus patrimoniaux (Kahle et al. 2017). Les logiciels de transcription créés dans ce projet sont des logiciels libres, mais la brique logicielle pour l’entraînement de modèles de reconnaissance d’écriture ou de segmentation reste propriétaire. Elle est financée sur un modèle coopératif. Plus récemment, un projet français (eScriptorium) s’est proposé de développer une suite d’outils comparables mais complètement libre, autour du noyau logiciel Kraken (Kiessling et al. 2019). DIA Afin de soutenir les développements dans le domaine et accroître la reproductibilité et la collaboration dans ce secteur, Thibault Clérisse ici présent et Alix Chagué, ont mis sur pied la plateforme HTR United, destinée au partage de modèles de reconnaissance d’écritures manuscrites anciennes que nous pourrons largement mettre à profit dans notre recherche.

DIA

L’application de ces techniques à notre corpus, pose des enjeux relativement classiques pour ce genre de tâche :

composer avec la qualité de l’écriture et la diversité des mains, même si pour nous l’enjeu et limité
le besoin de mettre en place une segmentation efficace, cf. Camps / Gabay, en particulier pour pouvoir automatiser la pagination
la nécessité de définir des règles de transcription dédiées à l’apprentissage machine, qui ne doit pas être considérée comme une transcription (non-résolution des abréviations, ponctuations, diacritiques, incertitudes) cf. Pinche
possibilité de trouver un modèle adapté à finetuner ou d’entraîner un modèle spécialiser

Autant dire que nous sommes encore loin d’avoir encore acquis l’ensemble du texte, même si plusieurs centaines de pages ont déjà été transcrites. Néanmoins, les premiers essais sont très encourageants et l’expérience acquise dans divers projets comparables nous laisse espérer un taux de reconnaissance de 95%. Mais l’on parle ici de taux d’erreur par caractère (Character Error Rate CER).

Nous allons donc être contraints de travailler avec un corpus bruité, ce qui s’avère contraignant du point de vue de l’analyse du discours. Cela implique soit de prévoir un post-traitement de type linguistique, soit de choisir des méthodes qui ne sont pas trop déterminées par l’enchaînement séquentiel des mots.

Approches numériques pour l’analyse du discours

En première approche, nous envisageons de tester l’utilisation de Topic Maps et l’application de stratégie de reconnaissance d’entités-nommées pour faciliter la classification des affaires. Ici, nous pouvons nous baser en partie sur les dépouillements déjà réalisés pour les années 1795 à 1840 pour tester l’utilisation de topic-maps pour la classification des affaires :

par type d’édifices
par avis

Similarités sémantiques dans un espace vectoriel

Les documents sont représentés sous la forme de sacs de mots pour représenter les occurences de chaque mots dans un texte. La distribution des fréquences de mots représente la singularité d’un texte.

Nous pensons également qu’il sera relativement aisé de mettre en œuvre une reconnaissance des entités-nommées pour les noms de commune, de département, d’architectes et la typologie architecturale. Ici, nous avons par ailleurs la chance de disposer à la fois de référentiels et d’un corpus d’entraînement avec les données dépouillées par la base de données Conbavil. (Ortiz Suárez et al. 2020, Ehrmann et al. 2021)

Analyse du discours

Depuis les années 70, l’introduction de méthodes et techniques issues de la linguistique a véritablement renouvellé l’approche historique. Ces approches ont largement pâti de la critique du structuralisme et des approches quantitatives dans le domaine des sciences humaines par rapport au domaine des sciences sociales. Pourtant l’approche textométrique a notamment su se faire une place en histoire notamment dans le domaine de l’analyse des discours politiques.

DIA

Nous avons eu la possibilité de mener une première exploration avec la méthode textométrique (avec Hyperbase et TXM). La lexicométrie ou textométrie est une méthode de comparaison des textes, réunis en corpus. Cette comparaison se fait sur la base d’un comptage des unités de sens : La forme, le lemme, le groupe de formes. Une comparaison qui se fait sur la base de différentes échelles que l’on va appeler les parties, ce qui permet de multiplier les prismes d’analyse. La lexicométrie constitue donc d’abord un ensemble de méthodes de descriptions. Ces indicateurs ne sont ni interprétatifs, ni explicatifs, c’est le chercheur qui fait l’interprétation et procède à la constitution des catégories d’analyse. Il s’agit alors de regarder les textes du corpus non pas avec des catégories pré-définies mais créées spécifiquement pour le corpus à partir du corpus lui-même. L’intérêt de l’approche textométrique est donc qu’elle contribue à se défaire de l’idée que les textes auraient un sens qu’il faudrait dévoiler. Elle ne remplace pas l’historien et l’interprétation mais fournit une aide et des outils à l’historien pour l’interprétation.

Même si notre corpus peut facilement être segmenté selon la typologie des affaires, par rapporteur, ou encore par dates, les textes concernent un domaine proche et contrastent peu les uns avec les autres dans l’analyse factorielle de correspondance. Le champ lexical général est relativement similaire et les rapports emploient des formules stéréotypées qui rendent relativement triviale l’analyse textométrique.

Fouille des arguments (Argument mining)

C’est la raison pour laquelle nous cherchons aujourd’hui à nous orienter vers d’autres méthodes d’analyse automatisées. DIA Depuis quelques années, le domaine de l’analyse automatique d’arguments (argument mining) a connu un certain essor avec l’émergence de techniques plus puissantes d’analyse de textes fondées sur l’utilisation des réseaux neuronaux.

L’argumentation est une activité sociale dans laquelle des agents cherchent à convaincre des opposants qu’une déclaration est vraie ou fausse en mettant en avant des arguments.

Argumentation is a communicative and interactional act complex aimed at resolving a difference of opinion with the addressee by putting forward a constellation of propositions the arguer can be held accountable for to make the standpoint at issue acceptable to a rational judge who judges reasonably. (van Eemeren 2014, p. 7)

C’est un domaine de recherche interdisciplinaire qui a été profondément renouvellé dans la seconde moitié du 20e siècle par les travaux d’Hamblin, de Rescher, de Chaïm Perelman et Lucie Olbrechts-Tyteca ou de Stephen Toulmin.

Raisonnement concernant la recherche de la vérité d’une déclaration, l’argumentation concerne la persuasion des agents. Si le corpus que nous étudions n’est pas fondamentalement dialogique (au sens où il ne met pas directement en rapport des avis contradictoires), celui-ci est assimilable dans le champ réthorique au domaine du discours délibératif, au sens aristotélicien du terme. De manière générale, on peut répartir l'argumentation d'un discours délibératif en deux parties : la première concerne la réfutation. « Dans un premier il s’agit donc de montrer les mauvaises solutions avant d’arriver à la deuxième partie : la confirmation. Il s’agit là de montrer la solution de l’orateur. » Cicéron dans son De inventione propose la classification des arguments présents dans le discours délibératif, distinguant ce qui est « utile » (utile) et ce qui est « moral ou beau » (honestum), les deux pouvant coexister dans le même discours. (cf. https://fr.wikipedia.org/wiki/Discours_délibératif, voir Wilfried Stroh 2010, p. 314)

Analyse automatique d’arguments (argument mining)

système d’analyse d’argument qui a pour objectif la production ’un graphe d’arguments à partir de textes non structurés

Un système d’analyse d’arguments a pour objectif la génération automatique d’un graphe d’arguments à partir de textes non structurés, et peut généralement être divisé en une séquence d’étapes comportant notamment la détection d’arguments et la modélisation des liens unissant ces derniers. (Mensonides et al. 2022)

La mise en œuvre de cette méthode supervisée, suppose l’existence d’un corpus annoté. Le repérage manuel des arguments vise à mettre à jour des graphes d’arguments en suivant une stratégie de codage qui n’est pas nécessairement hiérarchique (cf. XML). Les méthodes dans ce domaine sont loin d’être standardisées et dépendent en grande partie de po

En prolongeant l’analyse classique des topoï de la rhétorique antique, Chaïm Perelman et Lucie Olbrechts-Tyteca ont notamment mis en avant l’idée de schèmes argumentation qui jouent un rôle important dans l’analyse et l’évaluation des discours argumentatif, et qui complémente, voir remplace, la validité formelle de la logique standard (van Eemeren, p. 20). En développant cette approche, Walton et ses collègues (2008) ont proposé 25 schèmes généralement utilisés pour l’analyse de l’argumentation et qui incluent les raisonnements fallacieux et sont organisés sous quatre rubriques principales :

Schèmes d’arguments dérivant de l’analogie la classification ou le précédent
Relatifs au savoir, à la pratiques ou d’autres schèmes
Arguments des opinions généralement acceptés, engagement et caractère
Schèmes causaux

Nous espérons que la mise en œuvre de cette étape préliminaire de lecture rapprochée permettra une généralisation sur l’ensemble du corpus. À tout le moins, la mise en œuvre d’un repérage automatique des arguments dans les textes devrait permettre de proposer une circulation commode à l’intérieur des sources.

Nous avons identifiés plsieurs format pour l’encodage de ces schemes argumentatifs qui pourront nous être utiles.

Argument Interchange Format (AIF) Rahwan, I & Banihashemi, B. (2008) discusses the AIF and updates it in their ArgDF ontology, which employs OWL-DL to reason over argument networks.

Argument Model Ontology (AMO) Vitali and Peroni (2011)

Semanticscience Integrated Ontology (SIO) Dumontier, et al. (2014)

ArgO: An Ontology for Arguments Neil Otte, et al. (2020)

IEML

Word2vect ou Grands modèles de langue

Représentation word embedding issues des dernières avancées en TAL et en natural language understanding. Word2vect offre une représentation vectorielle qui est censée en exprimer le sens et les idées et qui est générées.

Cette transformation peut être faite à partir

d’un modèle vectoriel de mots word2vec on prend la moyenne de l’ensemble des mots constituants un document selon leur représentation vectorielle
grand modèle de langue type BERT

Possiblité de trouver deux passages qui expriment les mêmes idées de façons complètement différentes

Repérer les paraphrases ou des allusions

Potentiel énorme : transformation des idées, idées analogues, etc.

Bien sûr des différeences et des nuances. Néanmoins l’algorithme peut permettre de repérer des passages très proches que l’on n’aurait peut être pas relevé avec une seule mémoire distance.

Gros problème aussi que ces grands modèles de langues sont de véritables boîtes noire. De bon résultats mais pas capables de savoir quel sens a été capturé.

Limites liées à la précision des résultats issus HTR

Problème de l’échelle : texte de la délibération / passages

Besoin de disposer d’un grand modèle de langue. (CamemBERT, Martin et al. 2020)

Comment traiter la diachronie

Conclusion

Vous l’avez compris, le projet que je débute est donc un projet de longue haleine qui implique la mobilisation de moyens informatiques complexes et le concours d’autres disciplines. Dans un article de synthèse sur les éditions critiques numériques en histoire de l’art, j’évoquais l’absence de travail sur le discours dans les projets recensés. Il s’agit donc de pouvoir aborder la matière même du texte des délibérations du Conseil des bâtiments civils.

Même si l’acquisition automatisée du corpus au moyen de l’HTR reste en partie expérimentale, l’approche est relativement balisée aujourd’hui. Toute la question est de savoir dans quelle mesure le texte bruité pourra faire l’objet d’une correction automatique en utilisant des modèles langagiers pour pouvoir être exploité de manière efficace.

La réindexation du corpus peut bénéficier des dépouillements déjà réalisés pour Conbavil. Mais l’analyse du discours nécessite une démarche spécifique qui passe dans un premier temps par une réannotation du corpus mais implique sans doute des enjeux importants.

Collaboration envisagée avec l’INHA et notamment (Jean-Christophe Carius) la Plateforme d’exposition numérique de sources enrichies, PENSE. Déplacement documentaire plutôt qu’édition. Intégration transcription automatique. Exploration des possibilités de l’utilisation NER, etc. Approche corpus documentaire plutôt qu’édition critique.

La Plateforme d’exposition numérique de sources enrichies (PENSE) de l’INHA est développée comme un atelier de fabrication numérique autour de la question de la publication en ligne de sources en histoire de l’art de toute nature (images, manuscrits, correspondances, archives…). Plateforme qui vise à mettre ces documents à disposition de tous les publics, amateurs ou spécialistes, tout en proposant un enrichissement éditorial destiné à en accompagner l’appréhension à plusieurs niveaux.

Collaboration envisagée cette année avec l’INHA dans le cadre de la plateforme PENSE. Envisager

Quelle autonomie ? Sciences auxiliaire ? Domaine à part entière en cours de construction ?

Michael m’a un peu tordu le bras pour parler dans le cadre de ce colloque pour les 10 ans du CRIHN. Parler aujourd’hui d’un travail qui est principalement en cours d’élaboration. Profiter de l’occasion qui m’est donnée pour demander des conseils sur les orientations que je peux prendre.

Peut-être aussi l’occasion de réfléchir rétrospectivement à mon travail depuis plusieurs années. Carrière dont je peux en quelque sorte dire qu’elle a été marquée par une sorte de dissociation numérique.

Depuis mes premiers pas dans la recherche, je me suis toujours préoccupé de la manière de tirer le meilleur parti possible des technologies numériques. Dans le même temps, mes travaux en histoire de l’architecture, tout du moins ma thèse de doctorat (qui était un gros morceau), ne présentait aucun caractère numérique.

Signataire du manifeste des DH en 2010, souhaitait voir émerger nouveau profil de chercheurs hybride. En parallèle d’une formation académique classique, je me suis fortement engagé dans le domaine des humanités numériques. Participation à la constitution d’une communauté avec la création de l’association et d’une revue. Mais aussi participation à des grands projets de recherche collective qui plaçaient le numérique au centre de leur préoccupations.

Intéressant de constater à cette occasion les évolutions survenues dans le contexte de mon travail mais aussi les moyens désormais disponibles pour aborder les corpus.

Des évolutions qui interrogent le positionnement épistémique à adopter à l’égard de mon corpus.

Base de données et structuration de contenu
Transcription et acquisition du texte
Analyse du texte et des images

Sorte de dissociation numérique.

D’une part, toujours préoccupé de la matérialité des archives et possibiité de développer des approches numériques pour traiter les fonds.

Caractéristiques matérielles des fonds.

Présentation Conbavil. Leniaud au terme 30ans de travail. Proposant de faire cela automatiquement.

Retours

Explorer les réalisations précédentes

vocabulaires
ontologies de domaine
Domain analysis
contacter Wally sur le sujet

Hjørland, B. (2010). Domain Analysis in Information Science. In Encyclopedia of Library and Information Sciences, Third Edition (3 ed., Vol. II, pp. 1648 — 1654). Taylor & Francis. http://www.informaworld.com/smpp/title~content=t917508581~db=all?stem=5#messages

Voir GAMSAU

Voir Gardin

Voir

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

comCrihn2023-10.md

comCrihn2023-10.md

Communication Crihn 2023

Le conseil et la théorie architecturale

L’acquisition du corpus et les méthodes de HTR

Approches numériques pour l’analyse du discours

Analyse du discours

Fouille des arguments (Argument mining)

Word2vect ou Grands modèles de langue

Conclusion

Retours

Files

comCrihn2023-10.md

Latest commit

History

comCrihn2023-10.md

File metadata and controls

Communication Crihn 2023

Le conseil et la théorie architecturale

L’acquisition du corpus et les méthodes de HTR

Approches numériques pour l’analyse du discours

Analyse du discours

Fouille des arguments (Argument mining)

Word2vect ou Grands modèles de langue

Conclusion

Retours