Wörter und Tokens

Vektorprojektion für die Semantik historischer Zeiten

Autor/innen

DOI:

https://doi.org/10.5216/rth.v27i1.79370

Schlagworte:

História conceitual, aprendizado de máquina, semântica vetorial

Abstract

Zusammenfassung

Dieser Artikel untersucht die Semantik historischer Zeiten unter Verwendung der Verarbeitung natürlicher Sprache (NLP). Wir haben die Woke-Modellreihe (Word Embedding and Knowledge Model) entwickelt, die auf Wortvektorisierungsalgorithmen wie Word2Vec basiert und auf einem Korpus von Dissertationen und Abschlussarbeiten der Universität XXXX (2003-2024) trainiert wurde. Die Modelle Woke-HST und Woke-CFH wurden speziell in Geschichte und Geisteswissenschaften trainiert. Der Entwicklungsprozess umfasste Datenerfassung, Vorverarbeitung, Training und Validierung, wobei inkrementelles Lernen eingesetzt wurde, um semantische Variationen im Laufe der Zeit zu erfassen. Vorläufige Ergebnisse zeigen Variationen in der Stabilität der Bedeutungen von Konzepten wie "Rasse", "Geschlecht" und "Klasse". Wir präsentieren auch SKINNER, eine erklärbare KI (XAI)-Komponente, die spezifische linguistische Kontexte verfolgt und zur Transparenz der Ergebnisse beiträgt. Wir kommen zu dem Schluss, dass die vollständige Erfassung von "Erfahrungsräumen" komplexere Modelle und einen breiteren Datenkorpus erfordert. Der nächste Schritt des Projekts besteht darin, die Daten zu skalieren und Transformer-basierte Modelle zu verwenden, um eine genauere Darstellung historischer Konzepte zu erreichen. Diese Arbeit ist Teil eines interdisziplinären Projekts, das darauf abzielt, zu einer theoretisch orientierten digitalen Geschichtsschreibung beizutragen, die quantitative und qualitative Ansätze integriert und Gelehrsamkeit mit Big-Data-Analyse verbindet.

Schlüsselwörter: Begriffsgeschichte, maschinelles Lernen, Vektorsemantik

Autor/innen-Biografie

Rodrigo Bragio Bonaldo, Universidade Federal de Santa Catarina (UFSC), Florianópolis, Santa Catarina, Brasil, rodrigobonaldo@yahoo.com.br

CV: http://lattes.cnpq.br/2967207698672476

 

Acesso ao Notebook com os modelos utilizados em:
https://shorturl.at/J0CXP

AVISO: primeiro, salve uma cópia deste Notebook no seu Drive! ☣
Caminho: File > Save a copy in Drive.

Literaturhinweise

AGGARWAL, Charu C. Outlier Analysis. New York: Springer, 2013.

AMARO, Ramon. The black technical object: On machine learning and the aspiration of black being. London: Sternberg Press, 2022.

ANSELL-PEARSON, Keith. Bergson thinking beyond the human condition. Londres/Nova Iorque: Bloomsbury, 2018.

BERGSON, Henri. Da multiplicidade dos estados de consciência: a ideia de duração. In: Ensaio sobre os dados imediatos da consciência. Lisboa: Edições 70, 1988.

BLOEM, Jelke; FOKKENS, Antske; HERBELOT, Aurélie. Evaluating the Consistency of Word Embeddings from Small Data. In: Proceedings of Recent Advances in Natural Language Processing, 2019, Varna, pp. 132–141, 2019.

BOLUKBASE, Tolga; CHANG, Kai-Wei; ZOU, James; SALIGRAMA, Venkatesh; KALAI, Adam. Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings. arXiv:1607.06520, 2016.

BONALDO, Rodrigo. História mais do que humana: descrevendo o futuro como atualização repetidora da Inteligência Artificial. História (Sâo Paulo), Vol. 42, n. 1, pp. 1-28, 2023.

BONALDO, Rodrigo; PEREIRA, Ana Carolina Barbosa. Potential History: reading artificial intelligence from indigenous knowledges. History and Theory, n. 1, v. 62, pp 3-29, 2023.

BRASIL, Eric. pyHDB - Ferramenta heurística para Hemeroteca Digital Brasileira: utilizando técnicas de web scrapping para a pesquisa em história. História da Historiografia, Ouro Preto, v. 15, n. 40, pp. 186-217, 2022.

BRAUDEL, Fernand. A Longa Duração. In: História e Ciência Sociais. Lisboas: Presença, 1990.

CARDOSO Jr., Hélio R. Conceitos de Tempo na Teoria da História Recente (2000-2022): Banco de Dados com Recursos das Humanidades Digitais, Projeto CNPq/AUXÍLIO À PESQUISA/GRUPOS CONSOLIDADOS, Processo: 404969/2023-2.

CASELI, Helena de Madeiros; NUNES, Maria das Graças Volpe (org). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em português. São Carlos: BPLN, 2024.

CERTEAU, Michel de. A escrita da história. Rio de Janeiro: Forense Universitária, 2002.

CEZAR, Temístocles. Hamlet Brasileiro: ensaio sobre giro linguístico e indeterminação historiográfica (1970-1980). História da Historiografia, Ouro Preto, v. 8, n. 17, pp. 440-461, 2015.

DALLAS, Costis. Digital curation beyond the "wild frontier": a pragmatic approach. Archival Science. Vol. 16. No. 1, pp. 421-457, 2016.

FAZI, Beatrice. O fim da Teoria da Mídia. Intexto, Vol. 1, No. 49, pp. 305-318, 2020a.

FAZI, Beatrice. Beyond human: Deep learning, explainability and representation. In: Theory, Culture & Society, Vol. 38, No. 7-8, pp. 55-77, 2020b.

FERNÁNDEZ SEBASTIÁN, Javier. Identidades Anacrónicas: el historiador ante el problema de las categorias y classificaciones sociales. In: NEVES, Lucia Maria Bastos Pereira das; FERREIRA, Fátima Sá e Melo; NEVES, Guilherme Pereira das (org). Linguagens da identidade e da diferença no mundo Ibero-Americano (1700-1890). Jundiaí: Paco Editorial, 2018.

FERNÁNDEZ SEBASTIÁN, Javier. Key metaphors for history: mirrors of time. New York: Routledge, 2024.

FERRAZ FELIPPE, Eduardo. Correspondências historiográficas: Literatura e História além da forma tradicional. Revista de Teoria da História, v. 20, n. 2, pp. 6-27, 2018.

GADAMER, Hans-Georg. Verdade e Método: traços fundamentais de uma hermenêutica filosófica. Petrópolis: Editora Vozes, 1999.

GINZBURG, Carlo. Nossas palavras e as deles: o ofício do historiador na atualidade. ArtCultura, Uberlândia, v. 23, n. 42, pp. 7-26, 2021.

GONÇALVES, Murilo. A História (De)Codificada: Prolegômenos para uma Hermenêutica Digital. 204 páginas. (Tese de Doutorado em História) – Universidade Federal de Goiás, Goiânia, 2022.

HAMILTON, William L; LESKOVEC, Jure; JURAFSKY, Dan. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change. arXiv:1605.09096v6 [cs.CL] 25 Oct, Páginas 1-13, 2018.

HARTOG, François. Regimes de historicidade: presentismo e experiências do tempo. Belo Horizonte: Autêntica, 2014.

HERBELOT, Aurélie; BARONI, Marco. High-risk learning: acquiring new word vectors from tiny data. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2017, Copenhagen: Association for Computational Linguistics, pp. 304-309, 2017.

HUANG, Shaohan et al. Language is not all you need: aligning perception with language models. arXiv:2302.14045v2 [cs.CL], 2023.

IFVERSEN, Jan. About Key Concepts and How to Study Them. Contributions to the History of Concepts, v. 6, n. 1, p. 65-88, 2011.

KANNER, Antti. Meaning in Distributions: A Study on Computational Methods in Lexical Semantics. Helsinki: University of Helsinki, 2022.

KELLEHER, John. D. Deep Learning. Cambridge: The MIT Press, 2019.

KLÜVER, Jürgen; KLÜVER, Christina. Social Understanding: on hermeneutics, geometrical models and artificial intelligence. London/New York: Springer, 2011.

KOSELLECK, Reinhart. Uma história dos conceitos: problemas teóricos e práticos. Estudos Históricos, Rio de Janeiro, v. 5, n. 10, p. 134-146, 1992.

KOSELLECK, Reinhart. Response to Comments. In: LEHMANN, Hartmut; RICHTER, Melvin (org). The Meaning of Historical Terms and Concepts: New Studies on Begriffsgeschichte. Washington: German Historical Institute, 1996.

KOSELLECK, Reinhart. Futuro Passado: Contribuição à semântica dos tempos históricos. Rio de Janeiro: Contraponto, Editora Puc-RJ, 2006.

KOSELLECK, Reinhart. Introduction and Prefaces to the Geschichtliche Grundbegriffe. Contributions to the History of Concepts Vol. 6, No. 1, p. 10-15, 2011.

KOSELLECK, Reinhart. Estratos do tempo: Estudos sobre História. Rio de Janeiro: Contraponto, 2014.

LE, Quoc; MIKOLOV, Tomas. Distributed Representations of Sentences and Documents. arXiv:1405.4053v2 22, pp. 1-9, 2014.

LIMA, Henrique Espada. A micro-história italiana: Escalas, Indícios e Singularidades. Rio de Janeiro: Civilização Brasileira, 2006.

LUCCHESI, Anita.; SILVEIRA, Pedro Telles.; NICODEMO, Thiago Lima. Nunca fomos tão úteis. In: Esboços, Florianópolis, Vol. 27, No. 45, pp. 161-169, 2020.

MARQUESE, Rafael de Bivar; DA SILVA JÚNIOR, Waldomiro Lourenço. Tempos históricos plurais: Braudel, Koselleck e o problema da escravidão negra nas Américas. História da Historiografia, Ouro Preto, v. 11, n. 28, 2018.

MARJANEN, Jani. Quantitative Conceptual History: on agency, reception and interpretation. Contributions to the History of Concepts. Vol. 18, No. 1, pp. 46-67, 2023.

MARJANEN, Jani; KANNER, Antti. What are concepts in conceptual history? revisiting Koselleck through theories of semantic relations. In: The 24th Internacional Conference on the History of Concepts, 2023, Varsóvia. Agency of Concepts in Interface Regions: Assymmetries, Asynchronities and Discontinuations. Varsóvia: University of Warsaw, 2023.

MCCLOSKEY, Michael; COHEN, Neal J. Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem. Psychology of Learning and Motivation, Vol. 24, No. 1, pp. 109-165, 1989.

MCCORDUCK, Pamela. Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence. Natick, MA: A. K. Peters, 2004.

MENDES, Breno. A representância do passado histórico em Paul Ricoeur: linguagem, narrativa e verdade. 223 páginas (Tese de Doutorado em História) – Universidade Federal de Minas Gerais, Belo Horizonte, 2013.

MIKOLOV, Tomas; CORRADO, Greg; CHEN, Kai; DEAN, Jeffrey. Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781v3 [ cs.CL] Sep 7, Páginas 1-12, 2013.

MINSKY, Marvin. Why People Think Computers Can’t. AI Magazine, v. 3, n. 4, p. 3-15, 1982.

MONTEIRO, Renato de Araújo. Identidade, história de um conceito e o conceito de história: uma arqueologia nos dicionários de língua portuguesa. 306 Páginas. (Tese de Doutorado em História Global) – Universidade Federal de Santa Catarina, Florianópolis, 2024.

NEVES, Lúcia M. Bastos P. Os esquecidos no processo de independência: uma história a se fazer. Almanack, Guarulhos, Vol. 1, No. 25, pp. 1-44, 2020.

OLIVEIRA, Maria da G. de. Ficar com os espectros: políticas de temporalização da história em um presente fugidio. Esboços, Florianópolis, v. 30, n. 55, p. 442-455, 2023.

PERNAU, Margrit; RAJAMANI, Imke. Emotional translations: conceptual history beyond language. History and Theory, v. 55, n. 1, p. 46-65, 2016.

ROCHA, Marcos. Uma história da linguística computacional no âmbito das ciências cognitivas. Circumscribere, v. 18, p. 56-67, 2016.

NICODEMO, Thiago Lima; CARDOSO, Oldimar. Metahistory for (Ro)bots: historical knowledge in the Artificial Intelligence Era. História da Historiografia, Vol. 12, No. 29, pp. 17-52, 2019.

RICOEUR, Paul. L'écriture de l'histoire et la représentation du passé. In: Annales: Histoire, Sciences Sociales. Vol. 55, No. 4, pp. 731-747, 2000.

ROSA, Hartmut. Aceleração: A transformação das estruturas temporais na Modernidade. São Paulo: Editora. Unesp, 2019.

ROTA, Alesson Ramon; NICODEMO, Thiago Lima. Arquivos pessoais e redes sociais: o Twitter construído como documento histórico. In: Estudos Históricos, Vol. 36, No. 79, pp 268-291, 2023.

SILVEIRA, Pedro Telles da. O que é uma ferramenta historiográfica? História da Historiografia, Ouro Preto, v. 15, n. 40, p. 219-231, 2022.

SILVEIRA, Pedro Telles da. The counted time: Technical temporalities and their challenges to history. In: History and Theory, Vol. 62, No. 3, pp. 403-426, 2023.

TURING, Alan. Computing Machinery and Intelligence. Mind, v. 58, n. 236, p. 433-460, 1950.

TURIN, Rodrigo. Antropoceno e futuros presentes: entre regime climático e regimes de historicidade potenciais. Topoi, Rio de Janeiro, Vol. 24, No. 54, pp. 703-724, 2023.

VARELLA, Flávia Florentino; BONALDO, Rodrigo Bragio. Negociando autoridades, construindo saberes: a historiografia digital e colaborativa no projeto Teoria da História na Wikipédia. In: Revista Brasileira de História, São Paulo, Vol. 40, No. 85, pp. 147-170, 2020.

VASWANI, Ashish et al. Attention is all you need. arXiv:1706.03762v5 [cs.CL], 2017.

WARK, Mckenzie. O capital está morto. São Paulo: Editora Funilaria e sobinfluência edições, 2022.

WEVERS, Melvin; KOOLEN, Marijn. Digital Begriffsgeschichte: tracing semantic change using word embeddings. Historical Methods: A Journal of Quantitative and Interdisciplinary History, Vol. 53, No. 4, pp. 226-243, 2020.

Veröffentlicht

2024-08-04

Zitationsvorschlag

BRAGIO BONALDO, R. Wörter und Tokens: Vektorprojektion für die Semantik historischer Zeiten. Revista de Teoria da História, Goiânia, v. 27, n. 1, p. 7–50, 2024. DOI: 10.5216/rth.v27i1.79370. Disponível em: https://revistas.ufg.br/teoria/article/view/79370. Acesso em: 9 aug. 2024.