Las palabras y los tokens
proyección vectorial para el estudio de la semántica de los tiempos históricos
DOI:
https://doi.org/10.5216/rth.v27i1.79370Palabras clave:
História conceitual, aprendizado de máquina, semântica vetorialResumen
Resumen
Este artículo explora la semántica de los tiempos históricos utilizando el procesamiento del lenguaje natural (PLN). Hemos desarrollado la serie de modelos Woke (Word Embedding and Knowledge Model), utilizando algoritmos de vectorización de palabras como Word2Vec, entrenados con un corpus de tesis y disertaciones de la Universidad XXXX (2003-2024). Los modelos Woke-HST y Woke-CFH fueron entrenados específicamente en Historia y Humanidades. El proceso de desarrollo involucró la recopilación de datos, el preprocesamiento, el entrenamiento y la validación, utilizando el aprendizaje incremental para capturar las variaciones semánticas a lo largo del tiempo. Los resultados preliminares muestran variaciones en la estabilidad de los significados de conceptos como "raza", "género" y "clase". También presentamos SKINNER, un componente de IA explicable (XAI) que rastrea contextos lingüísticos específicos, contribuyendo a la transparencia de los resultados. Concluimos que la captura completa de los "espacios de experiencia" requiere modelos más complejos y un corpus de datos más amplio. El siguiente paso del proyecto es escalar los datos y utilizar modelos basados en la arquitectura Transformer para una representación más precisa de los conceptos históricos. Este trabajo es parte de un proyecto interdisciplinar que busca contribuir a una historia digital teóricamente orientada que integre enfoques cuantitativos y cualitativos, combinando erudición y análisis de big data.
Palabras clave: Historia conceptual, aprendizaje automático, semántica vectorial
Citas
AGGARWAL, Charu C. Outlier Analysis. New York: Springer, 2013.
AMARO, Ramon. The black technical object: On machine learning and the aspiration of black being. London: Sternberg Press, 2022.
ANSELL-PEARSON, Keith. Bergson thinking beyond the human condition. Londres/Nova Iorque: Bloomsbury, 2018.
BERGSON, Henri. Da multiplicidade dos estados de consciência: a ideia de duração. In: Ensaio sobre os dados imediatos da consciência. Lisboa: Edições 70, 1988.
BLOEM, Jelke; FOKKENS, Antske; HERBELOT, Aurélie. Evaluating the Consistency of Word Embeddings from Small Data. In: Proceedings of Recent Advances in Natural Language Processing, 2019, Varna, pp. 132–141, 2019.
BOLUKBASE, Tolga; CHANG, Kai-Wei; ZOU, James; SALIGRAMA, Venkatesh; KALAI, Adam. Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings. arXiv:1607.06520, 2016.
BONALDO, Rodrigo. História mais do que humana: descrevendo o futuro como atualização repetidora da Inteligência Artificial. História (Sâo Paulo), Vol. 42, n. 1, pp. 1-28, 2023.
BONALDO, Rodrigo; PEREIRA, Ana Carolina Barbosa. Potential History: reading artificial intelligence from indigenous knowledges. History and Theory, n. 1, v. 62, pp 3-29, 2023.
BRASIL, Eric. pyHDB - Ferramenta heurística para Hemeroteca Digital Brasileira: utilizando técnicas de web scrapping para a pesquisa em história. História da Historiografia, Ouro Preto, v. 15, n. 40, pp. 186-217, 2022.
BRAUDEL, Fernand. A Longa Duração. In: História e Ciência Sociais. Lisboas: Presença, 1990.
CARDOSO Jr., Hélio R. Conceitos de Tempo na Teoria da História Recente (2000-2022): Banco de Dados com Recursos das Humanidades Digitais, Projeto CNPq/AUXÍLIO À PESQUISA/GRUPOS CONSOLIDADOS, Processo: 404969/2023-2.
CASELI, Helena de Madeiros; NUNES, Maria das Graças Volpe (org). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em português. São Carlos: BPLN, 2024.
CERTEAU, Michel de. A escrita da história. Rio de Janeiro: Forense Universitária, 2002.
CEZAR, Temístocles. Hamlet Brasileiro: ensaio sobre giro linguístico e indeterminação historiográfica (1970-1980). História da Historiografia, Ouro Preto, v. 8, n. 17, pp. 440-461, 2015.
DALLAS, Costis. Digital curation beyond the "wild frontier": a pragmatic approach. Archival Science. Vol. 16. No. 1, pp. 421-457, 2016.
FAZI, Beatrice. O fim da Teoria da Mídia. Intexto, Vol. 1, No. 49, pp. 305-318, 2020a.
FAZI, Beatrice. Beyond human: Deep learning, explainability and representation. In: Theory, Culture & Society, Vol. 38, No. 7-8, pp. 55-77, 2020b.
FERNÁNDEZ SEBASTIÁN, Javier. Identidades Anacrónicas: el historiador ante el problema de las categorias y classificaciones sociales. In: NEVES, Lucia Maria Bastos Pereira das; FERREIRA, Fátima Sá e Melo; NEVES, Guilherme Pereira das (org). Linguagens da identidade e da diferença no mundo Ibero-Americano (1700-1890). Jundiaí: Paco Editorial, 2018.
FERNÁNDEZ SEBASTIÁN, Javier. Key metaphors for history: mirrors of time. New York: Routledge, 2024.
FERRAZ FELIPPE, Eduardo. Correspondências historiográficas: Literatura e História além da forma tradicional. Revista de Teoria da História, v. 20, n. 2, pp. 6-27, 2018.
GADAMER, Hans-Georg. Verdade e Método: traços fundamentais de uma hermenêutica filosófica. Petrópolis: Editora Vozes, 1999.
GINZBURG, Carlo. Nossas palavras e as deles: o ofício do historiador na atualidade. ArtCultura, Uberlândia, v. 23, n. 42, pp. 7-26, 2021.
GONÇALVES, Murilo. A História (De)Codificada: Prolegômenos para uma Hermenêutica Digital. 204 páginas. (Tese de Doutorado em História) – Universidade Federal de Goiás, Goiânia, 2022.
HAMILTON, William L; LESKOVEC, Jure; JURAFSKY, Dan. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change. arXiv:1605.09096v6 [cs.CL] 25 Oct, Páginas 1-13, 2018.
HARTOG, François. Regimes de historicidade: presentismo e experiências do tempo. Belo Horizonte: Autêntica, 2014.
HERBELOT, Aurélie; BARONI, Marco. High-risk learning: acquiring new word vectors from tiny data. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2017, Copenhagen: Association for Computational Linguistics, pp. 304-309, 2017.
HUANG, Shaohan et al. Language is not all you need: aligning perception with language models. arXiv:2302.14045v2 [cs.CL], 2023.
IFVERSEN, Jan. About Key Concepts and How to Study Them. Contributions to the History of Concepts, v. 6, n. 1, p. 65-88, 2011.
KANNER, Antti. Meaning in Distributions: A Study on Computational Methods in Lexical Semantics. Helsinki: University of Helsinki, 2022.
KELLEHER, John. D. Deep Learning. Cambridge: The MIT Press, 2019.
KLÜVER, Jürgen; KLÜVER, Christina. Social Understanding: on hermeneutics, geometrical models and artificial intelligence. London/New York: Springer, 2011.
KOSELLECK, Reinhart. Uma história dos conceitos: problemas teóricos e práticos. Estudos Históricos, Rio de Janeiro, v. 5, n. 10, p. 134-146, 1992.
KOSELLECK, Reinhart. Response to Comments. In: LEHMANN, Hartmut; RICHTER, Melvin (org). The Meaning of Historical Terms and Concepts: New Studies on Begriffsgeschichte. Washington: German Historical Institute, 1996.
KOSELLECK, Reinhart. Futuro Passado: Contribuição à semântica dos tempos históricos. Rio de Janeiro: Contraponto, Editora Puc-RJ, 2006.
KOSELLECK, Reinhart. Introduction and Prefaces to the Geschichtliche Grundbegriffe. Contributions to the History of Concepts Vol. 6, No. 1, p. 10-15, 2011.
KOSELLECK, Reinhart. Estratos do tempo: Estudos sobre História. Rio de Janeiro: Contraponto, 2014.
LE, Quoc; MIKOLOV, Tomas. Distributed Representations of Sentences and Documents. arXiv:1405.4053v2 22, pp. 1-9, 2014.
LIMA, Henrique Espada. A micro-história italiana: Escalas, Indícios e Singularidades. Rio de Janeiro: Civilização Brasileira, 2006.
LUCCHESI, Anita.; SILVEIRA, Pedro Telles.; NICODEMO, Thiago Lima. Nunca fomos tão úteis. In: Esboços, Florianópolis, Vol. 27, No. 45, pp. 161-169, 2020.
MARQUESE, Rafael de Bivar; DA SILVA JÚNIOR, Waldomiro Lourenço. Tempos históricos plurais: Braudel, Koselleck e o problema da escravidão negra nas Américas. História da Historiografia, Ouro Preto, v. 11, n. 28, 2018.
MARJANEN, Jani. Quantitative Conceptual History: on agency, reception and interpretation. Contributions to the History of Concepts. Vol. 18, No. 1, pp. 46-67, 2023.
MARJANEN, Jani; KANNER, Antti. What are concepts in conceptual history? revisiting Koselleck through theories of semantic relations. In: The 24th Internacional Conference on the History of Concepts, 2023, Varsóvia. Agency of Concepts in Interface Regions: Assymmetries, Asynchronities and Discontinuations. Varsóvia: University of Warsaw, 2023.
MCCLOSKEY, Michael; COHEN, Neal J. Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem. Psychology of Learning and Motivation, Vol. 24, No. 1, pp. 109-165, 1989.
MCCORDUCK, Pamela. Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence. Natick, MA: A. K. Peters, 2004.
MENDES, Breno. A representância do passado histórico em Paul Ricoeur: linguagem, narrativa e verdade. 223 páginas (Tese de Doutorado em História) – Universidade Federal de Minas Gerais, Belo Horizonte, 2013.
MIKOLOV, Tomas; CORRADO, Greg; CHEN, Kai; DEAN, Jeffrey. Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781v3 [ cs.CL] Sep 7, Páginas 1-12, 2013.
MINSKY, Marvin. Why People Think Computers Can’t. AI Magazine, v. 3, n. 4, p. 3-15, 1982.
MONTEIRO, Renato de Araújo. Identidade, história de um conceito e o conceito de história: uma arqueologia nos dicionários de língua portuguesa. 306 Páginas. (Tese de Doutorado em História Global) – Universidade Federal de Santa Catarina, Florianópolis, 2024.
NEVES, Lúcia M. Bastos P. Os esquecidos no processo de independência: uma história a se fazer. Almanack, Guarulhos, Vol. 1, No. 25, pp. 1-44, 2020.
OLIVEIRA, Maria da G. de. Ficar com os espectros: políticas de temporalização da história em um presente fugidio. Esboços, Florianópolis, v. 30, n. 55, p. 442-455, 2023.
PERNAU, Margrit; RAJAMANI, Imke. Emotional translations: conceptual history beyond language. History and Theory, v. 55, n. 1, p. 46-65, 2016.
ROCHA, Marcos. Uma história da linguística computacional no âmbito das ciências cognitivas. Circumscribere, v. 18, p. 56-67, 2016.
NICODEMO, Thiago Lima; CARDOSO, Oldimar. Metahistory for (Ro)bots: historical knowledge in the Artificial Intelligence Era. História da Historiografia, Vol. 12, No. 29, pp. 17-52, 2019.
RICOEUR, Paul. L'écriture de l'histoire et la représentation du passé. In: Annales: Histoire, Sciences Sociales. Vol. 55, No. 4, pp. 731-747, 2000.
ROSA, Hartmut. Aceleração: A transformação das estruturas temporais na Modernidade. São Paulo: Editora. Unesp, 2019.
ROTA, Alesson Ramon; NICODEMO, Thiago Lima. Arquivos pessoais e redes sociais: o Twitter construído como documento histórico. In: Estudos Históricos, Vol. 36, No. 79, pp 268-291, 2023.
SILVEIRA, Pedro Telles da. O que é uma ferramenta historiográfica? História da Historiografia, Ouro Preto, v. 15, n. 40, p. 219-231, 2022.
SILVEIRA, Pedro Telles da. The counted time: Technical temporalities and their challenges to history. In: History and Theory, Vol. 62, No. 3, pp. 403-426, 2023.
TURING, Alan. Computing Machinery and Intelligence. Mind, v. 58, n. 236, p. 433-460, 1950.
TURIN, Rodrigo. Antropoceno e futuros presentes: entre regime climático e regimes de historicidade potenciais. Topoi, Rio de Janeiro, Vol. 24, No. 54, pp. 703-724, 2023.
VARELLA, Flávia Florentino; BONALDO, Rodrigo Bragio. Negociando autoridades, construindo saberes: a historiografia digital e colaborativa no projeto Teoria da História na Wikipédia. In: Revista Brasileira de História, São Paulo, Vol. 40, No. 85, pp. 147-170, 2020.
VASWANI, Ashish et al. Attention is all you need. arXiv:1706.03762v5 [cs.CL], 2017.
WARK, Mckenzie. O capital está morto. São Paulo: Editora Funilaria e sobinfluência edições, 2022.
WEVERS, Melvin; KOOLEN, Marijn. Digital Begriffsgeschichte: tracing semantic change using word embeddings. Historical Methods: A Journal of Quantitative and Interdisciplinary History, Vol. 53, No. 4, pp. 226-243, 2020.
Descargas
Archivos adicionales
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2024 Revista de Teoria da História
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
A Revista publica única e exclusivamente artigos inéditos. São reservados à Revista todos os direitos de veiculação e publicação dos artigos presentes no periódico.
Licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License