As palavras e os tokens
Projeção vetorial aplicada ao estudo da semântica dos tempos históricos
DOI:
https://doi.org/10.5216/rth.v27i1.79370Palavras-chave:
História conceitual, aprendizado de máquina, semântica vetorialResumo
Este artigo explora a semântica dos tempos históricos usando Processamento de Linguagem Natural (PLN). Desenvolvemos a família de modelos Woke (Word Embedding and Knowledge Model), utilizando algoritmos de vetorização de palavras como o Word2Vec, treinados em um corpus de teses e dissertações da Universidade Federal de Santa Catarina (2003-2024). Os modelos Woke-HST e Woke-CFH foram treinados especificamente em História e Ciências Humanas. Já os modelos Woke-UFSC foram expostos a 96,25% dos dados nativo digitais disponíveis no repositório de nossa universidade. O desenvolvimento envolveu coleta, pré-processamento, treinamento e validação dos dados, usando aprendizados micro-diacrônico, temporal e incremental para capturar variações semânticas ao longo do tempo. Os resultados preliminares mostram mudanças na estabilidade dos significados de conceitos como “raça”, “gênero” e “classe”. Apresentamos também SKINNER, um componente de IA explicável (XAI) que rastreia contextos linguísticos específicos, contribuindo para a transparência dos resultados. Concluímos que a captura completa de “espaços de experiência” requer modelos mais complexos e um corpus de dados mais amplo. O próximo passo do projeto é escalar os dados e usar modelos baseados na arquitetura Transformer para uma representação mais precisa dos conceitos históricos. Este trabalho é parte de um projeto interdisciplinar que busca contribuir para uma história digital teoricamente orientada que integre abordagens quantitativas e qualitativas, aliando erudição e análise de big data.
Referências
AGGARWAL, Charu C. Outlier Analysis. New York: Springer, 2013.
AMARO, Ramon. The black technical object: On machine learning and the aspiration of black being. London: Sternberg Press, 2022.
ANSELL-PEARSON, Keith. Bergson thinking beyond the human condition. Londres/Nova Iorque: Bloomsbury, 2018.
BERGSON, Henri. Da multiplicidade dos estados de consciência: a ideia de duração. In: Ensaio sobre os dados imediatos da consciência. Lisboa: Edições 70, 1988.
BLOEM, Jelke; FOKKENS, Antske; HERBELOT, Aurélie. Evaluating the Consistency of Word Embeddings from Small Data. In: Proceedings of Recent Advances in Natural Language Processing, 2019, Varna, pp. 132–141, 2019.
BOLUKBASE, Tolga; CHANG, Kai-Wei; ZOU, James; SALIGRAMA, Venkatesh; KALAI, Adam. Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings. arXiv:1607.06520, 2016.
BONALDO, Rodrigo. História mais do que humana: descrevendo o futuro como atualização repetidora da Inteligência Artificial. História (Sâo Paulo), Vol. 42, n. 1, pp. 1-28, 2023.
BONALDO, Rodrigo; PEREIRA, Ana Carolina Barbosa. Potential History: reading artificial intelligence from indigenous knowledges. History and Theory, n. 1, v. 62, pp 3-29, 2023.
BRASIL, Eric. pyHDB - Ferramenta heurística para Hemeroteca Digital Brasileira: utilizando técnicas de web scrapping para a pesquisa em história. História da Historiografia, Ouro Preto, v. 15, n. 40, pp. 186-217, 2022.
BRAUDEL, Fernand. A Longa Duração. In: História e Ciência Sociais. Lisboas: Presença, 1990.
CARDOSO Jr., Hélio R. Conceitos de Tempo na Teoria da História Recente (2000-2022): Banco de Dados com Recursos das Humanidades Digitais, Projeto CNPq/AUXÍLIO À PESQUISA/GRUPOS CONSOLIDADOS, Processo: 404969/2023-2.
CASELI, Helena de Madeiros; NUNES, Maria das Graças Volpe (org). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em português. São Carlos: BPLN, 2024.
CERTEAU, Michel de. A escrita da história. Rio de Janeiro: Forense Universitária, 2002.
CEZAR, Temístocles. Hamlet Brasileiro: ensaio sobre giro linguístico e indeterminação historiográfica (1970-1980). História da Historiografia, Ouro Preto, v. 8, n. 17, pp. 440-461, 2015.
DALLAS, Costis. Digital curation beyond the "wild frontier": a pragmatic approach. Archival Science. Vol. 16. No. 1, pp. 421-457, 2016.
FAZI, Beatrice. O fim da Teoria da Mídia. Intexto, Vol. 1, No. 49, pp. 305-318, 2020a.
FAZI, Beatrice. Beyond human: Deep learning, explainability and representation. In: Theory, Culture & Society, Vol. 38, No. 7-8, pp. 55-77, 2020b.
FERNÁNDEZ SEBASTIÁN, Javier. Identidades Anacrónicas: el historiador ante el problema de las categorias y classificaciones sociales. In: NEVES, Lucia Maria Bastos Pereira das; FERREIRA, Fátima Sá e Melo; NEVES, Guilherme Pereira das (org). Linguagens da identidade e da diferença no mundo Ibero-Americano (1700-1890). Jundiaí: Paco Editorial, 2018.
FERNÁNDEZ SEBASTIÁN, Javier. Key metaphors for history: mirrors of time. New York: Routledge, 2024.
FERRAZ FELIPPE, Eduardo. Correspondências historiográficas: Literatura e História além da forma tradicional. Revista de Teoria da História, v. 20, n. 2, pp. 6-27, 2018.
GADAMER, Hans-Georg. Verdade e Método: traços fundamentais de uma hermenêutica filosófica. Petrópolis: Editora Vozes, 1999.
GINZBURG, Carlo. Nossas palavras e as deles: o ofício do historiador na atualidade. ArtCultura, Uberlândia, v. 23, n. 42, pp. 7-26, 2021.
GONÇALVES, Murilo. A História (De)Codificada: Prolegômenos para uma Hermenêutica Digital. 204 páginas. (Tese de Doutorado em História) – Universidade Federal de Goiás, Goiânia, 2022.
HAMILTON, William L; LESKOVEC, Jure; JURAFSKY, Dan. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change. arXiv:1605.09096v6 [cs.CL] 25 Oct, Páginas 1-13, 2018.
HARTOG, François. Regimes de historicidade: presentismo e experiências do tempo. Belo Horizonte: Autêntica, 2014.
HERBELOT, Aurélie; BARONI, Marco. High-risk learning: acquiring new word vectors from tiny data. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2017, Copenhagen: Association for Computational Linguistics, pp. 304-309, 2017.
HUANG, Shaohan et al. Language is not all you need: aligning perception with language models. arXiv:2302.14045v2 [cs.CL], 2023.
IFVERSEN, Jan. About Key Concepts and How to Study Them. Contributions to the History of Concepts, v. 6, n. 1, p. 65-88, 2011.
KANNER, Antti. Meaning in Distributions: A Study on Computational Methods in Lexical Semantics. Helsinki: University of Helsinki, 2022.
KELLEHER, John. D. Deep Learning. Cambridge: The MIT Press, 2019.
KLÜVER, Jürgen; KLÜVER, Christina. Social Understanding: on hermeneutics, geometrical models and artificial intelligence. London/New York: Springer, 2011.
KOSELLECK, Reinhart. Uma história dos conceitos: problemas teóricos e práticos. Estudos Históricos, Rio de Janeiro, v. 5, n. 10, p. 134-146, 1992.
KOSELLECK, Reinhart. Response to Comments. In: LEHMANN, Hartmut; RICHTER, Melvin (org). The Meaning of Historical Terms and Concepts: New Studies on Begriffsgeschichte. Washington: German Historical Institute, 1996.
KOSELLECK, Reinhart. Futuro Passado: Contribuição à semântica dos tempos históricos. Rio de Janeiro: Contraponto, Editora Puc-RJ, 2006.
KOSELLECK, Reinhart. Introduction and Prefaces to the Geschichtliche Grundbegriffe. Contributions to the History of Concepts Vol. 6, No. 1, p. 10-15, 2011.
KOSELLECK, Reinhart. Estratos do tempo: Estudos sobre História. Rio de Janeiro: Contraponto, 2014.
LE, Quoc; MIKOLOV, Tomas. Distributed Representations of Sentences and Documents. arXiv:1405.4053v2 22, pp. 1-9, 2014.
LIMA, Henrique Espada. A micro-história italiana: Escalas, Indícios e Singularidades. Rio de Janeiro: Civilização Brasileira, 2006.
LUCCHESI, Anita.; SILVEIRA, Pedro Telles.; NICODEMO, Thiago Lima. Nunca fomos tão úteis. In: Esboços, Florianópolis, Vol. 27, No. 45, pp. 161-169, 2020.
MARQUESE, Rafael de Bivar; DA SILVA JÚNIOR, Waldomiro Lourenço. Tempos históricos plurais: Braudel, Koselleck e o problema da escravidão negra nas Américas. História da Historiografia, Ouro Preto, v. 11, n. 28, 2018.
MARJANEN, Jani. Quantitative Conceptual History: on agency, reception and interpretation. Contributions to the History of Concepts. Vol. 18, No. 1, pp. 46-67, 2023.
MARJANEN, Jani; KANNER, Antti. What are concepts in conceptual history? revisiting Koselleck through theories of semantic relations. In: The 24th Internacional Conference on the History of Concepts, 2023, Varsóvia. Agency of Concepts in Interface Regions: Assymmetries, Asynchronities and Discontinuations. Varsóvia: University of Warsaw, 2023.
MCCLOSKEY, Michael; COHEN, Neal J. Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem. Psychology of Learning and Motivation, Vol. 24, No. 1, pp. 109-165, 1989.
MCCORDUCK, Pamela. Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence. Natick, MA: A. K. Peters, 2004.
MENDES, Breno. A representância do passado histórico em Paul Ricoeur: linguagem, narrativa e verdade. 223 páginas (Tese de Doutorado em História) – Universidade Federal de Minas Gerais, Belo Horizonte, 2013.
MIKOLOV, Tomas; CORRADO, Greg; CHEN, Kai; DEAN, Jeffrey. Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781v3 [ cs.CL] Sep 7, Páginas 1-12, 2013.
MINSKY, Marvin. Why People Think Computers Can’t. AI Magazine, v. 3, n. 4, p. 3-15, 1982.
MONTEIRO, Renato de Araújo. Identidade, história de um conceito e o conceito de história: uma arqueologia nos dicionários de língua portuguesa. 306 Páginas. (Tese de Doutorado em História Global) – Universidade Federal de Santa Catarina, Florianópolis, 2024.
NEVES, Lúcia M. Bastos P. Os esquecidos no processo de independência: uma história a se fazer. Almanack, Guarulhos, Vol. 1, No. 25, pp. 1-44, 2020.
OLIVEIRA, Maria da G. de. Ficar com os espectros: políticas de temporalização da história em um presente fugidio. Esboços, Florianópolis, v. 30, n. 55, p. 442-455, 2023.
PERNAU, Margrit; RAJAMANI, Imke. Emotional translations: conceptual history beyond language. History and Theory, v. 55, n. 1, p. 46-65, 2016.
ROCHA, Marcos. Uma história da linguística computacional no âmbito das ciências cognitivas. Circumscribere, v. 18, p. 56-67, 2016.
NICODEMO, Thiago Lima; CARDOSO, Oldimar. Metahistory for (Ro)bots: historical knowledge in the Artificial Intelligence Era. História da Historiografia, Vol. 12, No. 29, pp. 17-52, 2019.
RICOEUR, Paul. L'écriture de l'histoire et la représentation du passé. In: Annales: Histoire, Sciences Sociales. Vol. 55, No. 4, pp. 731-747, 2000.
ROSA, Hartmut. Aceleração: A transformação das estruturas temporais na Modernidade. São Paulo: Editora. Unesp, 2019.
ROTA, Alesson Ramon; NICODEMO, Thiago Lima. Arquivos pessoais e redes sociais: o Twitter construído como documento histórico. In: Estudos Históricos, Vol. 36, No. 79, pp 268-291, 2023.
SILVEIRA, Pedro Telles da. O que é uma ferramenta historiográfica? História da Historiografia, Ouro Preto, v. 15, n. 40, p. 219-231, 2022.
SILVEIRA, Pedro Telles da. The counted time: Technical temporalities and their challenges to history. In: History and Theory, Vol. 62, No. 3, pp. 403-426, 2023.
TURING, Alan. Computing Machinery and Intelligence. Mind, v. 58, n. 236, p. 433-460, 1950.
TURIN, Rodrigo. Antropoceno e futuros presentes: entre regime climático e regimes de historicidade potenciais. Topoi, Rio de Janeiro, Vol. 24, No. 54, pp. 703-724, 2023.
VARELLA, Flávia Florentino; BONALDO, Rodrigo Bragio. Negociando autoridades, construindo saberes: a historiografia digital e colaborativa no projeto Teoria da História na Wikipédia. In: Revista Brasileira de História, São Paulo, Vol. 40, No. 85, pp. 147-170, 2020.
VASWANI, Ashish et al. Attention is all you need. arXiv:1706.03762v5 [cs.CL], 2017.
WARK, Mckenzie. O capital está morto. São Paulo: Editora Funilaria e sobinfluência edições, 2022.
WEVERS, Melvin; KOOLEN, Marijn. Digital Begriffsgeschichte: tracing semantic change using word embeddings. Historical Methods: A Journal of Quantitative and Interdisciplinary History, Vol. 53, No. 4, pp. 226-243, 2020.
Downloads
Arquivos adicionais
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2024 Revista de Teoria da História
Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
A Revista publica única e exclusivamente artigos inéditos. São reservados à Revista todos os direitos de veiculação e publicação dos artigos presentes no periódico.
Licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License