As palavras e os tokens

Projeção vetorial aplicada ao estudo da semântica dos tempos históricos

Autores

DOI:

https://doi.org/10.5216/rth.v27i1.79370

Palavras-chave:

História conceitual, aprendizado de máquina, semântica vetorial

Resumo

Este artigo explora a semântica dos tempos históricos usando Processamento de Linguagem Natural (PLN). Desenvolvemos a família de modelos Woke (Word Embedding and Knowledge Model), utilizando algoritmos de vetorização de palavras como o Word2Vec, treinados em um corpus de teses e dissertações da Universidade Federal de Santa Catarina (2003-2024). Os modelos Woke-HST e Woke-CFH foram treinados especificamente em História e Ciências Humanas. Já os modelos Woke-UFSC foram expostos a 96,25% dos dados nativo digitais disponíveis no repositório de nossa universidade. O desenvolvimento envolveu coleta, pré-processamento, treinamento e validação dos dados, usando aprendizados micro-diacrônico, temporal e incremental para capturar variações semânticas ao longo do tempo. Os resultados preliminares mostram mudanças na estabilidade dos significados de conceitos como “raça”, “gênero” e “classe”. Apresentamos também SKINNER, um componente de IA explicável (XAI) que rastreia contextos linguísticos específicos, contribuindo para a transparência dos resultados. Concluímos que a captura completa de “espaços de experiência” requer modelos mais complexos e um corpus de dados mais amplo. O próximo passo do projeto é escalar os dados e usar modelos baseados na arquitetura Transformer para uma representação mais precisa dos conceitos históricos. Este trabalho é parte de um projeto interdisciplinar que busca contribuir para uma história digital teoricamente orientada que integre abordagens quantitativas e qualitativas, aliando erudição e análise de big data.

Biografia do Autor

Rodrigo Bragio Bonaldo, Universidade Federal de Santa Catarina (UFSC), Florianópolis, Santa Catarina, Brasil, rodrigobonaldo@yahoo.com.br

CV: http://lattes.cnpq.br/2967207698672476

 

Acesso ao Notebook com os modelos utilizados em:
https://shorturl.at/J0CXP

AVISO: primeiro, salve uma cópia deste Notebook no seu Drive! ☣
Caminho: File > Save a copy in Drive.

Referências

AGGARWAL, Charu C. Outlier Analysis. New York: Springer, 2013.

AMARO, Ramon. The black technical object: On machine learning and the aspiration of black being. London: Sternberg Press, 2022.

ANSELL-PEARSON, Keith. Bergson thinking beyond the human condition. Londres/Nova Iorque: Bloomsbury, 2018.

BERGSON, Henri. Da multiplicidade dos estados de consciência: a ideia de duração. In: Ensaio sobre os dados imediatos da consciência. Lisboa: Edições 70, 1988.

BLOEM, Jelke; FOKKENS, Antske; HERBELOT, Aurélie. Evaluating the Consistency of Word Embeddings from Small Data. In: Proceedings of Recent Advances in Natural Language Processing, 2019, Varna, pp. 132–141, 2019.

BOLUKBASE, Tolga; CHANG, Kai-Wei; ZOU, James; SALIGRAMA, Venkatesh; KALAI, Adam. Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings. arXiv:1607.06520, 2016.

BONALDO, Rodrigo. História mais do que humana: descrevendo o futuro como atualização repetidora da Inteligência Artificial. História (Sâo Paulo), Vol. 42, n. 1, pp. 1-28, 2023.

BONALDO, Rodrigo; PEREIRA, Ana Carolina Barbosa. Potential History: reading artificial intelligence from indigenous knowledges. History and Theory, n. 1, v. 62, pp 3-29, 2023.

BRASIL, Eric. pyHDB - Ferramenta heurística para Hemeroteca Digital Brasileira: utilizando técnicas de web scrapping para a pesquisa em história. História da Historiografia, Ouro Preto, v. 15, n. 40, pp. 186-217, 2022.

BRAUDEL, Fernand. A Longa Duração. In: História e Ciência Sociais. Lisboas: Presença, 1990.

CARDOSO Jr., Hélio R. Conceitos de Tempo na Teoria da História Recente (2000-2022): Banco de Dados com Recursos das Humanidades Digitais, Projeto CNPq/AUXÍLIO À PESQUISA/GRUPOS CONSOLIDADOS, Processo: 404969/2023-2.

CASELI, Helena de Madeiros; NUNES, Maria das Graças Volpe (org). Processamento de Linguagem Natural: conceitos, técnicas e aplicações em português. São Carlos: BPLN, 2024.

CERTEAU, Michel de. A escrita da história. Rio de Janeiro: Forense Universitária, 2002.

CEZAR, Temístocles. Hamlet Brasileiro: ensaio sobre giro linguístico e indeterminação historiográfica (1970-1980). História da Historiografia, Ouro Preto, v. 8, n. 17, pp. 440-461, 2015.

DALLAS, Costis. Digital curation beyond the "wild frontier": a pragmatic approach. Archival Science. Vol. 16. No. 1, pp. 421-457, 2016.

FAZI, Beatrice. O fim da Teoria da Mídia. Intexto, Vol. 1, No. 49, pp. 305-318, 2020a.

FAZI, Beatrice. Beyond human: Deep learning, explainability and representation. In: Theory, Culture & Society, Vol. 38, No. 7-8, pp. 55-77, 2020b.

FERNÁNDEZ SEBASTIÁN, Javier. Identidades Anacrónicas: el historiador ante el problema de las categorias y classificaciones sociales. In: NEVES, Lucia Maria Bastos Pereira das; FERREIRA, Fátima Sá e Melo; NEVES, Guilherme Pereira das (org). Linguagens da identidade e da diferença no mundo Ibero-Americano (1700-1890). Jundiaí: Paco Editorial, 2018.

FERNÁNDEZ SEBASTIÁN, Javier. Key metaphors for history: mirrors of time. New York: Routledge, 2024.

FERRAZ FELIPPE, Eduardo. Correspondências historiográficas: Literatura e História além da forma tradicional. Revista de Teoria da História, v. 20, n. 2, pp. 6-27, 2018.

GADAMER, Hans-Georg. Verdade e Método: traços fundamentais de uma hermenêutica filosófica. Petrópolis: Editora Vozes, 1999.

GINZBURG, Carlo. Nossas palavras e as deles: o ofício do historiador na atualidade. ArtCultura, Uberlândia, v. 23, n. 42, pp. 7-26, 2021.

GONÇALVES, Murilo. A História (De)Codificada: Prolegômenos para uma Hermenêutica Digital. 204 páginas. (Tese de Doutorado em História) – Universidade Federal de Goiás, Goiânia, 2022.

HAMILTON, William L; LESKOVEC, Jure; JURAFSKY, Dan. Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change. arXiv:1605.09096v6 [cs.CL] 25 Oct, Páginas 1-13, 2018.

HARTOG, François. Regimes de historicidade: presentismo e experiências do tempo. Belo Horizonte: Autêntica, 2014.

HERBELOT, Aurélie; BARONI, Marco. High-risk learning: acquiring new word vectors from tiny data. In: Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2017, Copenhagen: Association for Computational Linguistics, pp. 304-309, 2017.

HUANG, Shaohan et al. Language is not all you need: aligning perception with language models. arXiv:2302.14045v2 [cs.CL], 2023.

IFVERSEN, Jan. About Key Concepts and How to Study Them. Contributions to the History of Concepts, v. 6, n. 1, p. 65-88, 2011.

KANNER, Antti. Meaning in Distributions: A Study on Computational Methods in Lexical Semantics. Helsinki: University of Helsinki, 2022.

KELLEHER, John. D. Deep Learning. Cambridge: The MIT Press, 2019.

KLÜVER, Jürgen; KLÜVER, Christina. Social Understanding: on hermeneutics, geometrical models and artificial intelligence. London/New York: Springer, 2011.

KOSELLECK, Reinhart. Uma história dos conceitos: problemas teóricos e práticos. Estudos Históricos, Rio de Janeiro, v. 5, n. 10, p. 134-146, 1992.

KOSELLECK, Reinhart. Response to Comments. In: LEHMANN, Hartmut; RICHTER, Melvin (org). The Meaning of Historical Terms and Concepts: New Studies on Begriffsgeschichte. Washington: German Historical Institute, 1996.

KOSELLECK, Reinhart. Futuro Passado: Contribuição à semântica dos tempos históricos. Rio de Janeiro: Contraponto, Editora Puc-RJ, 2006.

KOSELLECK, Reinhart. Introduction and Prefaces to the Geschichtliche Grundbegriffe. Contributions to the History of Concepts Vol. 6, No. 1, p. 10-15, 2011.

KOSELLECK, Reinhart. Estratos do tempo: Estudos sobre História. Rio de Janeiro: Contraponto, 2014.

LE, Quoc; MIKOLOV, Tomas. Distributed Representations of Sentences and Documents. arXiv:1405.4053v2 22, pp. 1-9, 2014.

LIMA, Henrique Espada. A micro-história italiana: Escalas, Indícios e Singularidades. Rio de Janeiro: Civilização Brasileira, 2006.

LUCCHESI, Anita.; SILVEIRA, Pedro Telles.; NICODEMO, Thiago Lima. Nunca fomos tão úteis. In: Esboços, Florianópolis, Vol. 27, No. 45, pp. 161-169, 2020.

MARQUESE, Rafael de Bivar; DA SILVA JÚNIOR, Waldomiro Lourenço. Tempos históricos plurais: Braudel, Koselleck e o problema da escravidão negra nas Américas. História da Historiografia, Ouro Preto, v. 11, n. 28, 2018.

MARJANEN, Jani. Quantitative Conceptual History: on agency, reception and interpretation. Contributions to the History of Concepts. Vol. 18, No. 1, pp. 46-67, 2023.

MARJANEN, Jani; KANNER, Antti. What are concepts in conceptual history? revisiting Koselleck through theories of semantic relations. In: The 24th Internacional Conference on the History of Concepts, 2023, Varsóvia. Agency of Concepts in Interface Regions: Assymmetries, Asynchronities and Discontinuations. Varsóvia: University of Warsaw, 2023.

MCCLOSKEY, Michael; COHEN, Neal J. Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem. Psychology of Learning and Motivation, Vol. 24, No. 1, pp. 109-165, 1989.

MCCORDUCK, Pamela. Machines Who Think: A Personal Inquiry into the History and Prospects of Artificial Intelligence. Natick, MA: A. K. Peters, 2004.

MENDES, Breno. A representância do passado histórico em Paul Ricoeur: linguagem, narrativa e verdade. 223 páginas (Tese de Doutorado em História) – Universidade Federal de Minas Gerais, Belo Horizonte, 2013.

MIKOLOV, Tomas; CORRADO, Greg; CHEN, Kai; DEAN, Jeffrey. Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781v3 [ cs.CL] Sep 7, Páginas 1-12, 2013.

MINSKY, Marvin. Why People Think Computers Can’t. AI Magazine, v. 3, n. 4, p. 3-15, 1982.

MONTEIRO, Renato de Araújo. Identidade, história de um conceito e o conceito de história: uma arqueologia nos dicionários de língua portuguesa. 306 Páginas. (Tese de Doutorado em História Global) – Universidade Federal de Santa Catarina, Florianópolis, 2024.

NEVES, Lúcia M. Bastos P. Os esquecidos no processo de independência: uma história a se fazer. Almanack, Guarulhos, Vol. 1, No. 25, pp. 1-44, 2020.

OLIVEIRA, Maria da G. de. Ficar com os espectros: políticas de temporalização da história em um presente fugidio. Esboços, Florianópolis, v. 30, n. 55, p. 442-455, 2023.

PERNAU, Margrit; RAJAMANI, Imke. Emotional translations: conceptual history beyond language. History and Theory, v. 55, n. 1, p. 46-65, 2016.

ROCHA, Marcos. Uma história da linguística computacional no âmbito das ciências cognitivas. Circumscribere, v. 18, p. 56-67, 2016.

NICODEMO, Thiago Lima; CARDOSO, Oldimar. Metahistory for (Ro)bots: historical knowledge in the Artificial Intelligence Era. História da Historiografia, Vol. 12, No. 29, pp. 17-52, 2019.

RICOEUR, Paul. L'écriture de l'histoire et la représentation du passé. In: Annales: Histoire, Sciences Sociales. Vol. 55, No. 4, pp. 731-747, 2000.

ROSA, Hartmut. Aceleração: A transformação das estruturas temporais na Modernidade. São Paulo: Editora. Unesp, 2019.

ROTA, Alesson Ramon; NICODEMO, Thiago Lima. Arquivos pessoais e redes sociais: o Twitter construído como documento histórico. In: Estudos Históricos, Vol. 36, No. 79, pp 268-291, 2023.

SILVEIRA, Pedro Telles da. O que é uma ferramenta historiográfica? História da Historiografia, Ouro Preto, v. 15, n. 40, p. 219-231, 2022.

SILVEIRA, Pedro Telles da. The counted time: Technical temporalities and their challenges to history. In: History and Theory, Vol. 62, No. 3, pp. 403-426, 2023.

TURING, Alan. Computing Machinery and Intelligence. Mind, v. 58, n. 236, p. 433-460, 1950.

TURIN, Rodrigo. Antropoceno e futuros presentes: entre regime climático e regimes de historicidade potenciais. Topoi, Rio de Janeiro, Vol. 24, No. 54, pp. 703-724, 2023.

VARELLA, Flávia Florentino; BONALDO, Rodrigo Bragio. Negociando autoridades, construindo saberes: a historiografia digital e colaborativa no projeto Teoria da História na Wikipédia. In: Revista Brasileira de História, São Paulo, Vol. 40, No. 85, pp. 147-170, 2020.

VASWANI, Ashish et al. Attention is all you need. arXiv:1706.03762v5 [cs.CL], 2017.

WARK, Mckenzie. O capital está morto. São Paulo: Editora Funilaria e sobinfluência edições, 2022.

WEVERS, Melvin; KOOLEN, Marijn. Digital Begriffsgeschichte: tracing semantic change using word embeddings. Historical Methods: A Journal of Quantitative and Interdisciplinary History, Vol. 53, No. 4, pp. 226-243, 2020.

Downloads

Arquivos adicionais

Publicado

2024-08-04

Como Citar

BONALDO, R. B. As palavras e os tokens: Projeção vetorial aplicada ao estudo da semântica dos tempos históricos. Revista de Teoria da História, Goiânia, v. 27, n. 1, p. 7–50, 2024. DOI: 10.5216/rth.v27i1.79370. Disponível em: https://revistas.ufg.br/teoria/article/view/79370. Acesso em: 19 nov. 2024.