O comportamento do termo conhecimento na Ciência da Informação

The behavior of the term knowledge in Information Science

Marcos de Souza

ORCID: https://orcid.org/0000-0002-9829-7249

Doutor em Gestão e Organização do Conhecimento pela Universidade Federal de Minas Gerais (UFMG), Brasil.

Docente do Departamento de Ciência, Tecnologia e Inovação da Universidade Federal da Bahia (UFBA), Brasil.

Email: marcosdesouza82@gmail.com

Fernanda Gomes Almeida

ORCID: https://orcid.org/0000-0001-7913-827X

Doutora em Gestão e Organização do Conhecimento pela Universidade Federal de Minas Gerais (UFMG), Brasil.

Bibliotecária na Biblioteca Universitária da UFMG, Brasil.

Email: usernanda@gmail.com

RESUMO: O conceito de conhecimento perpassa por uma sequência de etapas que vão desde os dados brutos, informações pré-processadas e diretrizes de transformação. O termo conhecimento, enquanto elemento que constitui a tríade juntamente com dado e informação, também estudados na Ciência da Informação, pode apresentar característica generalista ao ser analisado em um contexto isolado quando extraídos de um corpus. Desta maneira, o problema da pesquisa se apresenta: de que maneira tem se apresentado o comportamento do termo conhecimento na Ciência da Informação? Buscou-se identificar e discutir o comportamento do termo conhecimento em publicações da área da Ciência da Informação. A metodologia da pesquisa foi dividida entre o referencial teórico, construído a partir de artigos científicos e livros publicados na área do conhecimento estudada, e a pesquisa empírica, realizada por meio da construção de algoritmos utilizando a linguagem de programação Python, que permitiu extrair a frequência de termos de 2.448 documentos científicos publicados entre os anos de 2012 a 2018. Enquanto resultado, o termo conhecimento, em sua forma raiz, tem apresentado comportamento do tipo contínuo com característica regular ao longo do período analisado. Entretanto, os termos de composição constituídos a partir do termo conhecimento, que somados atingem 34,74%, apresentam diferentes comportamentos, dentre eles termos como sociedade_conhecimento e base_conhecimento, que são considerados em desuso, e organização_conhecimento e gestão_conhecimento, considerados em ascensão junto ao domínio de linguagem durante o período analisado.

PALAVRAS-CHAVE: Conhecimento; Extração de termos; Comportamento diacrônico; Ciência da Informação.

ABSTRACT: The concept of knowledge goes through a sequence of steps from raw data, pre-processed information, and transformation guidelines. The term knowledge, as an element that constitutes the triad along with data and information, also studied in Information Science, may present a generalist characteristic when analyzed in an isolated context when extracted from a corpus. Thus, the research problem is: how has the behavior of the term knowledge been presented in Information Science? The aim was to identify and discuss the behavior of the term knowledge in publications in the field of Information Science. The research methodology has got divided between the theoretical framework, built from scientific articles and books published in the area of knowledge studied, and the empirical research, carried out through the construction of algorithms using Python programming language, which allowed extracting the frequency of terms from 2,448 scientific documents published between the years 2012 and 2018. As a result, the term knowledge, in its root form, has presented behavior of the continuous type with regular characteristic throughout the analyzed period. However, the composition terms constituted from the term knowledge, which, when added together, reach 34.74%, present different behaviors. Among them, some terms, such as “society_knowledge” and “base_knowledge” are considered in disuse, and “organization_knowledge” and “management_knowledge” are seen in ascension with the language domain during the analyzed period.

Keywords: Knowledge; Terms extraction; Diachronic behavior; Information Science.

1 Introdução

Numa sociedade cada vez mais imersa nas Tecnologias Digitais de Informação e Comunicação, o conhecimento, enquanto relação entre o ato de conhecer e o mundo exterior, tem se tornado um elemento fundamental para os desenvolvimentos político, social e econômico no mundo.

Com o advento das tecnologias, o conhecimento tem permitido a formalização entre conhecimento tácito – centrado no indivíduo e que envolve estruturas cognitivas, permite ações a partir das informações e se degrada com o tempo – e conhecimento explícito – formalizado e compartilhado com outras pessoas a partir de recursos como textos, imagens e vídeos (NONAKA; TAKEUCHI, 2008).

O termo conhecimento tem constituído a tríade dado, informação e conhecimento, estudado em diferentes áreas do conhecimento, dentre elas a Ciência da Informação (SIRIHAL; LOURENÇO, 2002).

A pesquisa em questão não busca discutir os aspectos epistemológicos, etimológicos ou filosóficos do termo conhecimento, já realizados por pesquisadores de diferentes áreas, e sim discutir o aspecto comportamental em relação às suas menções em pesquisas científicas. A partir dessa contextualização, apresenta-se o problema da pesquisa: de que forma tem se apresentado o comportamento do termo conhecimento na Ciência da Informação?

O objetivo geral da pesquisa está em identificar o comportamento do termo conhecimento em pesquisas científicas realizadas na área da Ciência da Informação. Dentre os objetivos específicos, buscou-se discutir o comportamento dos termos raiz e de composição, bem como realizar o mapeamento científico dos termos de composição dos tipos n-grama a partir do termo raiz estudado.

O processo da composição de palavras é utilizado para construção de termos com conceitos diferentes ao de origem. Dessa forma, pressupõe-se que o termo conhecimento, analisado em corpus de documentos por meio de extração de frequências, possa apresentar comportamentos diferentes dos termos de composição, que podem apresentar características específicas de um domínio de linguagem estudado.

Faz-se necessário justificar a pesquisa, uma vez que identificado o comportamento do termo conhecimento e realizado o mapeamento científico dos termos de composição obtém-se um panorama de termos em ascensão ou descensão, podendo servir de norte para pesquisadores e, consequentemente, para a área de domínio estudada. Cabe ressaltar que o vocabulário de uma determinada área do conhecimento está em constante evolução e a linguagem natural se apresenta de maneira variável, com termos que se modificam, surgem ou caem em desuso com o passar o tempo (PASCHOALIN; SPADOTO, 1996).

Entende-se por termos de composição uma unidade lexical constituída a partir da concatenação de duas ou mais unidades lexicais autônomas que contemplam as suas respectivas capacidades referenciais (RIO-TORTO, 1998). Já n-grama é um pedaço de n-caracteres – termo extraído de uma cadeia de caracteres – do documento, que podem assumir valores como unigrama, bigrama ou trigrama (SUKKARIEH; PULMAN; RAIKES, 2003).

O texto traz uma introdução seguida da seção de referencial teórico, que norteia os conceitos sobre a temática abordada. A terceira seção apresenta os procedimentos metodológicos necessários para a realização da pesquisa. Em seguida, são apresentados os resultados e discussões. Por fim, constam as considerações finais, concluindo a reflexão proposta neste estudo.

2 Referencial teórico

A espinha dorsal do referencial teórico baseia-se no contexto da Ciência da Informação, tendo como marco inicial a Segunda Guerra Mundial, como apresentado por Nhacuongue e Ferneda (2015) e influenciada pelo advento das tecnologias, que aponta para mudanças no papel do conhecimento em diferentes âmbitos (WERSIG, 1993). A interdisciplinaridade da Ciência da Informação apresentada por Le Coadic (1996) e Saracevic (1996), os conceitos de conhecimento apontados por Boisot (1998), Davenport e Prusak (1999), Nonaka e Takeuchi (1997) e Setzer (1999), dentre outros autores, contribuíram para a realização deste estudo, destacando a classificação de comportamento de termos apresentada por Souza (2020) e Souza e Almeida (2021a, 2021b).

Historicamente é possível encontrar na literatura científica autores que destacam o marco inicial da Ciência da Informação a partir da explosão informacional decorrente da Segunda Guerra Mundial, onde foi gerado um número elevado de relatórios, além das conferências propostas por Vannevar Bush para debater soluções tecnológicas (NHACUONGUE; FERNEDA, 2015).

A Ciência da Informação é uma área interdisciplinar que estuda campos do conhecimento da filosofia, psicologia, sociologia, política, direito, economia, linguística, matemática e informática (LE COADIC, 1996). Trata-se de uma área embasada em teorias, experimentos e combinações inter-relacionadas através de estudos da comunicação humana, informação e uso da informação, conhecimentos e registros do conhecimento, além dos contextos sociais, institucionais, individuais e tecnológicos (SARACEVIC, 1996).

A partir do problema da informação no século XX, surgiu a documentação que buscou solucionar o problema conhecido como dilúvio da literatura e que se destacou pela recuperação da informação junto às tecnologias e, posteriormente, se tornaria uma ciência influenciada pelo advento da tecnologia. A área da Ciência da Informação surge como mudança no papel do conhecimento para indivíduos, organizações e culturas (WERSIG, 1993).

Dentre algumas áreas e subáreas de estudos da Ciência da Informação que fazem interface com o conhecimento, estão: a) Organização do Conhecimento, sendo uma ciência que “[...] estrutura e organiza sistematicamente unidades do conhecimento (conceitos) segundo seus elementos de conhecimento (características) inerentes e a aplicação desses conceitos e classes de conceitos ordenados a objetos/assuntos” (DAHLBERG, 2006, p.12); b) Representação do Conhecimento, referindo-se a uma abordagem para solucionar problemas estruturais e de armazenamento de informações, bem como, posteriormente, encontrá-las e recuperá-las de maneira eficaz e eficiente (LIMA, 2020); c) Gestão do Conhecimento, apontada por Duarte (2003, p. 283) como a “[...] integração de processos simultâneos desde a criação ao uso pleno do conhecimento viabilizado pela cultura de aprendizado e de compartilhamento, no ambiente das organizações”.

A origem dos termos dado, informação e conhecimento é abordada em diferentes áreas, inclusive na Ciência da Informação. Os termos possuem origens diferentes, sendo o conhecimento abordado na esfera das ciências humanas, a informação nas ciências exatas e desenvolvida no contexto da comunicação, onde o termo entrou no escopo das ciências sociais incorporando ao seu bojo o termo dado (SIRIHAL; LOURENÇO, 2002).

Conhecimento pode ser visto como um conjunto de experiências condensadas, valores, informações aplicadas em contextos e insight experimentado (DAVENPORT; PRUSAK, 1998), associado ao fazer do ser humano em atividades como criar, colecionar, armazenar e compartilhar informações (O’BRIEN; 2003). Considera-se também que conhecimento seja a informação trabalhada por pessoas envolvidas num determinado processo ou por recursos tecnológicos que permitam a apresentação de cenários e simulações. O conceito de conhecimento contempla o de informação, entretanto, com valor e propósito definido (REZENDE, 2013).

O conceito de conhecimento perpassa por uma sequência de etapas que vão desde os dados brutos, informações pré-processadas e diretrizes de transformação (FELIX, 2003). Além disso, o conhecimento pode ser incorporado em máquinas de maneira que possibilite uma maior agilidade no processo de tomada de decisão (DAVENPORT, 1998). Um conjunto de conhecimentos pode gerar uma base de conhecimentos e ser utilizada a qualquer momento (FELIX, 2003). Em paralelo aos computadores, a transferência do conhecimento entre pessoas é uma tarefa difícil, pois os receptores devem compreender que a informação se constitui de conhecimento (DAVENPORT, 1998).

Entre a origem do termo conhecimento estão duas correntes distintas, sendo a experiência sensível – empirismo com o pensamento se formando a partir da percepção e representação dos objetos reais – e a razão – racionalismo onde o pensamento estabelece relações, conceitos e noções gerais e abstratas (SIRIHAL; LOURENÇO, 2002). Ainda de acordo com as autoras, a disseminação do conhecimento humano é fundamental para o desenvolvimento da era da sociedade da informação nos aspectos sociopolítico e econômico do mundo.

Dentre as características do termo conhecimento está a subjetividade na sua forma mais pura, considerando a vivência e a experiência direta de cada indivíduo no ato de conhecer o mundo exterior, estando intrinsicamente associado ao pragmatismo que se relaciona com algo existente no mundo real e as estruturas cognitivas capazes de assimilar a informação num contexto abrangente que possibilitam ações que podem ser empreendidas a partir dela (BOISOT, 1998; SETZER, 1999).

Setzer (1999) destaca conhecimento como:

[...] uma abstração interior, pessoal, de alguma coisa que foi experimentada por alguém. [...] não pode ser descrito inteiramente – de outro modo seria apenas dado ou informação [...] não depende apenas de uma interpretação pessoal, [...] requer uma vivência do objeto do conhecimento. [...] não pode ser inserido em um computador por meio de uma representação, pois senão foi reduzido a uma informação. [...] Associamos informação à semântica. Conhecimento está associado com pragmática (SETZER, 1999, p. 3).

Sirihal e Lourenço (2002) corroboram Seltzer (1999) e destacam que as delimitações entre os conceitos de informação e conhecimento são entidades distintas. De acordo com Seltzer (1999), o conhecimento “[...] está no usuário e não no conjunto de informações, [...] o conhecimento está incorporado nas pessoas, e a criação de conhecimento ocorre no processo de interação social” (SELTZER, 1999, p. 6), e “a informação pode ser fruto de um conhecimento acumulado, o conhecimento pode ser fruto de informação assimilada” (SIRIHAL; LOURENÇO, 2002, p. 10).

A relação entre informação e conhecimento ocorre de maneira interativa, onde o conhecimento pode ser definido como a aplicação resultante do uso produtivo da informação. O conhecimento ultrapassa as barreiras do conceito de informação, implicando assim numa consciência do entendimento, resultado da experiência, intimidade e aprendizado do indivíduo (BOISOT, 1998).

A constituição de um determinado conhecimento está na informação, que, inserida num determinado contexto e interpretada por alguém, pode acrescentar sabedoria ao indivíduo; entretanto, apesar de o conhecimento ser algo de muita valia, pode se tornar difícil de ser gerenciado (DAVENPORT, 1998).

Sistematizando, a diferença entre dois tipos de conhecimentos, intrinsecamente relacionados na organização do conhecimento, estão: 1) conhecimento tácito - que apresenta complexidade desenvolvida e interiorizada junto ao indivíduo ao longo de sua experiência e vivência, destacando-se suas dimensões de codificação: a) não passível de ensino; b) não articulado; c) não observável em uso; d) substancial; e) complexo; e f) não documentável. 2) conhecimento explícito - que possui maior facilidade de assimilação e disseminação, além de se fazer presente em ambientes, destacando, assim: a) passível de ensino; b) articulado; c) observável e de uso; d) esquemático; e) simples; e f) documentado (DAVENPORT; PRUSAK, 1999; NONAKA; TAKEUCHI, 1997).

O conhecimento organizacional se dá a partir da mobilização da conversão do conhecimento tácito para o conhecimento explícito, que contemplam as dimensões epistemológica e ontológica conforme destacado na Figura 1.

A dimensão epistemológica apresenta a distinção entre os conhecimentos tácito e explícito. Já na dimensão ontológica estão localizados os diferentes níveis de entidades geradoras de conhecimento, sendo individual, grupal, organizacional e interorganizacional (NONAKA; TAKEUCHI, 1997).

Áreas como Processamento de Linguagem Natural, Inteligência Artificial e Linguística Computacional deixaram de ser puramente provedoras de tecnologias de sistemas para se tornarem produtoras de conhecimento, possibilitando novos diálogos e repositórios através de pesquisas na Ciência da Informação, como, por exemplo, a classificação e indexação automática de textos, a análise de discurso e a construção automática de ontologias (SOUZA; ALMEIDA, 2009).

Ainda no contexto da Ciência da Informação, os indivíduos não possuem responsabilidade para processar o conhecimento, mas sim preocupações com padronização de terminologias utilizadas para encontrar e classificar a informação, enfatizando, assim, a importância do uso de ontologias para caracterizar e relacionar entidades de uma área do conhecimento (ALMEIDA, 2003).

Cabe ressaltar que o termo conhecimento - enquanto elemento da tríade dado, informação e conhecimento em processo - possui dependência e inter-relação entre os termos, conforme apontado por Boisot (1998), onde a geração do conhecimento depende da informação e a coleta de informações requer conhecimento. Ferramentas e métodos aplicados sobre a informação possuem influência direta na geração de diferentes tipos de conhecimento.

Com isso, termos extraídos de corpus de documentos podem assumir comportamentos e características diferentes quando analisados em um determinado intervalo de tempo. Um termo pode assumir um determinado tipo de comportamento com uma ou mais características, que são estabelecidas de acordo com a frequência e/ou o período analisado (SOUZA, 2020; SOUZA; ALMEIDA, 2021a).

Tais comportamentos e características podem sofrer alterações de acordo com as delimitações dos documentos, bem como redução ou expansão e inserção ou exclusão de períodos/documentos no corpus de documentos analisados (SOUZA; ALMEIDA, 2021b).

A classificação do comportamento diacrônico dos termos de um corpus de documentos pode contribuir para um melhor entendimento de uma determinada área do conhecimento estudada (SOUZA, 2020). O Quadro 1 apresenta a descrição dos comportamentos e características que os termos podem possuir durante uma análise diacrônica de termos.

COMPORTAMENTOS

Contínuo

Inconstante

Apresenta frequência durante todo o intervalo analisado.

Possui ausência de frequência em determinado período analisado.

CARACTERÍSTICAS

Regular: apresenta regularidade entre as frequências extraídas dos termos, não apresentando variações que ultrapassem 100% entre os anos analisados;

Irregular: apresenta irregularidade entre as frequências extraídas, com variações que ultrapassam 100%, positivas ou negativas, entre os intervalos analisados;

Ascensão: apresenta crescimento superior a 100% quando analisados os intervalos mínimo e máximo analisados;

Descensão: apresenta queda de frequência ao longo do de tempo analisado, mantendo frequência em queda ou nula.

Regular: apresenta regularidade de frequência num determinado período (existe ausência de frequência) e não ultrapassa 100% de sua frequência a cada intervalo contemplado;

Irregular: apresenta irregularidade entre os anos analisados que possuem frequências, ultrapassando 100% para mais ou para menos;

Ascensão: apresenta frequência crescente nos últimos intervalos analisados, independente de percentual, caracterizando o surgimento de um novo termo;

Descensão: apresenta queda de frequência do terno nos últimos períodos analisados.

A classificação de comportamentos diacrônicos de termos apresentada por Souza (2020) é utilizada na seção de resultados e discussões desta pesquisa. A seguir, são apresentados os procedimentos metodológicos.

3 Procedimentos metodológicos

A pesquisa se classifica quanto à finalidade/natureza como aplicada, quanto à abordagem do problema como quali-quantitativa e quanto aos objetivos como exploratória (GIL, 2010).

Foram utilizados artigos científicos e livros disponibilizados por meio do Portal de Periódicos da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES, Google Books e Google Scholar para a construção do referencial teórico, que também serviram de suporte para a realização da pesquisa empírica, entendimento de conceitos e construção dos algoritmos.

Para o tratamento dos dados empíricos foram desenvolvidos algoritmos utilizando o framework Jupyter1, a linguagem de programação Python2 e as bibliotecas PDFMiner3, NLTK4 e plotly5.

A metodologia utilizada para a construção dos algoritmos foi adaptada de McKinney (2018) e perpassa por quatro etapas: a primeira etapa diz respeito à interação com o mundo externo, onde foi realizada, em outubro de 2019, a coleta dos documentos publicados nos Anais do Encontro Nacional de Pesquisa em Ciência da Informação – ENANCIB, sendo artigos completos e resumos expandidos no idioma português, referentes aos anos de 2012 a 2018; a segunda etapa refere-se à preparação e ao pré-processamento dos documentos, envolvendo as fases de organização, limpeza, manipulação, combinação, normalização e tratamento dos dados; a terceira etapa contempla a transformação dos dados por meio de operações matemáticas e estatísticas aplicadas aos dados com o objetivo de obter resultados significativos; e, por fim, a última etapa contempla a apresentação dos resultados. O fluxo de processo das etapas pode ser visualizado na Figura 2.

3-1

A seleção dos documentos que constituem o corpus foi definida para estudo mediante a importância que o ENANCIB representa para a área da CI. Considerado o principal evento brasileiro da área da CI, possibilita a troca de experiências acadêmico-científicas entre pesquisadores e reflete e discute diversos temas, perspectivas e tendências.

Com relação ao recorte temporal dos documentos publicados e utilizados na pesquisa empírica, sendo de 2012 a 2018, faz-se necessário justificar a ausência de edições atuais, uma vez que o evento deixou de ser realizado no ano 2020 por conta da pandemia de COVID-19, gerando assim um gap na formação de corpus. Este fato interfere diretamente na classificação do comportamento de termos, proposta por Souza (2020), e que faz parte do objetivo desta pesquisa.

Para a descrição do comportamento dos termos foi utilizada estatística básica para realizar o cálculo de percentual. Os algoritmos de conversão de documentos,

extração de termos e gráfico dinâmico contendo os termos de composição estão disponibilizados para download e/ou estudos no GtiHub6.

A próxima seção apresenta os resultados e discussões alcançadas nesta pesquisa.

4 Resultados e discussões

Os documentos do canal formal da comunicação científica - artigos completos e resumos expandidos - foram coletados dos Anais do Encontro Nacional de Pesquisa em Ciência da Informação (ENANCIB), publicados entre os anos de 2012 e 2018, constituindo assim o corpus dos documentos analisados. Constitui o corpus, já organizado e convertido para o formato legível pelo computador, um total de 2.448 documentos, sendo 312 referentes ao ano de 2012, 303 em 2013, 333 em 2014, 280 em 2015, 389 em 2016, 387 em 2017 e 444 no ano de 2018, conforme apresentado no Gráfico 1.

Os documentos coletados para a construção do corpus apresentaram diferentes formatos, como PDF e PDF com propriedades de privacidades, além de diversos documentos reunidos em um único arquivo. Esses documentos, somados, alcançam mais de 2GB de dados. Após organização e conversão para o formato TXT, legível pelo computador, o corpus foi reduzido para o tamanho de 94MB. Os documentos do tipo PDF protegidos e imagens contidas nos documentos apresentaram, geralmente, problemas de Unicode7 durante o processo de conversão. Dessa maneira, foram descartados 27 documentos para que não interferissem na qualidade dos resultados.

Posteriormente, foi realizada a conversão de termos em siglas ou vice-versa. Essa conversão ocorre por meio de Expressões Regulares que identificam termos especificados junto ao corpus de documentos e fazem a substituição do termo com base em uma lista de termos referente ao domínio da linguagem cadastrada junto ao algoritmo. Essa substituição é realizada com o objetivo de reduzir a diferença de frequência entre termos com o mesmo significado, por exemplo, a sigla OC que aparece X vezes e Organização do Conhecimento que aparece Y vezes no corpus de documentos. Ao converter a sigla OC em todo o corpus de documentos para Organização do Conhecimento, o resultado quantificável passará a ser X + Y para o termo Organização do Conhecimento.

Utilizou-se, ainda, a biblioteca NLTK para exclusão das stop words – palavras de parada como “com”, “em”, “de”, “são”, que apresentam alta frequência, gerando assim valores insignificantes e, consequentemente, produzindo ruídos entre os resultados caso não sejam excluídas. Além disso, para melhorar a qualidade dos resultados, foi adicionada uma lista extra contendo outras palavras de parada junto à lista padrão disponibilizada pela biblioteca.

Por conseguinte, ainda utilizando a biblioteca NLTK, foi realizada a tokenização, responsável por dividir os termos que constituem o corpus de documentos em frases, palavras e símbolos em elementos separados por tratamento de pontuação e espaçamento como: ‘gestão’, da ‘organização’, e do ‘conhecimento’.

Posteriormente foi executada a função n-grama que criou um total de 6.640.564 unigramas, 6.638.116 bigramas e 6.635.668 trigramas. Como exemplos de n-grama estão os termos gestão para unigrama, gestão_organização para bigrama e gestão_organização_conhecimento para trigrama. Ao final foi exportada uma lista contento mil termos, considerando a qualidade dos resultados, para cada tipo de n-grama e para cada ano analisado, onde, a partir destes resultados, foi possível identificar o comportamento diacrônico do termo conhecimento, bem como dos termos de composição que constituem o mapeamento científico do termo raiz.

O vocábulo conhecimento apresentou frequência de 37.464 termos extraídos de 2.448 documentos científicos. No ano de 2012, o termo apareceu 4.207 vezes, enquanto no ano de 2013 o termo apresentou frequência de 4.272, ou seja, um aumento de 2% referente ao ano anterior. No ano de 2014, o termo apresentou frequência de 4.657, equivalente a um aumento de 9% em relação ao ano anterior. Já no ano de 2015 houve uma queda no quantitativo de termos, o que equivale a -2% em relação ao ano de 2014, resultando em uma frequência de 4.580. No ano de 2016, o termo apresentou frequência de 5.893, equivalente a um aumento de 29% em relação ao ano de 2015. Já no ano de 2017, o termo apresentou um aumento de 21% em relação ao ano anterior e frequência igual a 7.135. No ano seguinte, 2018, o termo apresentou uma queda de -6% em relação ao ano de 2017 e frequência de 6.720 vezes, conforme apresentado no Gráfico 2.

As frequências do termo conhecimento, bem como seus respectivos percentuais, são apresentadas sempre em referência ao ano anterior. Entre os períodos mínimo e máximo analisados, sendo 2012 e 2018, o termo conhecimento apresentou uma diferença acumulada de frequência de 60% na produção científica que constitui o corpus de documentos. Faz-se necessário ressaltar que o termo conhecimento apresenta diferentes composições dos tipos bigramas e trigramas, com significados diferentes ao do termo raiz.

O percentual acumulado entre os intervalos mínimo e máximo analisados remete a um aumento significativo no uso do termo nas produções científicas da área da Ciência da Informação. A Figura 3 apresenta 21 termos de composição com as maiores frequências, extraídos dos documentos analisados.

Quando comparado ao termo raiz, os termos de composição apresentam frequências menores, independente da análise realizada, seja comparando anualmente ou no acumulado entre os anos. São exemplos de termos de composição: organização_conhecimento, com frequência de 2.808; gestão_conhecimento, com frequência de 2.286; e campos_conhecimento, com frequência de 555.

O Quadro 2 apresenta os termos de composição, bem como suas respectivas frequências extraídas a partir do corpus de documentos, identificada aqui como mapeamento científico do termo conhecimento que, somados, representam 34,74% do termo raiz.

organização_conhecimento,2808;

gestão_conhecimento,2286;

representação_conhecimento,1271;

produção_conhecimento,1005;

conhecimento_científico,968;

construção_conhecimento,822;

conhecimento_informação,750;

novos_conhecimentos,599;

campo_conhecimento

campos_conhecimento,555;

conhecimento_organizacional conhecimento_organizações,554;

compartilhamento_conhecimento,421;

domínio_conhecimento

domínios_conhecimento,350;

conhecimento_explícito,271;

sociedade_conhecimento,105;

disseminação_conhecimento,65;

dados_informação_conhecimento,47;

conhecimento_tradicional,35;

socialização_conhecimento,30;

conhecimento_arquivístico,26;

aquisição_conhecimento,25;

base_conhecimento,24.

Dentre o comportamento dos termos de composição, o termo organização_conhecimento, representado pela cor azul, apresentou frequência de 173 no ano de 2012; 255 em 2013, equivalente a um crescimento de 47% em relação ao ano anterior; 378 em 2014, o que significa um crescimento de 48% em relação ao ano de 2013; 372 no ano de 2015, representando uma queda de -2% em relação ao ano de 2014; 495 em 2016, representando um crescimento de 33% em relação ao ano de 2015; 610 em 2017, apresentando, assim, um crescimento de 23% em relação ao ano de 2016; e 525 em 2018, equivalente a uma queda de -14% em relação ao ano de 2017.

O termo gestão_conhecimento, representado pela cor lilás, apresentou frequência de 182 no ano de 2012; 201 no ano de 2013, apresentando crescimento de 10% em relação ao ano anterior; 191 em 2014, equivalente a uma queda de -15% em relação ao ano de 2013; 253 em 2015, o que significa um crescimento de 32% se comparado ao ano de 2014; 350 em 2016, apresentando um crescimento de 38% em relação ao ano anterior; 540 em 2017, representando um crescimento de 54% em relação ao ano de 2016; e 569 em 2018, apresentando crescimento de 5% se comparado ao ano de 2017.

Já o termo representação_conhecimento, representado pela cor verde, apresenta frequência de 100 no ano de 2012; 145 em 2013, o que significa um crescimento de 45% em relação ao ano anterior; 157 em 2014, com crescimento de 8% em relação ao ano de 2013. No ano de 2015, o termo não apresentou queda ou crescimento, pois a frequência extraída foi a mesma do ano de 2014 (157). Já no ano de 2016, o termo apresentou frequência de 176, o que representa um crescimento de 12% em relação aos anos de 2014 e 2015; 332 em 2017, considerando um crescimento representativo de 89% em relação ao ano de 2016; e 204 no ano de 2018, equivalente a uma queda de -39% em relação ao ano de 2017. Todas as alterações comportamentais dos termos, seja crescimento ou queda de números e percentuais, são referentes ao ano anterior conforme apresentado no Gráfico 3.

Os termos apresentados possuem comportamentos e características simulares, sendo contínuo por apresentar frequência durante todo o intervalo analisado e ascensão por apresentar aumento de frequência ao longo do período superior a 100%, ficando 203% para organização_conhecimento, 213% para gestão_conhecimento e 104% para representação_conhecimento.

Destaca-se também o termo compartilhamento_conhecimento que apresenta comportamento diferente ao dos termos apresentados, mas características similares. Considera-se o termo: inconstante, por não apresentar frequência no ano de 2012; e em ascensão, por apresentar frequência acumulada entre os anos 2013 e 2018, equivalente a 278%, sendo 37 no primeiro ano em que o termo apareceu e 140 no último ano analisado.

O termo produção_conhecimento, representado pela cor vermelha, apresentou frequência de 112 no ano de 2012; 109 em 2013, equivalente a uma queda de -3% em relação ao ano anterior; 114 em 2014, o que significa um crescimento de 5% em relação ao ano de 2013; 173 no ano de 2015, apresentando um crescimento de 52% em relação ao ano de 2014; 189 em 2016, novamente apresentando crescimento, entretanto de 9% em relação ao ano anterior; 139 em 2017, equivalente a uma queda de -26% em relação ao ano de 2016; e 169 em 2018, representado crescimento de 22% em relação ao ano de 2017.

O termo campo_conhecimento, representado pela cor lilás, apresentou frequência de 100 no ano de 2012; 72 em 2013, equivalente a uma queda de -28% em relação ao ano anterior; 50 no ano de 2014, apresentando queda de -31% em relação ao ano de 2013; 57 em 2015, o que significa um crescimento de 14% em relação ao ano anterior; 71 em 2016, representando um crescimento de 25% em relação ao ano de 2015; 103 no ano de 2017, apresentando crescimento de 45% em relação ao ano anterior; e 102 no ano de 2018, equivalente a uma queda de -1% em relação ao ano de 2017.

Já o termo construção_conhecimento, representado pela cor azul, apresentou frequência de 115 no ano de 2012; 80 em 2013, equivalente a uma queda de -30% em relação ao ano anterior; a frequência manteve-se estável no ano de 2014; em 2015, o termo resultou em 95 menções, ou crescimento de 19% referente ao ano anterior; em 2016 foram 96 menções, equivalente a um aumento de 1% em relação ao ano de 2015; em 2017, o termo alcançou 149 menções, o que significa um crescimento de 55% em relação ao ano anterior; e 207 no ano de 2018, apresentando um crescimento de 39% em relação ao ano de 2017. As alterações comportamentais dos termos referem-se ao ano anterior conforme apresentado no Gráfico 4.

Os termos apresentam comportamentos e características similares, sendo: contínuo, por apresentar frequência durante todo o intervalo; e regular, por apresentar regularidade de frequência com variações menores que 100% durante o intervalo analisado. Entre o intervalo mínimo e o máximo analisado, os termos apresentaram uma diferença de 51% para produção_conhecimento, 12% para campo_conhecimento e 80% para construção_conhecimento. Outros termos, como novos_conhecimentos, conhecimento_organizacional e conhecimento_científico, apresentam os mesmos comportamentos e características, podendo refletir que se tratam de termos estabelecidos ao longo do intervalo analisado.

O termo domínio_conhecimento, representado pela cor verde escuro, apresentou frequência de 63 no ano de 2012; nos anos de 2013 e 2018, o termo não apresentou frequência ou apresentou frequência somente após o milésimo termo extraído da lista de bigramas; em 2014, o termo apresentou frequência de 98; em 2015 apresentou frequência de 59, equivalente a uma queda de -40% em relação ao ano de 2014; 41 em 2016, o que significa uma queda de -31% em relação ao ano anterior; e 89 em 2017, apresentando um crescimento de 117% em relação ao ano de 2016.

Já o termo conhecimento_explícito, representado pela cor verde claro, não apresentou frequência no ano de 2012; apresentou frequência de 33 no ano de 2013; no ano de 2014, o termo não registrou frequência; já no ano de 2015, o termo apresentou frequência de 62; no ano de 2016 apresentou frequência de 30, equivalente a uma queda de -52% em relação ao ano de 2015; frequência de 102 em 2017, o que significa um crescimento de 240% em relação ao ano de 2016; e 41 em 2018, novamente apresentando queda de comportamento equivalente a -60% em relação ao ano anterior.

Por fim, o termo sociedade_conhecimento, representado pela cor azul, apresentou frequência de 32 em 2012; 43 em 2013, equivalente a um crescimento de 34% em relação ao ano anterior; e 30 em 2015. Nos anos de 2014 e de 2016 a 2018, o termo não apresentou frequência ou apresentou frequência após o milésimo termo extraído, conforme apresentado no Gráfico 5.

Os termos domínio_conhecimento e conhecimento_explícito apresentam comportamento inconsistente, com ausência de frequência em determinados períodos e característica irregular, com variações que ultrapassam 100% para mais ou para menos entre intervalos do período analisado.

Já o termo sociedade_comportamento apresenta comportamento irregular, entretanto, com característica de descensão, sendo um termo em desuso no domínio da linguagem desde 2016. Também apresentam o mesmo comportamento os termos disseminação_conhecimento, conhecimento_tradicional, socialização_conhecimento, conhecimento_arquivístico, aquisição_conhecimento e base_conhecimento.

4 Considerações finais

O termo conhecimento que constitui a tríade dado, informação e conhecimento, também abordado na área da Ciência da Informação, apresentou comportamento contínuo por apresentar frequência durante todo o intervalo analisado e característica regular com frequências menores que 100% entre os intervalos mínimo e máximo extraídos do corpus de documentos. O termo apresentou um acúmulo de frequência de 37.464, média anual de 5.352 e um crescimento de 60% no intervalo analisado.

O problema da pesquisa foi respondido ao identificar que o termo conhecimento, em sua maneira bruta, raiz, apresenta características generalistas. Entretanto, quando apresentado por meio de termos de composição, extraído do corpus de documentos nos formatos de bigramas, apresenta significados com características específicas e representativas junto ao domínio de linguagem. São exemplos os termos organização_conhecimento e gestão_conhecimento, termos em voga com crescimento superior a 200% ao longo do intervalo analisado, sendo as frequências acumuladas de 2.808 e 2.286, respectivamente.

Por meio do mapeamento científico do termo conhecimento, constatou-se um número representativo de termos de composição em desuso junto ao domínio de linguagem, como os bigramas conhecimento_tradicional, conhecimento_arquivístico e aquisição_conhecimento, que apresentaram frequência somente no primeiro ano da pesquisa empírica, e os termos socialização_conhecimento e base_conhecimento, que apresentaram frequência somente no segundo ano do intervalo analisado.

Termos em ascensão como organização_conhecimento, gestão_conhecimento e representação_conhecimento refletem o crescimento de pesquisas em áreas da Ciência da Informação. Cabe ressaltar que termos podem apresentar comportamentos flutuantes de acordo com o intervalo analisado, seja com a inserção ou exclusão de períodos/documentos junto ao corpus de documento.

O pressuposto da pesquisa foi confirmado ao identificar que um conjunto formado por 21 termos de composição alcança um percentual de 34,74% do total de frequência do termo conhecimento. Dessa forma, a frequência extraída do termo conhecimento não diz respeito somente ao do termo raiz, e sim com unidades lexicais autônomas com capacidades referenciais.

Um ponto a ser questionado na construção do corpus está no porquê não utilizar os Anais das últimas edições do Encontro Nacional de Pesquisa em Ciência da Informação – ENANCIB. Cabe destacar que houve uma ruptura na sequência de eventos por causa da pandemia da COVID-19, não sendo realizada, assim, a edição de 2020. Esse gap interfere diretamente na classificação de termos, de maneira tendenciosa, resultando, a análise, em um único tipo de comportamento de termo, o inconstante, conforme a classificação de Souza (2020) utilizada neste artigo.

Sugere-se para pesquisas futuras a comparação entre corpora, sendo um antes e outro após a adaptação da sociedade para trabalhos remotos ou pós-pandemia. Por exemplo, comparar os resultados desta pesquisa com os Anais do ENANCIB de 2021 a 2025, caso não ocorra outra ruptura temporal.

A comparação dos resultados também pode ser realizada por diferentes fontes de informação, comparando, por exemplo, o comportamento do termo conhecimento de eventos brasileiros, como o ENANCIB, com o que está sendo publicado em eventos internacionais, como o International Society for Knowledge Organization (ISKO). Além disso, sugere-se um estudo do comportamento entre os termos que compõem a tríade dado, informação e conhecimento na Ciência da Informação.

Referências

ALMEIDA, M. B. Roteiro para construção de uma ontologia bibliográfica através de ferramenta automatizada. Perspectivas em ciência da informação, Belo Horizonte, v. 8, n. 2, p. 164-179, 2003.

BOISOT, M. Competitive advantage in the information economy. Oxford; New York: Oxford University Press, 1988.

DAHLBERG, I. Knowledge organization: a new science? Ko Knowledge Organization, v. 33, n. 1, p. 11-19, 2006. Disponível em: https://www.researchgate.net/publication/288155690_Knowledge_organization_A_new_science/. Acesso em: 18 maio 2023.

DAVENPORT, T. E. Ecologia da informação: por que só a tecnologia não basta para o sucesso na era da informação. São Paulo: Futura, 1998.

DAVENPORT, T.; PRUSAK, L. Conhecimento empresarial: como as organizações gerenciam o seu capital intelectual. Rio de Janeiro: Campus, 1998.

DE LIMA, G. A. Organização e representação do conhecimento e da informação na web: teorias e técnicas. Perspectivas em ciência da informação, v. 25, n.esp, p. 57-97, 2020. Disponível em: https://periodicos.ufmg.br/index.php/pci/article/view/22283/17900/. Acesso em: 18 maio 2023.

DUARTE, E. N. Análise da Produção Científica em Gestão do Conhecimento: estratégias metodológicas e estratégias organizacionais. 2003. 300 f. Tese (Doutorado em Administração) – Programa de Pós-Graduação em Administração. Universidade Federal da Paraíba, João Pessoa, 2003. Disponível em: https://repositorio.ufpb.br/jspui/bitstream/tede/9095/2/arquivototal.pdf/. Acesso em: 18 maio 2023.

FELIX, W. Introdução à Gestão da Informação. Campinas: Alínea, 2003.

GIL, A. C. Como elaborar projetos de pesquisa. 5. ed. São Paulo: Atlas, 2010.

LE COADIC, Y. F.  A ciência da informação. Brasília: Briquet de Lemos, 1996.

MCKINNEY, W. Python para análise de dados: tratamento de dados com pandas, numpy e ipython. São Paulo: Novatec, 2018.

NHACUONGUE, J. A.; FERNEDA, E. O campo da ciência da informação: contribuições, desafios e perspectivas. Perspectivas em Ciência da Informação, Belo Horizonte, v. 20, n. 2, p. 3-18, 2015.

NONAKA, I.; TAKEUCHI, H. Criação de conhecimento na empresa: como as empresas japonesas geram dinâmica de inovação. 7. ed. Rio de Janeiro: Campus, 1997.

NONAKA, I.; TAKEUCHI, H. Gestão do conhecimento. Porto Alegre: Bookman, 2008.

O’BRIEN, J. A. Sistemas de Informação e as decisões gerenciais na era da internet. 9. ed. São Paulo: Saraiva, 2003.

PASCHOALIN, M. A.; SPADOTO, N. T. Gramática: teoria e exercícios. São Paulo: FTD, 1996.

REZENDE, D. A. Sistemas de Informações Organizacionais: guia prático para projetos em cursos de Administração Contabilidade Informática. 5. ed. São Paulo: Atlas, 2013.

RIO-TORTO, G. M. Mecanismos de produção lexical no português europeu. Alfa, v. 42, n.esp, p. 15-32, 1998. Disponível em: https://periodicos.fclar.unesp.br/alfa/issue/view/298. Acesso em: 1 nov. 2021.

SARACEVIC, T. Ciência da Informação: origem, evolução e relações. Perspectivas em Ciência da Informação. Belo Horizonte, v. 1, n. 1, p. 41-62, 1996.

SETZER, V. Dado, informação, conhecimento e competência. DataGramaZero – Revista de Ciência da Informação, Rio de Janeiro, n. 0, dez. p. 1-14, 1999. Disponível em: https://www.ime.usp.br/~vwsetzer/datagrama.html. Acesso em: 01 nov. 2021.

SIRIHAL, A. B.; LOURENÇO, C. A. Informação e conhecimento: aspectos filosóficos e informacionais. Informação & Sociedade, João Pessoa, v. 1, n. 12, p. 1–15, 2002.

SOUZA, M. O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos. 2020. 404 f. Tese (Doutorado em Gestão e Organização do Conhecimento) – Programa de Pós-Graduação em Gestão e Organização do Conhecimento, Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2020. Disponível em: https://repositorio.ufmg.br/handle/1843/34292/. Acesso em: 28 dez. 2021.

SOUZA, M.; ALMEIDA, F. G. O comportamento do termo dado na ciência da informação. Ciência da Informação em Revista. Maceió, v. 8, n. 2, p. 39-54, 2021a. Disponível em: https://www.seer.ufal.br/index.php/cir/article/view/11764/. Acesso em: 2 jan. 2022.

SOUZA, M.; ALMEIDA, F. G. O comportamento do termo informação na ciência da informação. Ciência da Informação em Revista, Maceió, v. 9, n. 2, p. 37-52, 2021b. Disponível em: https://www.seer.ufal.br/index.php/cir/article/view/12065/. Acesso em: 18 fev. 2022.

SOUZA, R. R.; ALMEIDA, M. B. Representação do conhecimento: identidade ou esvaziamento da Ciência da informação? In: ENCONTRO IBÉRICO EDIBCIC, 4., 2009, Coimbra. Anais [...]. Coimbra: Universidade de Coimbra, 2009. p. 157-165

SUKKARIEH, J. Z.; PULMAN, S. G.; RAIKES, N. Auto-marking: using computational linguistics to score short, free text responses. In: ANNUAL CONFERENCE OF THE INTERNATIONAL ASSOCIATION FOR EDUCATIONAL ASSESSMENT, 29., 2003, Manchester. Proceedings[…]. [S.l.]: IAEA, 2003. Disponível em: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.108.7417&rep=rep1&type=pdf. Acesso em: 01 nov. 2021.

WERSIG, G. Information science: the study of postmodern knowledge usage. Information Processing & Management, Amsterdam, v. 29, n. 2, p. 229-239, 1993.

Figura 1 – Dimensões da criação do conhecimento

Fonte: NONAKA; TAKEUCHI (1997, p. 62)

Quadro 1 – Comportamentos e características de termos

Fonte: Adaptado de Souza (2020)

1

Jupyter. Disponível em: https://jupyter.org/. Acesso em: 16 nov. 2021.

2 Python. Disponível em: https://www.python.org/. Acesso em: 16 nov. 2021.

3 PDFMiner. Disponível em: https://pypi.org/project/pdfminer/. Acesso em: 16 nov. 2021.

4 NLTK - Natural Language Toolkit. Disponível em: https://www.nltk.org/. Acesso em: 16 nov. 2021.

5 Plotly. Disponível em: https://plotly.com/. Acesso em: 16 nov. 2021.

Figura 2 – Fluxo para extração de frequência de termos

Fonte: (SOUZA; ALMEIDA, 2021a)

Gráfico 1 – Quantitativo anual de artigos completos e resumos expandidos utilizados no corpus de documentos

Fonte: Elaborado pelos autores

6

Plataforma de desenvolvimento colaborativo para hospedar, revisar códigos, gerenciar projetos e criar software de maneira colaborativa. Conversão de documentos, disponível em: https://bit.ly/2D19vfr/; Extração de termos, disponível em: https://bit.ly/2YTrJIs/; Gráfico dinâmico: disponível em: https://bit.ly/38HPqGT/.

7

Unicode - Padrão que permite aos computadores representar e manipular, de forma consistente, texto de qualquer sistema de escrita existente.

Gráfico 2 – Comportamento do termo conhecimento

Fonte: Elaborado pelos autores

Figura 3 – Termos de composição a partir do termo conhecimento

Fonte: Elaborado pelos autores

Quadro 2 – Termos composição e frequências

Fonte: Elaborado pelos autores

Gráfico 3 – Comportamento de termos de composição

Fonte: Elaborado pelos autores

Gráfico 4– Comportamento de termos de composição

Fonte: Elaborado pelos autores

Gráfico 5– Comportamento de termos de composição

Fonte: Elaborado pelos autores