Rações

Aprendizado de máquina, descoberta de conhecimento e mineração de

Wagner Arbex – Pesquisador da Embrapa Gado de Leite
Marta Fonseca Martins Guimarães – Pesquisadora da Embrapa Gado de Leite
Marcos Vinícius Gualberto Barbosa da Silva – Pesquisador da Embrapa Gado de Leite
Elizangela Guedes – Bolsista da Embrapa Gado de Leite (Pós-doutorado – CAPES)
Leonardo Gerheim de Andrade Bolsista da Embrapa Gado de Leite (ICT – FAPEMIG)
Marcelle Nayane Marques Muniz – Bolsista do NuBio/Juiz de Fora (BDTI – FAPEMIG)
Ricardo Ferreira Tagliatti – Bolsista da Embrapa Gado de Leite

A computação e a informática, utilizadas como ferramenta pela ciência, revolucionaram as áreas de agricultura e pecuária, assim como fizeram com diversos outros campos da ciência e, considerando a quantidade exponencialmente crescente e a complexidade elevada dos dados científicos que estão sendo gerados e que necessitam ser eficientemente processados, tornam-se necessários novos recursos computacionais para o tratamento eficaz de todo esse volume de dados, para que possam ser transformados em conhecimento, possibilitando a aplicação e, então, permitindo ou incrementando os avanços tecnológicos que provocam a modernização dos setores produtivos.

A discussão sobre conhecimento em computação é bastante ampla, principalmente no tocante à possibilidade de sistemas computacionais serem capazes de adquirir conhecimento. Assim, para o presente artigo, deve ser considerado que um sistema de computação adquire e utiliza conhecimento, caso seja capaz de utilizar informações prévias, primárias ou derivadas dessas, para inferir novos resultados e informações.

Por essa abordagem, sistemas de computação conseguem aprender novos conhecimentos, o que é chamado de aprendizado de máquina (machine learning), referindo-se à disciplina na qual são estudadas e desenvolvidas as técnicas e ferramentas de computação que permitem o aprendizado. Entre essas técnicas encontra-se a descoberta de conhecimento em bases de dados (knowledge discovery in database – KDD) e, para que seja possível descobrir algum conhecimento “escondido” em bases de dados, é feita a mineração de dados (data mining), que é o processo de descoberta em si, isto é, a aplicação do aprendizado de máquina para a descoberta do “conhecimento”.

A utilização de modelos computacionais e matemáticos como uma ferramenta para a pesquisa faz com que seja possível não só a interpretação do conteúdo de fácil tratamento, mas, também, os complexos conjuntos de dados atualmente gerados, cujas características incluem, entre outras:

  • a) Grande volume de dados, onde conjuntos da ordem de terabytes estão se tornando comuns;
  • b) Alta dimensionalidade, quando se trabalha com centenas ou milhares de atributos para serem estudados;
  • c) Heterogeneidade, visto que diferentemente de métodos tradicionais de análise, os modelos computacionais são adequados a dados de diferentes tipos, descontínuos e não categorizados;
  • d) Múltipla localização física dos conjuntos de dados, uma vez que é comum que esses conjuntos se encontrem distribuídos ou dispersos em diferentes repositórios.
  •  

Ferramentas de investigação, baseadas em técnicas de aprendizado de máquina e inteligência computacional, tais como descoberta de conhecimento em bases de dados ou sistemas de suporte à decisão, são a implementação de modelos computacionais e matemáticos que possibilitam a abordagem de várias questões científicas sob uma nova ótica de investigação de resultados, como uma nova estratégia metodológica de observação para as pesquisas, com a proposta de que novas formas de análise possam gerar inovação a partir de novas tecnologias, serviços ou produtos.

 

Essa nova ótica de investigação parte do princípio de que, em geral, os recursos matemáticos e computacionais utilizados para análise de dados científicos apresentam restrições frente ao conjunto de dados atualmente gerados na atividade de pesquisa, devido à complexidade inerente aos dados, bem como aos seus próprios aspectos e características.

Assim, sugere-se a adoção de novos modelos como métodos de análise e investigação em complemento a outros métodos frequentemente utilizados, como a abordagem estatística que, em geral, baseia-se no teste de experimentos frente a uma hipótese anteriormente definida, uma vez que as necessidades atuais dos projetos de pesquisas requerem a geração e avaliação de centenas e até milhares de hipóteses, o que faz com que somente sejam avaliadas por modelos computacionais.

Sob esse prisma, são necessários o estabelecimento de meios e procedimentos metodológicos de pesquisa para o desenvolvimento de plataformas de investigação que disponibilizem tais modelos. Além disso, para o uso efetivo dessas plataformas de investigação é necessária a sistematização do uso desses recursos disponibilizados para a aplicação desses nos problemas de pesquisa, que envolve até a capacitação dos setores da pesquisa no uso desses novos recursos.

Como consequência, serão estabelecidos novos meios para análise e interpretação de dados para descoberta de conhecimento em base de dados, com modelos alternativos e complementares aos modelos tradicionais de análise de dados, que devem possibilitar a investigação das bases de dados das pesquisas a partir de uma visão multidimensional, com diversos atributos simultaneamente.

Com essa nova visão, será possível investigar os dados de pesquisa em busca de relações não percebidas quando tratados exclusivamente em confronto com as hipóteses originais dos projetos de pesquisa. Assim, deve ser obtida uma nova interpretação do resultado de pesquisas, isto é, a descoberta de novos conhecimentos, o que permitirá a geração de tecnologias, serviços e produtos, originalmente não previstos.

Entre os consequentes impactos esperados a partir dos resultados, podem ser citados:

  • a) a inovação na geração de tecnologias, serviços e produtos, resultante da descoberta de conhecimento identificado a partir de relações “escondidas” no conteúdo investigado;
  • b) o estabelecimento de uma nova cultura de investigação e interpretação de conteúdo por modelos de mineração de dados;
  • c) a disponibilização de uma plataforma de conhecimento, composta de recursos matemáticos e computacionais para análise de conjunto de dados complexos.

A análise feita até esse momento propõe a adoção de novas formas de interpretação de dados, justificando e apresentando-se como uma alternativa às formas comumente utilizadas, contudo, essa análise aborda superficialmente os problemas relacionados aos dados em si, que são os objetos a serem investigados.

Esses tornaram-se mais complexos em todos os seus aspectos, como, por exemplo, a sua interpretação lógica, isto é, o que um dado representa, que pode necessitar da investigação de conjunto de dados anteriormente não relacionado.

Sob o ponto de vista operacional, para a aplicação de modelos de mineração de dados, torna-se obrigatória a preparação das bases de dados para que seja possível, entre outras questões, mantê-las consistentes, mesmo que essas estejam distribuídas ou replicadas.

Esse exemplo sugere o armazenamento dos dados a partir da construção de um “armazém de dados”, isto é, um data warehouse ou, ainda, a utilização da “computação em nuvem”, isto é, a cloud computing, que são diferentes tecnologias que podem ser utilizadas como novos meios de armazenamento de dados na pesquisa científica, permitindo a adoção de novos modelos de análise de dados científicos e traçando novos caminhos para a pesquisa agropecuária – o que remete ao início deste artigo e deixa claro que muito ainda deve ser discutido.

 

Fonte: http://www.girolando.com.br/index.php?paginasSite/tecnico,41