Pular para o conteúdo principal

Text Mining, Sentiment Analysis e NLP

  • Espera-se que 90% dos dados sejam não estruturados nos próximos 10 anos.
  • A análise de sentimentos é uma técnica de mineração de texto que envolve o uso de algoritmos de aprendizado de máquina para identificar e extrair informações subjetivas de um texto. O objetivo é determinar a opinião ou sentimento expressos em um texto, como positivo, negativo ou neutro.

Desafios

Ambiguidade

  • Manga, banco, planta...: Podem ser interpretados de diferentes maneiras dependendo do contexto.

Sarcasmo e Ironia

  • O sarcasmo e a ironia são formas de expressão que podem ser difíceis de detectar em textos, especialmente em análises automatizadas. Por exemplo, a frase "Adorei esperar horas na fila" pode ser interpretada como uma opinião positiva, mas na verdade expressa descontentamento.

Diversidade Linguística

  • A diversidade linguística é um desafio importante na análise de sentimentos, pois diferentes idiomas e dialetos podem ter estruturas gramaticais e vocabulários distintos. Isso pode dificultar a aplicação de algoritmos de aprendizado de máquina treinados em um idioma específico para outros idiomas.

Polaridade

  • Polaridade é a classificação de um texto em relação a uma escala de sentimentos, que pode variar de negativa a positiva. A polaridade pode ser medida em uma escala contínua ou discreta, dependendo do modelo utilizado.
  • Varia de -1 a 1, onde -1 representa uma opinião negativa, 0 representa uma opinião neutra e 1 representa uma opinião positiva.

Subjetividade

  • Subjetividade refere-se à presença de opiniões, sentimentos ou emoções em um texto. Textos subjetivos expressam opiniões pessoais, enquanto textos objetivos apresentam informações factuais.
  • A subjetividade pode ser medida em uma escala contínua ou discreta, dependendo do modelo utilizado.
  • Varia de 0 a 1, onde 0 representa um texto objetivo (baseado em fatos) e 1 representa um texto subjetivo (baseado em opinião).

Polarity_Scores

  • O Polarity_Scores é uma função que calcula a polaridade de um texto, retornando um dicionário com as pontuações de polaridade positiva, negativa e neutra. A função utiliza o modelo VADER (Valence Aware Dictionary and sEntiment Reasoner) para calcular as pontuações de polaridade.

  • Neg: Pontuação de polaridade negativa.

  • Neu: Pontuação de polaridade neutra.

  • Pos: Pontuação de polaridade positiva.

  • Compound: Pontuação de polaridade composta, que é uma combinação das pontuações de polaridade positiva, negativa e neutra. A pontuação composta varia de -1 a 1, onde -1 representa uma opinião negativa, 0 representa uma opinião neutra e 1 representa uma opinião positiva (pontuação geral do sentimento).

perigo

O VADER for treinado para analisar textos em inglês, portanto, não é adequado para textos em português.

TF-IDF

  • TF-IDF (Term Frequency-Inverse Document Frequency) é uma técnica de representação de texto que combina a frequência de termos em um documento com a frequência inversa de documentos. O TF-IDF é amplamente utilizado em tarefas de recuperação de informações e mineração de texto, pois ajuda a identificar palavras-chave e a medir a importância de termos em um conjunto de documentos.

Para saber mais