Manual de Anotação

Este é o manual da anotação do córpus usado na primeira etapa dos experimentos da dissertação de mestrado de Henrico Brum, aluno do ICMC-USP São Carlos.


Resumo

Este trabalho tem o objetivo de formar um córpus de Tweets sobre comentários de programas televisivos, anotados quanto a sua polaridade, ou seja, se transmitem opinião negativa, positiva ou neutra. A metodologia de anotação desse córpus prevê uma parcela anotada manualmente e uma parcela anotada automaticamente por meio de classificadores baseados em Aprendizado de Máquina.

Este documento descreve as regras de anotação manual de um trecho do córpus, bem como ilustra, com exemplos do corpus, alguns conceitos fundamentais para a anotação e alguns fenômenos observados empiricamente nos documentos coletados.


Origem dos dados

Os dados do corpus foram extraídos da rede social Twitter usando como palavras-chaves alguns hashtags de programas televisivos em exibição. Tweets de usuários ‘verificados’, ou seja, que representam uma entidade (celebridades, programas, emissoras) foram removidos, assim como RTs (retweets), que são compartilhamentos de tweets já publicados, para evitar enviesamento e replicação de documentos.

Nesta etapa as entidades foram mantidas, assim como as hashtags e os usuários das postagens. O anotador se compromete a não divulgar esses dados, mantendo o sigilo e a privacidade dos usuários da rede social.


Tarefa

A tarefa consiste na anotação de blocos de tweets, separados em "Fases". As fases são sequenciais, de modo que apenas quando o anotador tiver anotado todos os tweets de uma fase é que ele terá acesso ao bloco da fase subsequente (no entanto, é permitido voltar a uma fase anterior para eventuais correções).

A Fase 1 compreende um bloco comum a todos os anotadores, que servirá para o cálculo de concordância. As demais são distintas para os diferentes anotadores.

Em cada etapa, e para cada tweet, o anotador deve escolher necessariamente entre 3 opções - Negativo, Neutro ou Positivo - dependendo de sua percepção quanto à polaridade do sentimento do autor, subjacente ao texto apresentado. Apesar de envolver subjetividade, ambiguidade, dúvidas decorrente do vocabulário, da escassez de contexto, etc., o anotador deve necessariamente escolher uma das opções.

Em caso de se sentir completamente dividido entre mais de uma opção, deve escolher uma delas e também assinalar o quadro "Não tenho certeza", que fica abaixo das 3 opções principais. Apenas nesse caso é que esse quadro deve ser assinalado, ou seja, será natural ter dúvidas entre mais de uma opção, mas na maioria dos casos, haverá uma tendência para uma delas. Nesses casos, não é preciso informar a falta de certeza. Por exemplo, ao anotar "Pra mim #HellsKitchenBR é pau a pau com #MasterChefBr bora fazer um disputa conjunta!", percebe-se que há uma opinião implícita sobre os programas, que, para um anotador, poderia tanto ser positiva quanto negativa. Nesse caso, ele deve escolher uma delas e assinalar "Não tenho certeza". O conjunto de casos assinalados dessa forma poderão ser úteis para nos esclarecer sobre eventuais erros dos sistemas automáticos de anotação.


A classe Positiva é caracterizada por textos que descrevem sentimentos de prazer, satisfação, elogio, recomendação. Nesse domínio, tweets positivos podem se referir ao programa ou a qualquer outra entidade do domínio do programa (apresentador, atração, quadro, música, audiência, etc.). Comparações positivas com outros programas ("esse show é muito melhor que aquele") ou com edições anteriores ("hoje o programa está muito melhor que ontem") também refletem positividade. Expressões factuais eventualmente têm polaridade, como em ("o programa começou mais cedo, vou poder assistir inteiro"), que indica uma satisfação do autor. O uso de emoticons também ajudam a atribuir polaridade positiva, como em "Essas músicas 😍😍😍".

Uma pergunta que talvez ajude o anotador quanto a esta classe é:

O tweet reflete uma intenção do autor em mostrar um sentimento positivo?


A classe Negativa é o oposto da anterior, ou seja, deve ser atribuída aos tweets cujos textos descrevem sentimentos negativos, de insatisfação, discordância ou desgosto pelo programa ou por qualquer outra entidade do domínio do programa (apresentador, atração, quadro, música, audiência, etc.). Negatividade pode ser explícita ("#altashoras de hoje ta bem ruim hein.. ?"), ou pode estar implícita na forma de uma sugestão (“poderiam melhorar esse apresentador, né?”), na insatisfação com alguma atração (“esse quadro é horroroso”) ou na discordância de algo referente ao programa ("por que continuam falando disso? Já deu desse assunto!”). Informações factuais também podem carregar polaridade negativa, como em ("entro no twitter e recebo um spoiler de #HellsKitchenBR no meio da fuça.... --'").

Uma pergunta que talvez ajude o anotador quanto a esta classe é:

O tweet reflete uma intenção do autor em mostrar um sentimento negativo?


A classe Neutra deve ser escolhida sempre que o anotador não conseguir identificar no texto uma opinião (positiva ou negativa) explícita ou implícita. Incluem as expressões factuais típicas, que não carregam polaridade, como em ("Começou o programa."), opiniões imprecisas, como em ("não sei o que pensar desse cantor"), comentários aos quais não é possível atribuir polaridade, com em ("além do que foi dito no programa, gostaria de adicionar Y e Z") e ("cheguei em casa e está passando o programa, vou assistir").

Uma sentença que talvez ajude o anotador quanto a esta classe pode ser:

O tweet não reflete nem sentimento positivo, nem sentimento negativo do autor.

Alguns exemplos

Classe positiva

Gostei muito desse óculos do @lopesjoca tá lindo com cara de intelectual ? #VídeoShowAoVivo

Essa mulher que faz a voz da siri e do google tradutor é mó linda #TheNoite

Eu amo as músicas do Luan, na moral #altashoras

um dos melhores comediantes do brasil, tirullipa!! #TheNoite

Luan e Justin,2 cantores pra quem já torci o nariz e hj canto em voz alta: faxinando, no banheiro,no carro... #LuanNoAltasHoras #altashoras

Cara, só tou dando risada boa hoje no programa #Altashoras xD

#HellsKitchenBR Amando o programa de hoje , só comida boa.

#AltasHoras está maravilhoso com @danielamercury

Classe negativa

Espero que o #DomingoLegal se reinvente e volte melhor depois dessa chuva de reprise. Mistura jornalismo e entretenimento que dá uma virada.

Todo mundo começou a rir quando Luan disse que tinha ido pro Paraguai, incrível como brasileiro é baba ovo da america do norte #altashoras

Depois que a @flora_reginatto saiu esse programa perdeu toda a graça que tinha, não assisto mais!! #HellsKitchenBR

Nunca fiquei tão bravo numa eliminação quanto hoje. Mas fazer o que, né? #HellsKitchenBR

Falando sério, essa chef me irrita as vezes haha #HellsKitchenBR

Porque o @oserginho grita tanto? #altashoras

#MasterChefBR CADE O SOMMMMM?????

Mano Isso ai tá muito errado #HellsKitchenBR

O programa tá religioso Jesus é Abraão . Socorro #AltasHoras

Classe neutra

Rio de Janeiro || 14h08 #VídeoShowAoVivo 16.5, #BalançoGeralRJ 10.1, #ClubeDoChaves 9.1

Daqui a pouco, logo após #TheNoite fique bem informado durante toda a madrugada com o #SBTNoticias, continue no SBT

#HellsKitchenBR vi essa tag achei que era de demolidor

eu e minha mãe ficamos imitando o jacquin fazendo o barulhinho com a língua quando ele tá provando a comida #MasterChefBR

ela ta muito diferente..fico impressionada #TheNoite

Vamos acorda esse prédio!!!!! #AltasHoras @luansantana

vamo preparando o core pra ver quem vai sentar na graxa #MasterChefBR

#Thenoite Do crente ao ateu ninguém explica Deus

Hoje a comida deve estar boa... Até agora ninguém reclamou de nada #HellsKitchenBR

Gabriel Jesus no #AltasHoras

Muito obrigado por estar nos ajudando nessa anotação.

\😊/