Espumas . Notas . Pasquim . Focus . Sons . Web TV . FB

Sapo mostra relações entre as pessoas mencionadas nos 2,5 milhões de artigos da Lusa

Posted: 15 de nov. de 2012 | Publicada por por AMC | Etiquetas: , ,


O portal Sapo vai disponibilizar uma ferramenta que mostra relações entre pessoas com base no número de vezes que estas foram mencionadas num mesmo artigo ao longo dos 25 anos de produção noticiosa da agência Lusa.
A novidade foi apresentada no arranque da sexta edição do Codebits, um evento para entusiastas da tecnologia que o Sapo organiza desde 2007 e que neste ano conta com 800 participantes reunidos no Pavilhão Atlântico, em Lisboa.
A visualização interactiva das redes de relações entre pessoas (de chefes de Estado a desportistas, passando por artistas, economistas e políticos) foi criada a partir de cerca de 2,5 milhões de artigos da Lusa, correspondentes à totalidade do arquivo da agência, que foi fundada em finais de 1986 (como sucessora da ANOP) e que começou a publicar a 1 de Janeiro de 1987.
A ferramenta mostrará as personalidades referidas nas notícias, cada uma representada por um círculo. A cor do círculo indica a temática das notícias em que uma dada pessoa surgiu mais vezes. Pessoas que tiverem sido referidas na mesma notícia surgem ligadas por um traço, que é tanto mais grosso quantos mais artigos existirem com menção às duas em simultâneo. O utilizador poderá ver apenas as relações mais frequentes ou optar por ver redes de relações mais fracas.
É possível filtrar a informação exibida com base no mês de publicação dos artigos e nas áreas temáticas em que estes foram categorizados pela Lusa: por exemplo, política, desporto, ciência e tecnologia, saúde e educação. A partir de cada uma das personalidades mostradas, o utilizador pode aceder às notícias em que esta é mencionada.
O trabalho faz parte do projecto REACTION (a sigla para a denominiação inglesa Retrieval, Extraction and Aggregation Computing Technology for Integrating and Organizing News - numa tradução livre, “Tecnologia Computacional de Recolha, Extracção e Agregação para a Integração e Organização de Notícias”). Do REACTION fazem parte, para além do Sapo, laboratórios da Universidade do Porto e da Universidade Técnica de Lisboa, o Centro de Investigação Media e Jornalismo e o PÚBLICO.
Recentemente, o projecto produziu uma análise das palavras mais usadas nos comentários no Facebook de Pedro Passos Coelho e o portal Sapo já tem uma página para a visualização de relações entre personalidades, que assenta na tecnologia agora usada para a visualização do acervo da Lusa.
A ferramenta estará disponível para qualquer utilizador, mas o objectivo do REACTION é criar ferramentas que possam ser usadas em trabalhos de investigação jornalística, explicou ao PÚBLICO Eduarda Mendes Rodrigues, da Faculdade de Engenharia da Universidade do Porto, durante uma demonstração da tecnologia no Codebits, onde a ferramenta está em mostra num grande ecrã sensível ao toque.
Do ponto de vista académico, notou a investigadora, a análise em larga escala de artigos jornalísticos coloca vários desafios: o processamento de grandes quantidades de dados, a análise de linguagem natural (a linguagem usada por humanos e que os computadores têm dificuldades em compreender) e ainda a construção de formas eficazes para a visualização dos dados.
Nos 2,5 milhões de notícias da Lusa, os computadores identificaram as personalidades referidas e ainda determinaram o cargo (ou cargos) de cada uma. Os algoritmos são capazes, por exemplo, de perceber que em 2009 José Sócrates era primeiro-ministro e que hoje é ex-primeiro-ministro – e a informação referente ao cargo é mostrada quando se visualiza a rede de relações de Sócrates e os artigos correspondentes.
O processo, porém, não está livre de erros: diferentes grafias para o mesmo nome (situação frequente com alguns nomes estrangeiros) ou simples erros ortográficos levam a que, em alguns casos, os computadores tratem uma pessoa como duas entidades distintas. O aperfeiçoamento dos algoritmos para ultrapassar este tipo de problemas é um dos desafios que os investigadores têm pela frente, referiu Eduarda Mendes Rodrigues. O REACTION termina em Setembro de 2013.

por João Pedro Pereira


O Mundo numa Rede: 25 anos de notícias LUSA

Chama-se 'O mundo numa rede - 25 anos de notícias da agência LUSA' e é como uma viagem no tempo, uma revisitação das personalidades e histórias que marcaram as últimas décadas. Um projeto de jornalismo computacional, desenvolvido pelo SAPO Labs, que é apresentado hoje em Lisboa, no SAPO Codebits.
Navegar pelo ecrã de "O mundo numa rede" tem qualquer coisa do genérico do "Era uma vez o Espaço". Há planetas que se aproximam e recuam, que se multiplicam e vão tomando posição à medida que avançamos no tempo. Vemos depois que estes planetas têm nomes - os das personalidades que, ao longo das últimas décadas, marcaram a atualidade, e que se organizam em pequenas galáxias coloridas, partindo dos acontecimentos que os ligaram em histórias comuns.
Podemos ver, por exemplo, que em dezembro 1999, o mês em que Portugal devolveu Macau à China, uma rede liga o então presidente Jorge Sampaio ao seu homólogo chinês Jiang Zemin, e que outros nomes - alguns ainda ativos - estiveram envolvidos no processo: Ramalho Eanes, Cavaco Silva, Edmund Ho… Mas basta desviar um pouco o olhar deste nó de personalidades ligadas pela questão de Macau para nos darmos conta de outros acontecimentos que marcaram esse momento: os nomes de Xanana Gusmão e Sérgio Vieira de Mello deixam entender que alguma coisa se passava em Timor; o futebol leva-nos a Rui Barros, Rui Costa, João Pinto, Vítor Baía, Luís Figo. Pinochet, ainda vivo, estava em prisão domiciliária em Londres, preparando-se para regressar ao Chile.
Se saltarmos para junho de 2004, aí temos todos os protagonistas do europeu de futebol, com Scolari como planeta maior da rede que liga os jogadores da seleção nacional. Voltamos atrás, a março de 2003, o mês em que as tropas americanas entraram em Bagdad e derrubaram a estátua de Saddam: o ditador iraquiano está no centro da rede, com Bush, Tony Blair e outros envolvidos.
A ferramenta permite, finalmente, aceder às notícias do período selecionado, esclarecendo alguma dúvida sobre o que então se passou.

2,5 milhões de notícias num ecrã

Mas como se chega a esta visualização? Comecemos pela matéria-prima: mais de 2 milhões e 500 mil notícias da LUSA, publicadas desde janeiro de 1987. Um universo imenso no qual foi necessário identificar e extrair os nomes de personalidades, e depois fazer uma espécie de análise de 'quem aparece com quem'. "Por outro lado, há o desafio de representar toda esta informação numa interface interativa que permita facilmente a qualquer utilizador ler e compreender o percurso das várias personalidades e das suas interligações ao longo de todo o período de tempo em análise", esclarece Nuno Baldaia, responsável pelo desenho do interface da rede da LUSA.
O mesmo tipo de análise que deu origem à ferramenta interativa 'O mundo visto daqui', lançada há cerca de um ano no SAPO Notícias. Sempre que duas personalidades ocorrem na mesma notícia, é criada uma ligação entre elas, e a partir de todas estas ligações são geradas redes que refletem o peso que cada pessoa teve nas notícias no período analisado.
Um resultado que exigiu um longo trabalho: "Esta ferramenta integra tecnologias de extração de informação que têm vindo a ser desenvolvida nos Lab SAPO da Universidade do Porto ao longo dos últimos anos. A componente de visualização de informação em grande escala resulta de um processo de I&D ao longo dos últimos 6 meses", diz-nos Benjamin Júnior, responsável pelo SAPO Labs.
Os grande desafios deste trabalho são de dois tipos. Primeiro, o grande volume de dados (partiu-se de um total de 4,5 milhões de documentos, do qual foram excluídos aqueles que não eram verdadeiras notícias, como agendas e almanaques, até se chegar aos 2,5 milhões finais) e o largo período de tempo que as notícias cobrem.
"Isto envolve um esforço de engenharia adicional, já que as abordagens tradicionais de extração de informação vão falhar", explica Jorge Teixeira, do SAPO Lab /UP. Por outro lado, há o desafio de representar os dados numa rede interativa, legível e compreensível para qualquer utilizador.
E como se chega aos nomes das personalidades? A equipa de investigação recorreu aoVerbetes, "um serviço que se foca na extração automática de micro-biografias de personalidades a partir de notícias. São analisadas as notícias e identificados padrões textuais que ligam uma pessoa a uma função, por exemplo: "O presidente da PT, Zeinal Bava, referiu que…", continua Jorge Teixeira.
Este tipo de trabalho permite não só viajar no tempo mas, acima de tudo, perceber de que forma certos temas e acontecimentos têm repercussão nos media - afinal, não se trata dum retrato do que aconteceu, simplesmente, mas sim daquilo que chegou a ser noticiado. Vemos assim, por exemplo, que os temas de política e desporto são dominantes.
Curioso é também analisar alguns números: a personalidade que mais vezes ocorre nestas redes, entre 1987 e 2012, é o ex-presidente Jorge Sampaio. António Guterres, José Sócrates, Cavaco Silva, Bill Clinton, George W. Bush, Yasser Arafat, Mário Soares, Kofi Annan, Paulo Portas, Saddam Hussein, Santana Lopes e João Paulo II são outros passageiros frequentes.
"O mundo numa rede - 24 anos de notícias da LUSA" vai estar disponível num écrã televisivo gigante, até sábado, para ser experimentado pelos participantes do encontro SAPO Codebits. Após um período de testes e novos desenvolvimentos, passará a estar acessível online no SAPO Notícias.

A equipa de projeto

Este projecto resulta da colaboração de equipas de I&D do laboratório de investigação da Universidade Porto Lab SAPO/U.Porto (FEUP e LIACC), do Lab SAPO/Picoas e do SAPO Notícias, no âmbito do projeto de investigação REACTION (UTA-Est/MAI/0006/2009) em jornalismo computacional. O projeto é financiado pelo Labs SAPO e pela FCT através do programa UT | Austin-Portugal. A ferramenta foi desenvolvida por Jorge Teixeira (team leader, Labs Sapo / U. Porto), Nuno Baldaia (FEUP) e Bruno Tavares (Labs SAPO / Picoas). A coordenação projeto esteve a cargo de Benjamim Junior (SAPO) e Eduarda Mendes Rodrigues(FEUP).

por Ana Gomes

0 comentários:

Postar um comentário