-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathTopicModelppt.Rpres
80 lines (62 loc) · 2.7 KB
/
TopicModelppt.Rpres
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
TopicModelppt
========================================================
author: Manoel Galdino
date: 22/07/2014
Tópic Models - Introdução
Topic Model - Introdução
========================================================
O que é a modelagem estatística de tópicos?
- Para entendermos a intuição da LDA começemos com um
exemplo fictício de 5 frases
- O exemplo foi criado por mim e não tem análise
estatística nenhuma.
- mas reflete o espírito da LDA
Exemplo (adapatado de E. Chen)
========================================================
- Gosto de Cerveja e Batata Frita
- Também curto tomar cerveja bem gelada com calabresa
- Corinthians e CSA são meus times do coração
- Meu irmão torce pro Botafogo e CSA.
- Curto tomar uma vendo jogo do Corinthians.
Latent Dirichlet Allocation (LDA)
========================================================
Se LDA for inferir 2 tópicos para essas frases:
- Frases 1 and 2: 100% Tópico A
- Frases 3 and 4: 100% Tópico B
- Frase 5: 40% Tópico A, 60% Tópico B
- Tópico A: 30% cerveja, 15% Calabresa, 10% Batata, 10% Frita, … (e então podemos concluir que se trata de comida)
- Tópico B: 20% Corinthians, 20% Botafogo, 20% meu, 15% time, … (e então podemos concluir que se trata de futebol)
- Como LDA descobre os tópicos?
Topic Model - Introdução
========================================================
O que é a modelagem estatística de tópicos?
- Modelos estatísticos de tópicos (temas) permitem
a descoberta de tópicos latentes em textos
- É conhecido como um método de aprendizagem
não-supervisionado
- não supervisionado, pois infere o tópico
- Tópico é uma distrib de probabilidade s/ palavras,
ou seja, cada palavra tem uma prob. de ocorrer num
dado tópico
Topic Model - Introdução
========================================================
No Topic Models, tudo se passa como se quando vamos
escrever um documento, nós
- Decidimos o número de palavras que o doc. terá de
acordo com algum distr. de prob. (ex. Poisson)
- Escolhemos uma mistura de tópicos para o doc.
- No nosso ex. acima, com 2 tópicos (comida e futebol),
podemos decidir que o doc. terá 1/3 de futebol e 2/3 de
comida.
- E geramos cada palavra w_i do doc. de acordo com a
seguinte regra:
Topic Model - Introdução
========================================================
- Primeiro escolhemos um tópico (com as prob. acima)
- Gera a palavra de acordo com a distrib. do tópico
- Lembrem-se que o tópico nos dá uma prob. para a
ocorrência de cada palavra.
- no nosso exemplo, no tópico futebol, Corinthians tem
30% de prob., Botafogo 1%, Cerveja 2% etc.
- Assumindo um modelo desse tipo, a LDA tenta descobrir
os tópicos mais prováveis de terem gerado nossas frases