e-mail A mineração é um meio de extração de informações , como o número de palavras , frases ou a riqueza do vocabulário do seu correspondente , a partir do texto no e-mail . Escrever um mineiro e-mail com Python requer muitos " partes móveis ", na forma de extensões Python, chamado pacotes, que as mensagens de correio electrónico de download fora de servidores. As mensagens são convertidos em cadeias , para que outros pacotes Python pode analisá-los e mostrar o que eles encontram . Esta é uma tarefa altamente complexa, que exige mais do que um conhecimento ocasional passando de programação Python. Portanto, vá com cuidado e paciência. Coisas que você precisa
conexão Internet
Python 2.6 ou superior
NLTK Python Package
Show Mais instruções
1
Abra uma sessão de terminal e digite python - v no prompt para verificar se você tem o Python 2.6 ou superior, mas não 3.0 ou superior . Versões 2.6 ou 2.7 são ideais porque eles são compatíveis com NLTK e PyYAML . Visite a página de índice de pacotes Python ; encontrar e baixar os pacotes PyYAML e NLTK . Descompacte /untar -los. Mude o diretório para o diretório PyYAML . Na linha de comando prompt digite em : sudo python setup.py install. Deve olhar como este :
My- Computador: PyYAML - 3.2.0 -me $ sudo python setup.py install
Você será solicitado para uma senha. Digite -o e pressione o botão de retorno. Siga este procedimento para cada pacote Python instalar
2
Baixe mensagens de correio para analisar com as seguintes linhas de código: .
# /Usr /local /bin /python < br >
importação poplib , getpass , sys, mailconfig
mailserver = mailconfig.popservername
mailuser = mailconfig.popusername
mailpasswd = getpass.getpass (' Senha para % s? ' mailserver % )
server = msgBytes = server.stat ()
print (' Não ' , msgCount ', mensagens de correio em ' msgBytes , ' bytes ')
print ( server.list ()) < br >
print (' - ' * 80)
input (' [ Pressione Enter] ')
for i in range ( msgCount ) :
hdr, mensagem, octetos = server.retr (i +1 )
para a linha de mensagem : print ( line.decode ())
ler ('-' * 80 )
if i < msgCount - 1 :
Este script irá conectar ao seu servidor de e-mail POP3, pedir-lhe para o seu nome de usuário e senha, contar o número de mensagens no servidor e lê-los na memória < br. >
3
mina de mensagens de correio electrónico através da conversão de cada mensagem para uma string, um tipo de dados nativo do Python, que podem ser pesquisados com os métodos do Python cordas, mecanismo de expressão regular , e Natural Language Toolkit : < br >
m = msgCount [ 1]
s = str (m )
de email.parser importação Analisador
importar nltk
importação re
4
mina a primeira mensagem por qualquer informação de interesse. Descubra quantas palavras estão nessa mensagem , digitando o seguinte comando:
>>>> len ( s)
Ele irá retornar um valor inteiro para o número de palavras . Para encontrar todas as frases com a palavra hipoteca, digite o seguinte comando NLTK :
>>>> s.concordance (' hipoteca ')
Isso retornará cada frase com a hipotecário em que palavra, muito útil para os detetives que investigam fraude hipotecária
.