projetos > Máquinas de Vetores-Suporte...

Máquinas de Vetores-Suporte Aplicadas à Classificação de Textos Reduzidos

Com o rápido avanço da tecnologia nas últimas décadas, as informações chegam com maior facilidade e rapidez ao alcance de todos. Em especial, o surgimento da internet possibilitou que, em qualquer lugar e a qualquer hora, se tenha à frente notícias de toda parte do mundo, acesso a publicações mais recentes de diversas revistas e possibilidade de realizar pesquisas sobre diversos assuntos em qualquer base de informação pública ou privada. Essa quantia imensa de informação (dados) deve ser organizada e classificada de alguma forma para facilitar a sua busca (recuperação, uso). Quando se trabalha com volume de dados muito grande (as informações), torna-se necessário um processo de otimização do algoritmo usado no sistema, de forma que os recursos computacionais disponíveis sejam suficientes para a execução da pesquisa num curto período de tempo. O presente trabalho visa explorar esse processo de otimização por meio do uso de uma técnica de aprendizado de máquina, as máquinas de vetores-suporte (SVM), a qual tem apresentado bons resultados em classificação de documentos (textos), sendo amplamente usada em diversas áreas de pesquisa. Em especial será abordada a classificação de textos reduzidos, ou seja, textos que apresentam poucas palavras. São discutidos alguns aspectos importantes do SVM (programação quadrática, problema dual, otimização do SVM), o problema da classificação de documentos e os tratamentos iniciais ("pré-processamento") desses documentos pelo uso de alguns dos algoritmos usados em recuperação de informação ( freqüência do termo modificado - TFc, freqüência inversa de documento modificado - IDFc, informação mútua, teste de chi-quadrado), tendo-se como aplicação a classificação de textos do e-commerce brasileiro.