自然语言处理

介绍

本文主要记录自己在学习NLP过程中的心得体会

数据集下载

常用工具

  • NLTK

    1
    2
    3
    4
    5
    install NLTK Corpus.
    1) Go to http://www.nltk.org/nltk_data/ and download your desired NLTK Corpus file.
    2) Now in a Python shell check the value of nltk.data.path
    3) Choose one of the path that exists on your machine, and unzip the data files into the corpora sub directory inside.
    4) Now you can import the data from nltk.corpos import stopwords
  • Gensim

  • Tensorflow

逻辑回归与Softmax回归用于电影评论的情绪分析

问题描述

https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews

基本步骤

  • 数据清洗
    利用nltk库删除非alphabet的字符
    利用nltk库删除停顿词
  • 利用tensorflow建立Softmax回归
  • 训练集合划分为训练集,验证集以及测试集
  • 训练直到验证集精度不再提高或达到指定的epoch数量

示例代码

https://github.com/Leslie-Fang/kaggle/tree/master/SentimentAnalysisonMovieReviews/SoftmaxRegression

Seq2seq

Seq2seq模型主要用于翻译,也可以用于其它任何先加码再解码的应用需求

seq2seq 模型的介绍:

https://blog.csdn.net/wangyangzhizhou/article/details/77883152
https://zhuanlan.zhihu.com/p/27608348

利用seq2seq模型进行中英文翻译:

https://audier.github.io/2018/11/08/seq2seq-model-for-translation/

seq2seq_tool用于explainable AI

https://seq2seq-vis.io/