介绍
本文主要记录自己在学习NLP过程中的心得体会
数据集下载
常用工具
NLTK
12345install NLTK Corpus.1) Go to http://www.nltk.org/nltk_data/ and download your desired NLTK Corpus file.2) Now in a Python shell check the value of nltk.data.path3) Choose one of the path that exists on your machine, and unzip the data files into the corpora sub directory inside.4) Now you can import the data from nltk.corpos import stopwordsGensim
- Tensorflow
逻辑回归与Softmax回归用于电影评论的情绪分析
问题描述
https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews
基本步骤
- 数据清洗
利用nltk库删除非alphabet的字符
利用nltk库删除停顿词 - 利用tensorflow建立Softmax回归
- 训练集合划分为训练集,验证集以及测试集
- 训练直到验证集精度不再提高或达到指定的epoch数量
示例代码
https://github.com/Leslie-Fang/kaggle/tree/master/SentimentAnalysisonMovieReviews/SoftmaxRegression
Seq2seq
Seq2seq模型主要用于翻译,也可以用于其它任何先加码再解码的应用需求
seq2seq 模型的介绍:
https://blog.csdn.net/wangyangzhizhou/article/details/77883152
https://zhuanlan.zhihu.com/p/27608348
利用seq2seq模型进行中英文翻译:
https://audier.github.io/2018/11/08/seq2seq-model-for-translation/