repo在此,如果觉得做得好,给个star鼓励下吧!
在看《Python数据挖掘入门与实践》的时候,随书附带的代码已经过时几年了,现在边看书边修,很是辛苦
在学习第六章“使用朴素贝叶斯进行社交媒体挖掘”时,数据集需要通过twitter的API来获取
(玛蛋,为毛不随书附带数据集)
twitter在国内被墙了,只能翻墙
浏览器翻墙容易,弄个lantern或者shadowsockets就可以了
但是,由于ubuntu的代理不是全局代理,在命令行中翻墙要设proxy,在代码中翻墙也要设proxy
所以难处在于代码要就twitter的python接口翻墙
如果只是一个简单的加proxy网络请求,几行就可以搞定:
import urllib.request
proxy_support = urllib.request.ProxyHandler({'http' : '<http://127.0.0.1:80>'})
可是twitter的python接口是自动发起请求的呀
懒得去改源码
只好看看怎么在代码中设置好翻墙
首先需要在twitter官方注册twitter账号,并新建一个应用,链接:新建应用 如果新建应用不成功,国内大多数情况都是无法验证手机号,可以参考这个教程,亲测有效,链接:验证手机号 注册成功后,可以查看自己的keys and access token,如下图:
Consumer Key and Consumer Secret
Access Token and Access Token Secret