我的项目经历
本人不才,到了大四都没什么奖项,项目做了也不多,在此陈述一下,以后面试好应答
—————————————————————————————————-
一.利用数据挖掘算法,从新浪微博发布的数据挖掘出具有母婴等购物意向的用户。
过程描述
1.收集数据
1)利用新浪微博开发平台的api/爬虫/八爪鱼网页采集器收集新浪微博用户的数据,每个用户收集大概其最近的300条微博,不够收集全部,作为带预测集。
2)人工判断某些用户具有母婴的购买意向,作为训练集。
2.对数据进行预处理
1)对收集下来的微博分词,分词是使用了中科院的NLPIR分词系统,把微博分成一个个词,并且把其中的一些停用词给去除。
2)对每个用户构建特征向量,方法是利用卡方统计量,找出其中能代表这个用户的一些关键词
3)给关键词赋予权重,主要使用的是TF-IDF,TF是词频,IDF是逆向文件概率,TF-IDF越大说明该词越能区分其他的词,就可以给他赋予较大的权重。
3.利用台湾大学教授林智仁教授的libsvm对待预测集进行预测
1)第二个步骤结束后就可以得到了训练集和测试集,格式都是tag index:value index:value这种形式
2)为了避免出现脏数据,现对训练集和测试集进行归一化
3)使用默认的核函数
4)使用交叉验证的方法选择最佳惩罚参数C和核函数半径g
5)对训练集进行训练得到训练模型
6)利用训练模型预测是否具有母婴购买意向
————————————————————————————————————————————————————
二.利用VBS脚本,能对网站浏览或者程序启动运行实现自动化操作。
很多情况下,人为地操作网页做同一件事情是非常浪费的,这个时候可以利用VBScript完成自动化操作,比如YY娱乐的账号注册,完全可以使用脚本做自动化操作,输入账号密码是完全没问题的,只需要模拟键盘操作即可
难点在于有手机号注册和验证的,这也不用担心,手机号也不必要用自己的,有手机号租借平台,调用他们的api就可以获取到电话号码,输入手机号和密码后,会要求发送短信验证,这也完全不是问题,手机号租借平台已经
集成了api,只需调用他们的api就会返回电话号码的验证码,再者有些注册需要输入验证码,这也完全不用担心,也有专门的打码平台,只需要先模拟鼠标动作,把鼠标移到验证码上面,右键,s保存图片到本地,再调用打码
平台的api就可以返回验证码,成功率极高,不过也会有错误的,毕竟是图像识别
!!!!!!这就是为什么很多直播平台出现很多协议号的原因,很难看出是不是协议号,也许有人说,协议号就是挂在那里不说话的就是了,错,协议号也是会说话的,脚本可以完美做到,先利用爬虫收集当前直播间其他人发的信息,实时
更新到数据库,VBS脚本再访问数据库把这发言发出来即可,这就是为什么一个直播间很多人刷同一句话的原因之一,其中很多都是协议号,协议号发言都是别人发过的,现在直播平台太多假东西了,然而这刷人气,并不违法,可见
网络法律多么的不健全
——————————————————————————————————————————————————————-
三. Ilove创业团队成员,参与后台开发工作,完成了意在原传作品推广的网站制作。
主要是负责后台的工作,用的语言是php,框架是外国的lravel5框架,数据库用的是mysql,我主要负责的是作品展示页面的后台工作
主要有几个方面:
1.根据用户的不同选择调用数据库的数据,把作品信息展示到前段。
2.记录用户的浏览行为,具体方法是记录该用户浏览了哪些类别的作品,下次用户再次打开作品页面的时候能推荐其喜欢的作品