T=题名(书名、题名),A=作者(责任者),K=主题词,P=出版物名称,PU=出版社名称,O=机构(作者单位、学位授予单位、专利申请人),L=中图分类号,C=学科分类号,U=全部字段,Y=年(出版发行年、学位年度、标准发布年)
AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
范例一:(K=图书馆学 OR K=情报学) AND A=范并思 AND Y=1982-2016
范例二:P=计算机应用与软件 AND (U=C++ OR U=Basic) NOT K=Visual AND Y=2011-2016
摘要:准点率是衡量英国铁路服务质量的关键指标之一。列车晚点时长的准确预测,尤其是旅客列车,对调度指挥工作具有重要意义。基于对英国WCML列车实际运行数据分析,提出一种列车晚点时长预测方法:通过时间事件图分析影响晚点的因素,交叉验证法确定模型重要参数,以列车的车站晚点偏差值为自变量建立晚点时长预测的gbdt模型。对测试数据集的预测结果表明,允许误差3min以内,模型预测精度达到99.76%。决策树模型、随机森林模型、基于默认参数的gbdt模型预测结果对比表明,调整参数后的gbdt模型预测精度更高,性能更优。同时基于预测模型的重要度排序,得到影响列车晚点的关键因素为列车前一站的晚点偏差值。
摘要:电力计量设备的故障风险预测可以减少国家电网因为故障风险带来的损失。文中首先进行了数据的预处理和特征选取;其次,设计了基于gbdt的故障大类、故障小类以及设备寿命周期的预测;最后,对设计的模型进行了有效性和先进性的验证。实验在中国电力科研研究院提供的数据上进行。由实验结果可知,所提算法对6种故障类型的预测准确率为90.56%,查全率为92.95%,F1值为91.71%。相比回归、BP神经网络、Adaboost、决策树算法,梯度提升决策树算法在参数调优条件下的性能最优。
摘要:从已经积累的海量钻井数据中挖掘发现,精确地预测机械钻速成为了当前钻井工作的重要方向。现有的预测机械钻速的方法以实验和经验为主,成本较高、周期较长,且在多维条件约束下,已经不能很好地满足当前钻井工程的需要。针对钻速预测问题,通过对已经收集的特定区块的历史数据进行挖掘,设计并实现以gbdt算法为核心的机械钻速预测模型。同时将该方法与SVM、LR、KNN等其他机器学习算法进行比较。实验结果表明,该算法相对其他方法具有较高的准确率,可以为提高钻速提供科学可靠的参考。
摘要:洪水预报实时校正是提高预报精度的有效途径。通过研究实时洪水预报误差系列构建方法,引入gbdt方法建立误差校正模型,并采用粒子群算法优选模型参数,选用洪峰段洪量相对误差、洪峰流量相对误差、确定性系数等指标评估实时校正效果。对淮河流域王家坝站点的实例应用结果表明,无论是率定期还是验证期,基于gbdt的实时预报误差校正方法精度均优于经典AR方法和KNN方法,各项指标精度均有不同程度提升,可有效提高实时洪水预报效果,且稳定性较高。
摘要:建立准确的船舶油耗预测模型是实现船舶节能减排的基础。文中以某一远洋船舶作为研究对象,对船舶的实际运营数据进行分析和预处理,结合gbdt算法构建船舶油耗的预测模型。将模型在测试数据集上的预测值与实测数据进行对比,结果表明预测误差低于6.98%,优于随机森林和决策树的预测结果。该文验证了基于gbdt所建立的油耗预测模型的准确性和实用性,对于后续船舶航行优化措施具有重要意义。
摘要:The rapid growth of mobile Internet technologies has induced a dramatic increase in mobile payments as well as concomitant mobile transaction fraud. As the first step of mobile transactions, bankcard enrollment on mobile devices has become the primary target of fraud attempts. Although no immediate financial loss is incurred after a fraud attempt, subsequent fraudulent transactions can be quickly executed and could easily deceive the fraud detection systems if the fraud attempt succeeds at the bankcard enrollment step. In recent years, financial institutions and service providers have implemented rule-based expert systems and adopted short message service(SMS) user authentication to address this problem. However, the above solution is inadequate to face the challenges of data loss and social engineering. In this study, we introduce several traditional machine learning algorithms and finally choose the improved gradient boosting decision tree(gbdt) algorithm software library for use in a real system, namely, XGBoost. We further expand multiple features based on analysis of the enrollment behavior and plan to add historical transactions in future studies. Subsequently, we use a real card enrollment dataset covering the year 2017, provided by a worldwide payment processor. The results and framework are adopted and absorbed into a new design for a mobile payment fraud detection system within the Chinese payment processor.
摘要:在百度举办的WSDM Cup用户留存率预测比赛中,比赛的主要任务为根据用户在好看视频App一天当中的交互数据来预测下一天用户是否会继续使用App,该任务为典型的二分类类型。在新用户下载App并使用一段时间过后,一些用户会在下一天继续登录和使用App,这种用户也叫回归用户;而另外一部分用户可能会仅仅在下载的当天探索使用,而在此之后的很长时间不会继续使用。设计一种实用的机器学习方法来解决这一难题,包括特征工程、LightGBM、CatBoost等gbdt梯度提升树、ManyToMany结构的RNN和机器学习模型Stacking方法。希望能找到有效提高用户留存率预测正确率的方法,以及深度挖掘影响用户留存率的关键因素,在该比赛任务中,我们所设计的方案,最终以0.7671的成绩获得第二名。
摘要:目的利用人工智能算法辅助药物设计,实现拮抗乳腺癌候选药物的分子描述符筛选、ERα回归预测、ADMET分类预测。方法针对乳腺癌候选药物筛选问题,以化合物对抑制乳腺癌靶标的生物活性及其ADMET性质出发,基于获取的1974种化合物数据,分别利用稀疏贝叶斯学习与随机森林算法进行两阶段筛选,得到不具备强相关性的前20个对生物活性最具显著性影响的分子描述符;随后以筛选后的数据及其PIC 50值为基础建立了QSAR模型,基于灰狼优化的核极限学习机算法对新化合物的生物活性进行了预测,横向对比11种常见机器学习算法,同时利用gbdt算法构建了ADMET分类模型。结果GWO-KELM模型具有更高的拟合优度与更低的均方误差,而且药物性质识别的4个模型预测准确率均保持90%以上。结论所建模型能够有效分析并预测化合物性质,为抗乳腺癌候选药物的研发提供参考。
摘要:互联网广告是一个具有上千亿元规模的市场,广告的点击率(CTR)是互联网广告投放效果的重要指标。在广告点击率预估模型中,特征提取是关键因素,特征的好坏直接影响到最终模型的效果。针对如何提高广告点击率预估效率问题,在Hadoop大数据平台环境中,提出了基于梯度提升决策树(gradient boost decision tree,gbdt)模型的多维特征提取方法。该方法利用原始数据构建多维基础特征库,并将基础特征库中除ID类特征以外的其余特征输入gbdt模型进行特征刷选,得到高层特征,进一步进行分类。该方法的使用不仅减少了特征提取的人工成本和时间成本,也在很大程度上提升了模型的精度。
摘要:近年来,个人信用评估问题成为信贷行业的研究热点,针对当前应用于信用评估的分类算法大多存在只对某种类型的信用数据集具有较好的分类效果的问题,提出了基于Gradient Boosted Decision Tree(gbdt)的个人信用评估方法。gbdt天然可处理混合数据类型的数据集,可以发现多种有区分性的特征以及特征组合,不需要做复杂的特征变换,对于特征类型复杂的信用数据集有明显的优势,且其通过其损失函数可以很好地处理异常点。在基于两个UCI公开信用审核数据集上的对比实验表明,gbdt明显优于传统常用的支持向量机(Support Vector Machine,SVM)以及逻辑回归(Logistic Regression,LR)的信用评估效果,具有较好的稳定性和普适性。
地址:宁波市钱湖南路8号浙江万里学院(315100)
Tel:0574-88222222
招生:0574-88222065 88222066
Email:yzb@zwu.edu.cn