文献检索-宁波市创意产业特色资源库

基于不完全信息随机博弈与q-learning的防御决策方法: 收藏
分享
引用; 《通信学报》2018年第8期39卷 56-68页; 作者：张红旗杨峻楠张传富信息工程大学三院河南郑州450001 河南省信息安全重点实验室河南郑州450001; 针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问...; 针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问题,将q-learning引入随机博弈中,使防御者在攻防对抗中通过学习得到的相关参数求解贝叶斯纳什均衡。在此基础上,设计了能够在线学习的防御决策算法。仿真实验验证了所提方法的有效性。; 来源：详细信息评论

基于q-learning算法的vEPC虚拟网络功能部署方法: 收藏
分享
引用; 《通信学报》2017年第8期38卷 172-182页; 作者：袁泉汤红波黄开枝王晓雷赵宇国家数字交换系统工程技术研究中心河南郑州450002 移动互联网安全技术国家工程实验室北京100876; 针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策...; 针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策过程建立了v EPC服务链部署的空间—时间优化模型,并设计了改进的q-learning算法求解。该方法同时考虑了空间维度下的EPC服务链虚拟映射和时间维度下的VNF生命周期管理,实现了VNF部署的收益—时延多目标优化。仿真结果表明,与其他VNF部署方法相比,该方法在降低网络时延的同时提高了VNF部署的收益和请求接受率。; 来源：详细信息评论

基于q-learning算法和神经网络的飞艇控制: 收藏
分享
引用; 《北京航空航天大学学报》2017年第12期43卷 2431-2438页; 作者：聂春雨祝明郑泽伟武哲北京航空航天大学航空科学与工程学院北京100083 北京航空航天大学自动化科学与电气工程学院北京100083; 针对现代飞艇控制中动力学模型不确定性带来的系统建模和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和在线学习机制的控制策略。设计了一种在分析实际运动的基础上建立飞艇控制马尔可夫决策过程(MDP)模型的方法,具有自适应...; 针对现代飞艇控制中动力学模型不确定性带来的系统建模和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和在线学习机制的控制策略。设计了一种在分析实际运动的基础上建立飞艇控制马尔可夫决策过程(MDP)模型的方法,具有自适应性。采用q-learning算法进行在线学习并利用小脑模型关节控制器(CMAC)神经网络对动作值函数进行泛化加速。对本文方法进行仿真并与经过参数整定的PID控制器对比,验证了该控制策略的有效性。结果表明,在线学习过程能够在数小时内收敛,通过自适应方法建立的MDP模型能够满足常见飞艇控制任务的需求。本文所提控制器能够获得与PID控制器精度相当且更为智能的控制效果。; 来源：详细信息评论

基于q-learning的高速铁路列车动态调度方法: 收藏
分享
引用; 《控制理论与应用》2021年第10期38卷 1511-1521页; 作者：韩忻辰俞胜平袁志明程丽娟东北大学流程工业综合自动化国家重点实验室辽宁沈阳110819 中国铁道科学研究院集团有限公司通信信号研究所北京100081; 高速铁路作为国家综合交通运输体系的骨干核心,近十年来取得了飞速蓬勃的发展.其飞速发展的同时也引发了路网复杂化、分布区域广等现象,这些现象对高铁动态调度提出了更高的要求.突发事件的不确定性会对列车造成时间延误影响,甚者时间...; 高速铁路作为国家综合交通运输体系的骨干核心,近十年来取得了飞速蓬勃的发展.其飞速发展的同时也引发了路网复杂化、分布区域广等现象,这些现象对高铁动态调度提出了更高的要求.突发事件的不确定性会对列车造成时间延误影响,甚者时间延误会沿路网传播,造成大面积列车到发晚点.而目前对于此问题的人工调度方式,前瞻性及针对性较差,难以对受影响列车进行迅速调整.针对上述问题,本文建立了以各列车在各车站延误时间总和最小为目标函数的高速铁路列车动态调度模型,在此基础上设计了用于与智能体交互的仿真环境,采用了强化学习中的q-learning算法对模型进行求解.最后通过仿真实例验证了仿真环境的合理性以及q-learning算法用于高铁动态调度的有效性,为高铁调度员做出优化决策提供了良好的依据.; 来源：详细信息评论

基于q-learning的飞行自组织网络qoS路由方法: 收藏
分享
引用; 《中国科学院大学学报（中英文）》2022年第1期39卷 134-143页; 作者：黄鑫陈陈光祖郑敏谭冲刘洪中国科学院上海微系统与信息技术研究所上海200050 中国科学院大学微电子学院北京100049; 针对无人机自组网等高动态飞行自组织网络中,网络拓扑的快速变化导致通信链路断裂和路由重建频繁的问题,研究一种基于q-learning的qoS(quality of service)路由方法。该方法以q-learning强化学习框架为基础,将邻居节点数量、链路持续时...; 针对无人机自组网等高动态飞行自组织网络中,网络拓扑的快速变化导致通信链路断裂和路由重建频繁的问题,研究一种基于q-learning的qoS(quality of service)路由方法。该方法以q-learning强化学习框架为基础,将邻居节点数量、链路持续时间和链路可用带宽作为路由度量信息,设计一种提供qoS保证的q-learning奖励函数。网络节点通过广播Hello消息交互各自的本地路由度量信息,邻居节点接收到Hello分组或者数据分组,根据奖励函数计算并更新q值,待转发数据分组的节点根据其维护的q值表智能选择下一跳转发节点。EXata无线网络仿真环境中的仿真结果表明,该方法能为高动态飞行自组织网络中的数据传输提供稳定性好、服务质量高的通信链路。; 来源：详细信息评论

改进麻雀算法和q-learning优化集成学习轨道电路故障诊断: 收藏
分享
引用; 《铁道科学与工程学报》2023年第11期20卷 4426-4437页; 作者：徐凯郑浩涂永超吴仕勋重庆交通大学信息科学与工程学院重庆400074 重庆市公共交通运营大数据工程技术研究中心重庆400074; 无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻...; 无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻雀算法和q-learning优化集成学习的轨道电路故障诊断新方法,该方法有机地将集成学习与计算智能和强化学习相结合,充分挖掘轨道电路故障特征,提高性能评价指标。首先,使用卷积神经网络、长短期记忆网络和多层感知器深度学习模型,以及支持向量机和随机森林传统机器学习模型,共同构成集成学习基学习器,解决单一学习模型的不足,不同基学习器的使用保证集成学习的多样性。从自动化机器学习角度出发,采用改进麻雀算法优化该集成学习模型的结构和参数,克服其结构和参数难以确定的问题。在此之上,引入强化学习q-learning对集成模型中各基学习器组合权重进行优化,智能地确定集成学习各基学习器的组合权重。最后,将集成学习模型的预测结果与真实结果比较后得到误差,再采用BP神经网络对预测结果进行补偿修正,进一步提高轨道电路的故障诊断性能评价指标。仿真结果表明,利用所提方法进一步改善了轨道电路故障诊断的准确度、精确度、召回率和F1值等性能评价指标。; 来源：详细信息评论

基于多步信息辅助的q-learning路径规划算法: 收藏
分享
引用; 《系统仿真学报》2024年第9期36卷 2137-2148页; 作者：王越龙王松艳晁涛哈尔滨工业大学控制与仿真中心黑龙江哈尔滨150001; 为提升静态环境下移动机器人路径规划能力,解决传统q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资...; 为提升静态环境下移动机器人路径规划能力,解决传统q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资格迹在算法迭代中持续发挥作用,用保存的多步信息解决可能落入的循环陷阱;使用局部多花朵的花授粉算法初始化q值表,提升机器人前期搜索效率;基于机器人不同探索阶段的目的,结合迭代路径长度的标准差与机器人成功到达目标点的次数设计动作选择策略,以增强算法对环境信息探索与利用的平衡能力。实验结果表明:该算法具有较快的收敛速度,验证了算法的可行性与有效性。; 来源：详细信息评论

基于生成模型的q-learning二分类算法: 收藏
分享
引用; 《计算机应用研究》2020年第11期37卷 3326-3329,3333页; 作者：尚志刚徐若灏乔康加杨莉芳李蒙蒙郑州大学电气工程学院郑州450001 河南省脑科学与脑机接口技术重点实验室郑州450001; 对于二分类问题,基于判别模型的分类器一般都是寻找一条最优判决边界,容易受到数据波动的影响。针对该问题提出一种基于生成模型的q-learning二分类算法(BGq-learning),将状态和动作分开编码,得到对应各类的判决函数,增加了决策空间的...; 对于二分类问题,基于判别模型的分类器一般都是寻找一条最优判决边界,容易受到数据波动的影响。针对该问题提出一种基于生成模型的q-learning二分类算法(BGq-learning),将状态和动作分开编码,得到对应各类的判决函数,增加了决策空间的灵活性,同时在求解参数时,采用最小二乘时序差分(TD)算法和半梯度下降法的组合优化方法,加速了参数的收敛速度。设计实验对比了BGq-learning算法与三种经典分类器以及一种新颖的分类器的分类性能,在UCI数据库七个数据集上的测试结果表明,该算法有着优良的稳定性以及良好的分类精确度。; 来源：详细信息评论

基于q-learning的改进人工蜂群算法求解分布式装配柔性作业车间绿色调度问题: 收藏
分享
引用; 《工业工程与管理》2024年第6期29卷 166-179页; 作者：唐红涛刘歆张伟雷德明汪开普武汉理工大学机电工程学院湖北武汉430070 武汉理工大学自动化学院湖北武汉430070; 针对分布式制造环境下先加工后装配的两阶段生产模式,研究考虑机器加工/装配功率和空闲功率的分布式装配柔性作业车间绿色调度问题。以最大完工时间和总碳排放为优化目标,建立混合整数规划模型,并提出一种基于q-learning的改进人工蜂群...; 针对分布式制造环境下先加工后装配的两阶段生产模式,研究考虑机器加工/装配功率和空闲功率的分布式装配柔性作业车间绿色调度问题。以最大完工时间和总碳排放为优化目标,建立混合整数规划模型,并提出一种基于q-learning的改进人工蜂群算法进行求解。首先,针对两阶段调度问题特点,设计了一种基于工序、工厂、机器和产品的四层编码策略。其次,提出了一种混合种群初始化方法来提高初始解的质量以及算法的收敛性能。接着,设计了基于9种状态和8个动作的q-learning算法及奖励函数,将q-learning算法融入整个蜂群算法框架中,使其在雇佣蜂阶段自适应选择搜索方式。在观察蜂阶段,设计了四种基于关键工厂和工序的邻域结构,同时在侦查蜂阶段与精英个体进行交互来更新个体,提高了算法的局部搜索能力。最后,设计拓展算例,并以不同的算法进行对比实验,证明了本文提出的基于q-learning的改进人工蜂群算法求解分布式装配柔性作业车间绿色调度问题的有效性。; 来源：详细信息评论

基于节点兴趣和q-learning的P2P网络搜索机制: 收藏
分享
引用; 《计算机科学》2020年第2期47卷 221-226页; 作者：李龙飞张泾周王鹏德郭鹏军西北工业大学自动化学院; 将智能手机设备加入基于非结构化P2P网络的资源共享系统中能够满足人们对资源共享的多样化、便利性、高频性、实时性、高效性等要求,但是该系统网络规模的扩张和网络节点互异性的加大,必将导致系统资源搜索效率的降低、冗余信息的剧增...; 将智能手机设备加入基于非结构化P2P网络的资源共享系统中能够满足人们对资源共享的多样化、便利性、高频性、实时性、高效性等要求,但是该系统网络规模的扩张和网络节点互异性的加大,必将导致系统资源搜索效率的降低、冗余信息的剧增以及网络更加不稳定。为了解决这些问题,文中设计了一种改进的基于节点兴趣和q-learning的资源搜索机制。首先将节点根据兴趣相似度进行兴趣聚类,划分兴趣集,然后根据兴趣集中节点的能力值构建兴趣树,该结构避免了消息环路的产生,极大地降低了冗余信息;在资源搜索中,兴趣树内采用洪泛算法转发消息,兴趣树之间采用基于q-learning的消息转发机制,不断强化最可能获取目标资源的路径,查询消息优先在这些路径上传播。另外,针对“热点”资源问题,设计了自适应热点资源索引机制,减少了重复路径搜索,进一步减少了冗余消息量;针对节点失效的问题,给出了根节点冗余机制和捎带检测的策略方法,分别解决了根节点失效和普通节点失效导致的兴趣树的不完整性问题,分析表明该方法能够减少消息冗余量。仿真实验结果表明,与GBI-BI算法和Interest CN算法相比,所提搜索算法能够提高命中率,缩短响应时间,减少冗余信息,具有较好的综合性能,最终解决了由于智能手机设备加入P2P网络导致的资源搜索效率下降、网络流量开销大的问题。; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：