限定检索结果

检索条件"主题词=Q-Learning"
49 条 记 录,以下是1-10 订阅
视图:
排序:
基于不完全信息随机博弈与q-learning的防御决策方法
收藏 引用
《通信学报》2018年 第8期39卷 56-68页
作者:张红旗 杨峻楠 张传富信息工程大学三院河南郑州450001 河南省信息安全重点实验室河南郑州450001 
针对现有随机博弈大多以完全信息假设为前提,且与网络攻防实际不符的问题,将防御者对攻击者收益的不确定性转化为对攻击者类型的不确定性,构建不完全信息随机博弈模型。针对网络状态转移概率难以确定,导致无法确定求解均衡所需参数的问...
来源:详细信息评论
基于q-learning算法的vEPC虚拟网络功能部署方法
收藏 引用
《通信学报》2017年 第8期38卷 172-182页
作者:袁泉 汤红波 黄开枝 王晓雷 赵宇国家数字交换系统工程技术研究中心河南郑州450002 移动互联网安全技术国家工程实验室北京100876 
针对虚拟化演进分组核心网(v EPC)环境下,现有虚拟网络功能(VNF)部署方法无法在优化时延的同时保证服务链部署收益的问题,提出一种改进的基于q-learning算法的v EPC虚拟网络功能部署方法。在传统0-1规划模型的基础上,采用马尔可夫决策...
来源:详细信息评论
基于q-learning算法和神经网络的飞艇控制
收藏 引用
《北京航空航天大学学报》2017年 第12期43卷 2431-2438页
作者:聂春雨 祝明 郑泽伟 武哲北京航空航天大学航空科学与工程学院北京100083 北京航空航天大学自动化科学与电气工程学院北京100083 
针对现代飞艇控制中动力学模型不确定性带来的系统建模和参数辨识工作较为复杂的问题,提出了一种基于自适应建模和在线学习机制的控制策略。设计了一种在分析实际运动的基础上建立飞艇控制马尔可夫决策过程(MDP)模型的方法,具有自适应...
来源:详细信息评论
基于q-learning的高速铁路列车动态调度方法
收藏 引用
《控制理论与应用》2021年 第10期38卷 1511-1521页
作者:韩忻辰 俞胜平 袁志明 程丽娟东北大学流程工业综合自动化国家重点实验室辽宁沈阳110819 中国铁道科学研究院集团有限公司通信信号研究所北京100081 
高速铁路作为国家综合交通运输体系的骨干核心,近十年来取得了飞速蓬勃的发展.其飞速发展的同时也引发了路网复杂化、分布区域广等现象,这些现象对高铁动态调度提出了更高的要求.突发事件的不确定性会对列车造成时间延误影响,甚者时间...
来源:详细信息评论
基于q-learning的飞行自组织网络qoS路由方法
收藏 引用
《中国科学院大学学报(中英文)》2022年 第1期39卷 134-143页
作者:黄鑫陈 陈光祖 郑敏 谭冲 刘洪中国科学院上海微系统与信息技术研究所上海200050 中国科学院大学微电子学院北京100049 
针对无人机自组网等高动态飞行自组织网络中,网络拓扑的快速变化导致通信链路断裂和路由重建频繁的问题,研究一种基于q-learningqoS(quality of service)路由方法。该方法以q-learning强化学习框架为基础,将邻居节点数量、链路持续时...
来源:详细信息评论
改进麻雀算法和q-learning优化集成学习轨道电路故障诊断
收藏 引用
《铁道科学与工程学报》2023年 第11期20卷 4426-4437页
作者:徐凯 郑浩 涂永超 吴仕勋重庆交通大学信息科学与工程学院重庆400074 重庆市公共交通运营大数据工程技术研究中心重庆400074 
无绝缘轨道电路的故障具有复杂性与随机性,采用单一的模型进行故障诊断,其性能评价指标难以提高。而采用集成学习方式,则存在各基学习器结构、参数设计盲目,集成模型中各基学习器组合权重难以分配的问题。针对以上问题,提出一种改进麻...
来源:详细信息评论
基于多步信息辅助的q-learning路径规划算法
收藏 引用
《系统仿真学报》2024年 第9期36卷 2137-2148页
作者:王越龙 王松艳 晁涛哈尔滨工业大学控制与仿真中心黑龙江哈尔滨150001 
为提升静态环境下移动机器人路径规划能力,解决传统q-learning算法在路径规划中收敛速度慢的问题,提出一种基于多步信息辅助机制的q-learning改进算法。利用ε-greedy策略中贪婪动作的多步信息与历史最优路径长度更新资格迹,使有效的资...
来源:详细信息评论
基于生成模型的q-learning二分类算法
收藏 引用
《计算机应用研究》2020年 第11期37卷 3326-3329,3333页
作者:尚志刚 徐若灏 乔康加 杨莉芳 李蒙蒙郑州大学电气工程学院郑州450001 河南省脑科学与脑机接口技术重点实验室郑州450001 
对于二分类问题,基于判别模型的分类器一般都是寻找一条最优判决边界,容易受到数据波动的影响。针对该问题提出一种基于生成模型的q-learning二分类算法(BGq-learning),将状态和动作分开编码,得到对应各类的判决函数,增加了决策空间的...
来源:详细信息评论
基于q-learning的改进人工蜂群算法求解分布式装配柔性作业车间绿色调度问题
收藏 引用
《工业工程与管理》2024年 第6期29卷 166-179页
作者:唐红涛 刘歆 张伟 雷德明 汪开普武汉理工大学机电工程学院湖北武汉430070 武汉理工大学自动化学院湖北武汉430070 
针对分布式制造环境下先加工后装配的两阶段生产模式,研究考虑机器加工/装配功率和空闲功率的分布式装配柔性作业车间绿色调度问题。以最大完工时间和总碳排放为优化目标,建立混合整数规划模型,并提出一种基于q-learning的改进人工蜂群...
来源:详细信息评论
基于节点兴趣和q-learning的P2P网络搜索机制
收藏 引用
《计算机科学》2020年 第2期47卷 221-226页
作者:李龙飞 张泾周 王鹏德 郭鹏军西北工业大学自动化学院 
将智能手机设备加入基于非结构化P2P网络的资源共享系统中能够满足人们对资源共享的多样化、便利性、高频性、实时性、高效性等要求,但是该系统网络规模的扩张和网络节点互异性的加大,必将导致系统资源搜索效率的降低、冗余信息的剧增...
来源:详细信息评论
聚类工具 回到顶部