文献检索-宁波市创意产业特色资源库

ddpg方法在抖振约束下变弯度翼型/机翼设计的应用研究: 收藏
分享
引用; 《应用数学和力学》2024年第1期45卷 45-60页; 作者：周思历孙刚王聪复旦大学航空航天系上海200433; 变弯度技术可以提升巡航多升力系数工况下的升阻性能,对于提高整段巡航的经济效益具有重要意义.构造了光滑连续的流动分离函数约束翼型抖振性能,结合变弯度技术与人工神经网络代理模型搭建了某机翼截面翼型的巡航多升力系数工况优化模型...; 变弯度技术可以提升巡航多升力系数工况下的升阻性能,对于提高整段巡航的经济效益具有重要意义.构造了光滑连续的流动分离函数约束翼型抖振性能,结合变弯度技术与人工神经网络代理模型搭建了某机翼截面翼型的巡航多升力系数工况优化模型.应用深度确定性策略梯度(ddpg)方法优化此模型,实现了抖振约束下6.8%的巡航平均升阻比提升,优于粒子群和改进灰狼算法对此模型的优化结果.以优化前后翼型分别生成锥形后掠翼,验证了二维翼型变弯度优化对三维机翼的贡献.; 来源：详细信息评论

基于深度强化学习的SCR脱硝系统协同控制策略研究: 收藏
分享
引用; 《动力工程学报》2024年第5期44卷 802-809页; 作者：赵征刘子涵华北电力大学控制与计算机工程学院河北保定071003; 针对选择性催化还原(SCR)脱硝系统大惯性、多扰动等特点,提出了一种基于多维状态信息和分段奖励函数优化的深度确定性策略梯度(ddpg)协同比例积分微分(PID)控制器的控制策略。针对SCR脱硝系统中存在部分可观测马尔可夫决策过程(POMDP),...; 针对选择性催化还原(SCR)脱硝系统大惯性、多扰动等特点,提出了一种基于多维状态信息和分段奖励函数优化的深度确定性策略梯度(ddpg)协同比例积分微分(PID)控制器的控制策略。针对SCR脱硝系统中存在部分可观测马尔可夫决策过程(POMDP),导致ddpg算法策略学习效率较低的问题,首先设计SCR脱硝系统的多维状态信息;其次,设计SCR脱硝系统的分段奖励函数;最后,设计ddpg-PID协同控制策略,以实现SCR脱硝系统的控制。结果表明:所设计的ddpg-PID协同控制策略提高了ddpg算法的策略学习效率,改善了PID的控制效果,同时具有较强的设定值跟踪能力、抗干扰能力和鲁棒性。; 来源：详细信息评论

低压配电台区柔性互联系统多目标ddpg优化调度: 收藏
分享
引用; 《智慧电力》2024年第6期52卷 62-70页; 作者：刘文军李帅虎马瑞何书耘国网湖南省电力有限公司经济技术研究院湖南长沙410007 能源互联网供需运营湖南省重点实验室湖南长沙410007 长沙理工大学电气与信息工程学院湖南长沙410114; 针对配电台区柔性互联系统(DSAFIS)中源、荷、设备强不确定性,及台区间功率互济特性,提出基于深度确定性策略梯度(ddpg)的台区运行成本、新能源消纳、负载均衡目标协调优化调度方法。构建系统模型与物理系统自动联动的深度强化学习日前...; 针对配电台区柔性互联系统(DSAFIS)中源、荷、设备强不确定性,及台区间功率互济特性,提出基于深度确定性策略梯度(ddpg)的台区运行成本、新能源消纳、负载均衡目标协调优化调度方法。构建系统模型与物理系统自动联动的深度强化学习日前优化调度决策框架,设计考虑多目标奖励和运行约束奖励的优化调度ddpg模型;ddpg采用“在线学习”模式,算法收敛后输出日前调度计划给实际DSAFIS。算例验证了所提方法能自动适应系统的强不确定性,且在降低运行成本的同时兼顾了新能源消纳和台区负载均衡。; 来源：详细信息评论

基于ddpg的四旋翼无人机姿态控制: 收藏
分享
引用; 《指挥控制与仿真》2024年第2期46卷 115-121页; 作者：黄希杰陆军指挥学院江苏南京210045; 针对未知环境下四旋翼无人机姿态控制实现难、鲁棒性差等问题,提出了基于深度确定性策略(ddpg)算法的智能姿态控制方法。首先,基于欧拉-庞卡莱方程,利用计算机符号推导,建立四旋翼的动力学模型;其次,基于ddpg算法设计四旋翼的姿态控制器...; 针对未知环境下四旋翼无人机姿态控制实现难、鲁棒性差等问题,提出了基于深度确定性策略(ddpg)算法的智能姿态控制方法。首先,基于欧拉-庞卡莱方程,利用计算机符号推导,建立四旋翼的动力学模型;其次,基于ddpg算法设计四旋翼的姿态控制器,并在奖励函数设计中引入姿态误差、姿态角速度误差和控制量惩罚项;最后,通过设置不同初始状态值、改变四旋翼结构参数和引入噪声等仿真试验,分析验证控制器的性能。仿真结果表明,该控制器能够引导四旋翼快速响应到期望姿态并保持稳定,同时展现出较好的泛化能力。; 来源：详细信息评论

基于强化学习的智能车避障决策算法: 收藏
分享
引用; 《电子设计工程》2024年第12期32卷 181-186页; 作者：宋倩蓝俊欢罗富贵李明珍河池学院大数据与计算机学院广西河池546300 广西电网有限责任公司河池供电局广西河池546300; 针对当下智能车避障多采用建立地图模型和路径规划方法,其建模参数契合度较低的问题,提出一种基于强化学习的智能车避障决策算法。在未知动态环境中,构建了智能车自主避障决策的网络模型,考虑优先级的相互避障决策行为。在TORCS仿真平...; 针对当下智能车避障多采用建立地图模型和路径规划方法,其建模参数契合度较低的问题,提出一种基于强化学习的智能车避障决策算法。在未知动态环境中,构建了智能车自主避障决策的网络模型,考虑优先级的相互避障决策行为。在TORCS仿真平台中验证了避障决策算法的有效性,较原始的ddpg算法可加快学习效率,训练后的Tddpg具备自适应能力,能快速自主避障决策。; 来源：详细信息评论

基于深度强化学习的投资组合构建方法: 收藏
分享
引用; 《智能计算机与应用》2024年第8期14卷 85-90页; 作者：李彬潘乔阎希平东华大学计算机科学与技术学院上海201620 上海兆前投资有限公司上海201107; 传统基于数据分析的投资组合构建方法使用简单的统计学模型,不仅难以发现市场规律,且在处理大量数据时效率不高。而深度强化学习算法具备强大的数据处理和分析能力,能够通过学习自适应调整策略,从海量金融数据中提取出有效信息,处理复...; 传统基于数据分析的投资组合构建方法使用简单的统计学模型,不仅难以发现市场规律,且在处理大量数据时效率不高。而深度强化学习算法具备强大的数据处理和分析能力,能够通过学习自适应调整策略,从海量金融数据中提取出有效信息,处理复杂多变市场环境并为投资决策提供科学建议。针对金融资产价格具有非平稳特点和各资产间具有相互依赖性的问题,本文基于深度强化学习中的深度确定性策略梯度ddpg算法,设计了一种并行投资组合特征提取网络PPFNet作为策略网络用于构建投资组合。实验结果表明,PPFNet相较于其他主流投资组合构建方法,取得了最优的收益效益,且表现出良好的稳定性。; 来源：详细信息评论

基于ddpg的无人机追捕任务泛化策略设计: 收藏
分享
引用; 《西北工业大学学报》2022年第1期40卷 47-55页; 作者：符小卫徐哲王辉西北工业大学电子信息学院陕西西安710129; 无人机追逃对抗问题是当今空战领域的研究热点,传统解决方案对此问题存在诸多限制,如模型难以适应复杂动态环境从而快速做出决策、对不同任务场景泛化性较差等问题。基于ddpg(deep deterministic policy gradient)算法设计了无人机追逃...; 无人机追逃对抗问题是当今空战领域的研究热点,传统解决方案对此问题存在诸多限制,如模型难以适应复杂动态环境从而快速做出决策、对不同任务场景泛化性较差等问题。基于ddpg(deep deterministic policy gradient)算法设计了无人机追逃对抗策略;在此基础上,设计多种逃逸无人机的对抗机动策略,利用课程学习思想,在ddpg的训练过程中逐步提高逃逸无人机的智能程度,从而递进式地训练追捕无人机的对抗策略。仿真结果表明,相较于直接进行训练,利用课程学习的方法所训练的追捕无人机的追捕策略能够更快收敛,并能更好地执行对敌机的追捕任务,且能够适用于具有多种对抗机动策略的敌机,有效地提升了无人机追逃对抗决策模型的泛化性。; 来源：详细信息评论

航母甲板上舰载机的混合避障和仿真: 收藏
分享
引用; 《系统仿真学报》2023年第3期35卷 592-603页; 作者：薛均晓孔祥燕董博威陶浩管海洋石磊徐明亮郑州大学网络空间安全学院河南郑州450002 郑州大学计算机与人工智能学院河南郑州450001 中国船舰研究设计中心湖北武汉430064; 针对航母甲板上舰载机混合避障随机性强、实时性差、规划速度慢等问题,结合最小二乘法与ddpg(deep deterministic policy gradient)算法提出一种Pddpg(predictive depth deterministic policy gradient)算法。该方法利用最小二乘法预测...; 针对航母甲板上舰载机混合避障随机性强、实时性差、规划速度慢等问题,结合最小二乘法与ddpg(deep deterministic policy gradient)算法提出一种Pddpg(predictive depth deterministic policy gradient)算法。该方法利用最小二乘法预测航母甲板上动态障碍物的短期轨迹。ddpg根据动态障碍物的短期轨迹为智能体提供在连续空间里学习和决策行为的能力。基于人工势场设置奖励函数,提高混合避障算法的收敛速度和准确率。使用Unity 3D构建了航母甲板高动态复杂场景,进行舰载机混合避障仿真实验。实验结果表明,Pddpg能较准确地实现航母甲板上舰载机的混合避障,与其他方法相比,在精度上提高了7%~30%。与DQN(deep Q network)相比,路径长度和转弯角度上分别减少了100个单位和400o~450o。; 来源：详细信息评论

一种基于ddpg算法的6轴机械臂控制研究: 收藏
分享
引用; 《重庆理工大学学报:自然科学》2023年第9期37卷 134-140页; 作者：何联格李天华聂远航妥吉英重庆理工大学汽车零部件先进制造技术教育部重点实验室重庆400054 北京信息科技大学现代测控技术教育部重点实验室北京100192 重庆青山工业有限责任公司重庆402761; 针对传统控制算法在复杂环境下,精度低、稳定性不足等问题,提出了一种基于深度确定策略梯度算法(deep deterministic policy gradient,ddpg)的控制算法,以更好地解决6轴机械臂在三维空间中的控制难题。在MuJoCo平台上建立仿真环境,引入...; 针对传统控制算法在复杂环境下,精度低、稳定性不足等问题,提出了一种基于深度确定策略梯度算法(deep deterministic policy gradient,ddpg)的控制算法,以更好地解决6轴机械臂在三维空间中的控制难题。在MuJoCo平台上建立仿真环境,引入所设计机械臂为测试对象,并采用ddpg算法、柔性动作-评估算法(soft actor-critic algorithms,SAC)和双延迟深度确定策略梯度算法(twin delayed deep deterministic policy gradient,TD3)对仿真环境下的机械臂进行了几组对比测试。研究表明:以ddpg算法为基础的机械臂控制方法能够有效地提高机械臂的控制精度,相对于SAC、TD3等算法稳定性较好。; 来源：详细信息评论

基于MRD-ddpg的机械臂避障路径规划方法: 收藏
分享
引用; 《组合机床与自动化加工技术》2023年第7期 41-45页; 作者：付子强郑威强张立萍何丽袁亮邵明明新疆大学机械工程学院乌鲁木齐830047 北京化工大学信息科学与技术学院北京100029; 提出将MRD-ddpg算法应用在机械臂避障路径规划上,解决了ddpg算法在训练过程中学习效率低、样本利用率低的问题。首先,在ddpg算法的基础上,通过改进经验池机制,提出多经验池延迟采样的深度确定性策略梯度(multi-replay buffer delay samp...; 提出将MRD-ddpg算法应用在机械臂避障路径规划上,解决了ddpg算法在训练过程中学习效率低、样本利用率低的问题。首先,在ddpg算法的基础上,通过改进经验池机制,提出多经验池延迟采样的深度确定性策略梯度(multi-replay buffer delay sampling-deep deterministic policy gradient,MRD-ddpg)算法,有效的缓解了样本利用率低的问题;其次,针对机械臂交互探索过程中奖励稀疏问题,设计了一种适用于避障路径规划的位置奖励函数,有效的提高了智能体的学习效率。实验结果表明,机械臂避障路径规划的平均成功率达97%左右;MRD-ddpg算法相比于ddpg算法的平均成功率提升了88%;机械臂的平均规划时间为0.638 s。; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：