文献检索-宁波市创意产业特色资源库

基于混合深度强化学习的ICV任务卸载与资源分配: 收藏
分享
引用; 《汽车工程》2025年第1期47卷 35-43页; 作者：刘佳慧邹渊孙巍孟逸豪路潇然李圆圆北京理工大学机械与车辆学院北京100081 北京理工大学电动车辆国家工程研究中心北京100081; 随着智能网联车辆(ICV)技术的发展,计算资源有限的ICV面临计算需求大幅增加的问题。ICV可以通过路侧单元(RSU)将任务卸载到移动边缘计算(MEC)服务器上。然而,车联网环境的动态性和复杂性使任务卸载和资源分配变得极具挑战。本文提出在...; 随着智能网联车辆(ICV)技术的发展,计算资源有限的ICV面临计算需求大幅增加的问题。ICV可以通过路侧单元(RSU)将任务卸载到移动边缘计算(MEC)服务器上。然而,车联网环境的动态性和复杂性使任务卸载和资源分配变得极具挑战。本文提出在环境和资源的约束下,通过控制任务卸载决策、通信功率和计算资源分配,最小化任务计算能耗。针对这一问题离散和连续控制变量共存的特性,设计了混合深度强化学习(HDRL)算法:利用双深度Q网络(DDQN)生成任务卸载决策,利用深度确定性策略梯度(DDPG)生成通信功率和MEC资源分配决策,并结合改进的优先级经验回放(IPER)机制来评估和选择动作,输出最优策略。仿真实验结果表明,该方法比对比算法具有更快更稳定的决策收敛性,实现了任务计算卸载的最小能耗,并能有效适应ICV数量和任务大小的变化,具有高实时性和良好环境适应性。; 来源：详细信息评论

深度强化学习求解动态柔性作业车间调度问题: 收藏
分享
引用; 《现代制造工程》2025年第2期 10-16页; 作者：杨丹舒先涛余震鲁光涛纪松霖王家兵武汉科技大学冶金装备及其控制省部共建教育部重点实验室武汉430081 武汉科技大学机械传动与制造工程湖北省重点实验室武汉430081 武汉科技大学精密制造研究院武汉430081; 随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车...; 随着智慧车间等智能制造技术的不断发展,人工智能算法在解决车间调度问题上的研究备受关注,其中车间运行过程中的动态事件是影响调度效果的一个重要扰动因素,为此提出一种采用深度强化学习方法来解决含有工件随机抵达的动态柔性作业车间调度问题。首先以最小化总延迟为目标建立动态柔性作业车间的数学模型,然后提取8个车间状态特征,建立6个复合型调度规则,采用ε-greedy动作选择策略并对奖励函数进行设计,最后利用先进的D3QN算法进行求解并在不同规模车间算例上进行了有效性验证。结果表明,提出的D3QN算法能非常有效地解决含有工件随机抵达的动态柔性作业车间调度问题,在所有车间算例中的求优胜率为58.3%,相较于传统的DQN和DDQN算法车间延迟分别降低了11.0%和15.4%,进一步提升车间的生产制造效率。; 来源：详细信息评论

求解外卖配送问题的深度强化学习算法: 收藏
分享
引用; 《计算机应用研究》2025年第1期42卷 205-213页; 作者：张旭阳刘勇马良上海理工大学管理学院上海200093; 以最小化骑手费用效益比为优化目标,采用最小比率旅行商问题对外卖配送问题进行建模。针对目前算法在求解该问题时计算精度低、算法稳定性差等问题,设计一种基于深度强化学习的DRL-MFA算法。首先,定义外卖配送问题的马尔可夫决策模型来...; 以最小化骑手费用效益比为优化目标,采用最小比率旅行商问题对外卖配送问题进行建模。针对目前算法在求解该问题时计算精度低、算法稳定性差等问题,设计一种基于深度强化学习的DRL-MFA算法。首先,定义外卖配送问题的马尔可夫决策模型来模拟智能体与环境的交互过程;其次,在编码阶段设计多特征聚合嵌入子层,实现特征间的优势互补并提高模型对非线性问题的建模能力;最后,在解码阶段通过注意力机制和指针网络计算解的概率分布,采用策略梯度算法对网络模型进行训练。通过经典算例和长春市仿真案例的相关实验分析,结果表明该算法能够有效地求解外卖配送问题,且与其他启发式算法相比,具有更高的稳定性和求解精度。此外,进行参数灵敏度实验,考虑不同定价策略对外卖配送的影响,使研究结果更具现实意义。; 来源：详细信息评论

面向多无人机辅助数据采集的深度强化学习协同航迹规划算法: 收藏
分享
引用; 《中国科学:信息科学》2025年第2期55卷 426-443页; 作者：张莉涓喻春妮高攀宋晓勤缪雨祺王雪莹南京航空航天大学电子信息工程学院南京210016 南京航空航天大学计算机科学与技术学院南京210016 东南大学移动通信全国重点实验室南京211189; 在复杂动态环境下,针对无人机执行协同数据采集任务时,出现的航迹规划问题求解不确定性高、多机协同难度大、机间碰撞严重等挑战,提出了一种面向多无人机辅助数据采集的强化学习协同航迹规划(reinforcement learning-based cooperative ...; 在复杂动态环境下,针对无人机执行协同数据采集任务时,出现的航迹规划问题求解不确定性高、多机协同难度大、机间碰撞严重等挑战,提出了一种面向多无人机辅助数据采集的强化学习协同航迹规划(reinforcement learning-based cooperative trajectory planning for UAV aided data collection,RL-DC)算法.该算法通过集中式训练分布式执行框架,实现多无人机安全高效协同数据采集和航迹优化.通过设计竞争候选节点队列机制,避免多架无人机同时服务一个节点导致的信号干扰和飞行安全问题,并通过奖励重塑优化规划轨迹,提高数据采集效率;同时采用网络结构优化和混合优先经验回放,提高无人机在复杂环境下的学习效率,提升决策能力.实验结果表明,所提出的RL-DC算法在各种任务环境中的成功率均能达到90%以上,节点服务率均大于98%,性能优于其他同类算法.; 来源：详细信息评论

基于深度强化学习的无线传感器充电策略: 收藏
分享
引用; 《机械设计与制造》2025年第1期407卷 197-203页; 作者：匡孟秋湖南财经工业职业技术学院湖南衡阳421200; 为了满足每个传感器的及时充电需求,提出了一种基于深度强化学习的无线传感器充电策略。首先将传感器节点的实时充电需求建模为时间窗,并且引入充电奖励作为指标评价充电质量。调度移动充电器对传感器进行充电目的是使死区节点数和移动...; 为了满足每个传感器的及时充电需求,提出了一种基于深度强化学习的无线传感器充电策略。首先将传感器节点的实时充电需求建模为时间窗,并且引入充电奖励作为指标评价充电质量。调度移动充电器对传感器进行充电目的是使死区节点数和移动充电器的移动距离最小,并且使其在充电过程中获得的充电报酬之和最大化。进一步引入深度强化学习技术实现移动充电器的最优路径。最后,仿真结果证明了提出的方法能够实现传感器的及时充电。; 来源：详细信息评论

考虑自注意力和时序记忆的深度强化学习配电网无功电压控制策略: 收藏
分享
引用; 《中国电机工程学报》2025年第2期45卷 565-576,I0014页; 作者：刘硕冯斌郭创新籍雯媗王炜张勇浙江大学电气工程学院浙江省杭州市310027 国家电网有限公司华北分部北京市西城区100053; 大量分布式新能源的接入,导致配电网面临电压越限、网损增加等严峻挑战。针对无功电压控制问题,深度强化学习能够有效解决传统优化方法在模型依赖和求解速度方面的不足。然而现有深度强化学习方法在面对大规模配网复杂场景时,特征提取...; 大量分布式新能源的接入,导致配电网面临电压越限、网损增加等严峻挑战。针对无功电压控制问题,深度强化学习能够有效解决传统优化方法在模型依赖和求解速度方面的不足。然而现有深度强化学习方法在面对大规模配网复杂场景时,特征提取能力有限,控制效果欠佳,因此该文提出一种考虑自注意力和时序记忆的多智能体深度强化学习控制策略。首先,将无功电压控制问题建模为分布式部分可观测马尔可夫决策过程;其次,基于自注意力编码器和时序记忆神经元,设计了特征提取网络、辅助训练网络、改进策略网络和改进价值网络4种神经网络结构;然后,引入自监督学习,介绍所提算法的中心式训练和分布式执行过程;最后,在改进的IEEE 141节点配网系统上进行了算例测试。实验结果表明,所提控制策略能够有效提取状态特征、记忆时序信息、辨识关键元件,表现出更加优异的稳压减损控制效果,同时具有较好的鲁棒性、可解释性和训练稳定性。; 来源：详细信息评论

基于场景法和深度强化学习的电氢耦合系统两阶段多时间尺度优化调度: 收藏
分享
引用; 《浙江电力》2025年第1期44卷 54-67页; 作者：陈哲韦美佳林达李志浩陈健国网浙江省电力有限公司电力科学研究院杭州310014 电网智能化调度与控制教育部重点实验室(山东大学)济南250061; 电氢耦合系统中风光出力存在波动性,且电能与氢能调度时间尺度也具有差异性,这些因素给系统的经济、高效调度带来诸多挑战。为此,基于场景法和深度强化学习提出一种考虑风光不确定性的电氢耦合系统两阶段多时间尺度优化调度方法。首先...; 电氢耦合系统中风光出力存在波动性,且电能与氢能调度时间尺度也具有差异性,这些因素给系统的经济、高效调度带来诸多挑战。为此,基于场景法和深度强化学习提出一种考虑风光不确定性的电氢耦合系统两阶段多时间尺度优化调度方法。首先分析储电与储氢等储能装置的工作特性,设计电氢耦合系统两阶段优化调度框架。然后考虑风光不确定性,构建长时间尺度和短时间尺度两阶段优化调度模型;长时间尺度优化模型以系统能量最大程度自平衡为目标,采用拉丁超立方场景生成和场景缩减得到典型风光出力场景,并进行优化求解;短时间尺度优化模型以系统运行经济性最优为目标,采用深度确定性策略梯度算法求解。最后,通过算例仿真表明所提优化调度方法能够实现氢能日间转移、有效平抑风光出力波动,验证了方法的有效性。; 来源：详细信息评论

改进奖励函数的深度强化学习路径规划方法: 收藏
分享
引用; 《计算机应用与软件》2025年第1期42卷 271-276页; 作者：桑垚马晓宁中国民航大学计算机科学与技术学院天津300300; 针对深度强化学习在路径规划问题中的稀疏奖励问题,提出一种基于潜能奖励函数的深度强化学习模型。该模型通过设计新的奖励函数,提高奖励密度和样本利用率,减少训练难度,提升智能体在不同地图中的寻路成功率。仿真结果表明,改进后的模...; 针对深度强化学习在路径规划问题中的稀疏奖励问题,提出一种基于潜能奖励函数的深度强化学习模型。该模型通过设计新的奖励函数,提高奖励密度和样本利用率,减少训练难度,提升智能体在不同地图中的寻路成功率。仿真结果表明,改进后的模型在简单地图上路径规划成功率提高7.08百分点,在复杂地图上规划成功率提高12.60百分点;与最先进的算法对比,寻路成功率近似,但规划路径结果的长度较短。; 来源：详细信息评论

基于深度强化学习的游戏智能引导算法: 收藏
分享
引用; 《吉林大学学报(理学版)》2025年第1期63卷 91-98页; 作者：白天吕璐瑶李储何加亮吉林大学计算机科学与技术学院长春130012 吉林大学软件学院长春130012 大连民族大学信息与通信工程学院辽宁大连116600; 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输...; 针对传统游戏智能体算法存在模型输入维度大及训练时间长的问题,提出一种结合状态信息转换与奖励函数塑形技术的新型深度强化学习游戏智能引导算法.首先,利用Unity引擎提供的接口直接读取游戏后台信息,以有效压缩状态空间的维度,减少输入数据量;其次,通过精细化设计奖励机制,加速模型的收敛过程;最后,从主观定性和客观定量两方面对该算法模型与现有方法进行对比实验,实验结果表明,该算法不仅显著提高了模型的训练效率,还大幅度提高了智能体的性能.; 来源：详细信息评论

基于深度强化学习的工业物联网路由优化方法: 收藏
分享
引用; 《物联网技术》2025年第2期15卷 82-84页; 作者：莫丽娟张梦榛黄河水利职业技术学院河南开封475000; 常规的工业物联网路由优化协议多以独立形式设定,链路利用率大幅度降低,为此提出了基于深度强化学习的工业物联网路由优化方法。根据当前的路由优化需求,先进行实时监测节点部署及路由运行数据采集,采用多阶的方式扩大覆盖范围,制定多...; 常规的工业物联网路由优化协议多以独立形式设定,链路利用率大幅度降低,为此提出了基于深度强化学习的工业物联网路由优化方法。根据当前的路由优化需求,先进行实时监测节点部署及路由运行数据采集,采用多阶的方式扩大覆盖范围,制定多阶路由协议,后以此为基础,构建工业物联网路由优化模型,采用离散化辅助处理实现路由优化。最终测试结果表明:应用所提方法,最终得出的链路利用率提升比均可以达到5.5以上,所设计方法的针对性更强,应用效果更佳。; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：