تُعَد اتصالات الموجات المليمترية (mmWave) حلولاً مبتكرة لشبكات الجيل الخامس وما بعدها، نظرًا للتطورات السريعة في عالم الاتصالات. تقدم هذه الورقة شبكة وصول راديوي سحابي غير متجانسة (HC-RAN) تستخدم نطاقات تردد الموجات المليمترية والأقل من 6 جيجاهرتز لتلبية هذه الحاجة. يتم تقديم ارتباطات المستخدمين بوحدات رؤوس الراديو البعيدة (RRHs) للتخفيف من التداخل وتعظيم إنتاجية الشبكة باستخدام خوارزمية (Q-Learning). توفر عمليات النشر العشوائية لوحدات رؤوس الراديو البعيدة تغطية وإنتاجية متفوقة بسبب التنوع المكاني وانخفاض فقدان المسار. على العكس من ذلك، تتطلب عمليات النشر على الحافة المزيد من الموارد للتعامل مع متطلبات حركة المرور، يلعب النشر الاستراتيجي لمواقع خلايا الموجات المليمترية دورًا حاسمًا في تعزيز تغطية الشبكة ومعدلها، بالإضافة إلى التخفيف من التداخل بناءً على ارتباطات المستخدمين بوحدات رؤوس الراديو البعيدة والاستخدام الحكيم لتقنيات التعلم الآلي. تتفوق خوارزمية (Q-Learning) المقترحة القائمة على ارتباطات المستخدمين بوحدات رؤوس الراديو البعيدة من خلال توليد قائمة أولوية لوحدات رؤوس الراديو البعيدة مرتبة وفقًا لأقل خسارة في المسار على خوارزمية (Q-Learning) أخرى تقوم على ارتباط المستخدمين بالخلايا من خلال توليد قائمة أولوية لمحطات (5G-NodeBs) مرتبة وفقًا لمعدل نسبة الإشارة إلى التداخل والضوضاء(SINR)، ونلاحظ التفوق في زيادة معدل الإنتاجية لكل مستخدم بنحو 66.4٪ و 21٪ على التوالي عند أقل عدد من المستخدمين. يتناقص الفرق تدريجيًا مع زيادة عدد المستخدمين حتى يصل إلى 8.7٪ و 9.8٪ على التوالي، ويظل الفرق ملحوظًا حتى مع زيادة عدد المستخدمين، وأثبتت نتائج محاكاة (Q-Learning) لتنفيذ استراتيجيات ارتباطات المستخدمين بوحدات رؤوس الراديو البعيدة فعاليتها في تحسين أداء الشبكة والتكيف مع أحمال المرور المتنوعة.