llvm · aleksandar-amd · Aug 13, 2025 · arsenm · Sep 23, 2025 · nhaehnle
diff --git a/llvm/include/llvm/IR/IntrinsicsAMDGPU.td b/llvm/include/llvm/IR/IntrinsicsAMDGPU.td
@@ -886,6 +886,11 @@ def int_amdgcn_bitop3 :
                         [LLVMMatchType<0>, LLVMMatchType<0>, LLVMMatchType<0>, llvm_i32_ty],
                         [IntrNoMem, IntrSpeculatable, ImmArg<ArgIndex<3>>]>;
 
+def int_amdgcn_v_alignbit :
+  DefaultAttrsIntrinsic<[llvm_i32_ty],
+                        [llvm_i32_ty, llvm_i32_ty, llvm_i32_ty],
+                        [IntrNoMem, IntrSpeculatable, IntrWillReturn]>;
+
 } // TargetPrefix = "amdgcn"
 
 // New-style image intrinsics

diff --git a/llvm/lib/Target/AMDGPU/AMDGPUCodeGenPrepare.cpp b/llvm/lib/Target/AMDGPU/AMDGPUCodeGenPrepare.cpp
@@ -253,6 +253,7 @@ class AMDGPUCodeGenPrepareImpl
   bool visitIntrinsicInst(IntrinsicInst &I);
   bool visitFMinLike(IntrinsicInst &I);
   bool visitSqrt(IntrinsicInst &I);
+  bool visitFunnelShift(IntrinsicInst &I);
   bool run();
 };
 
@@ -1913,6 +1914,9 @@ bool AMDGPUCodeGenPrepareImpl::visitIntrinsicInst(IntrinsicInst &I) {
     return visitFMinLike(I);
   case Intrinsic::sqrt:
     return visitSqrt(I);
+  case Intrinsic::fshr:
+  case Intrinsic::fshl:
+    return visitFunnelShift(I);
   default:
     return false;
   }
@@ -2103,6 +2107,37 @@ PreservedAnalyses AMDGPUCodeGenPreparePass::run(Function &F,
   return PA;
 }
 
+bool AMDGPUCodeGenPrepareImpl::visitFunnelShift(IntrinsicInst &I) {
+  if (!I.getType()->isIntegerTy(32))
+    return false;
+
+  // Only convert divergent operations to v_alignbit
+  if (UA.isUniform(&I))
+    return false;
+
+  Intrinsic::ID IID = I.getIntrinsicID();
+  Value *Src0 = I.getOperand(0);
+  Value *Src1 = I.getOperand(1);
+  Value *Amt = I.getOperand(2);
+
+  IRBuilder<> Builder(&I);
+  Function *AlignBitFn = Intrinsic::getOrInsertDeclaration(
+      I.getModule(), Intrinsic::amdgcn_v_alignbit);
+
+  Value *AlignBitCall = nullptr;
+  if (IID == Intrinsic::fshr)
+    AlignBitCall = Builder.CreateCall(AlignBitFn, {Src0, Src1, Amt});
+  else if (IID == Intrinsic::fshl) {
+    Value *InvAmt = Builder.CreateSub(Builder.getInt32(32), Amt);
+    AlignBitCall = Builder.CreateCall(AlignBitFn, {Src1, Src0, InvAmt});
+  } else
+    return false;
+
+  I.replaceAllUsesWith(AlignBitCall);
+  I.eraseFromParent();
+  return true;
+}
+
 INITIALIZE_PASS_BEGIN(AMDGPUCodeGenPrepare, DEBUG_TYPE,
                       "AMDGPU IR optimizations", false, false)
 INITIALIZE_PASS_DEPENDENCY(AssumptionCacheTracker)

diff --git a/llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp b/llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
@@ -487,12 +487,16 @@ AMDGPUTargetLowering::AMDGPUTargetLowering(const TargetMachine &TM,
     setOperationAction({ISD::ADDC, ISD::SUBC, ISD::ADDE, ISD::SUBE}, VT, Legal);
   }
 
-  // The hardware supports 32-bit FSHR, but not FSHL.
-  setOperationAction(ISD::FSHR, MVT::i32, Legal);
+  if (Subtarget->isGCN()) {
+    setOperationAction(ISD::FSHR, MVT::i32, Expand);
+    setOperationAction(ISD::ROTR, {MVT::i32, MVT::i64}, Expand);
+  } else {
+    setOperationAction(ISD::FSHR, MVT::i32, Legal);
+    setOperationAction(ISD::ROTR, {MVT::i32, MVT::i64}, Legal);
+  }
 
   // The hardware supports 32-bit ROTR, but not ROTL.
   setOperationAction(ISD::ROTL, {MVT::i32, MVT::i64}, Expand);
-  setOperationAction(ISD::ROTR, MVT::i64, Expand);
 
   setOperationAction({ISD::MULHU, ISD::MULHS}, MVT::i16, Expand);
 

diff --git a/llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp b/llvm/lib/Target/AMDGPU/AMDGPULegalizerInfo.cpp
@@ -2064,7 +2064,6 @@ AMDGPULegalizerInfo::AMDGPULegalizerInfo(const GCNSubtarget &ST_,
 
   // TODO: Only Try to form v2s16 with legal packed instructions.
   getActionDefinitionsBuilder(G_FSHR)
-    .legalFor({{S32, S32}})
     .lowerFor({{V2S16, V2S16}})
     .clampMaxNumElementsStrict(0, S16, 2)
     .scalarize(0)

diff --git a/llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp b/llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
@@ -4824,6 +4824,7 @@ AMDGPURegisterBankInfo::getInstrMapping(const MachineInstr &MI) const {
     case Intrinsic::amdgcn_perm_pk16_b4_u4:
     case Intrinsic::amdgcn_perm_pk16_b6_u4:
     case Intrinsic::amdgcn_perm_pk16_b8_u4:
+    case Intrinsic::amdgcn_v_alignbit:
       return getDefaultMappingVOP(MI);
     case Intrinsic::amdgcn_log:
     case Intrinsic::amdgcn_exp2:

diff --git a/llvm/lib/Target/AMDGPU/SIInstructions.td b/llvm/lib/Target/AMDGPU/SIInstructions.td
@@ -2612,6 +2612,38 @@ def : GCNPat<(fshr i32:$src0, i32:$src1, i32:$src2),
 >;
 } // end True16Predicate = UseFakeTrue16Insts
 
+let True16Predicate = NotHasTrue16BitInsts in {
+let SubtargetPredicate = isNotGFX9Plus in {
+def : GCNPat<(i32 (int_amdgcn_v_alignbit i32:$src0, i32:$src1, i32:$src2)),
+             (V_ALIGNBIT_B32_e64 VSrc_b32:$src0, VSrc_b32:$src1, VSrc_b32:$src2)>;
+} // isNotGFX9Plus
+
+let SubtargetPredicate = isGFX9GFX10 in {
+def : GCNPat<(i32 (int_amdgcn_v_alignbit i32:$src0, i32:$src1, i32:$src2)),
+             (V_ALIGNBIT_B32_opsel_e64 /* src0_modifiers */ 0, $src0,
+                                       /* src1_modifiers */ 0, $src1,
+                                       /* src2_modifiers */ 0,
+                                       $src2, /* clamp */ 0, /* op_sel */ 0)>;
+} // isGFX9GFX10
+} // end True16Predicate = NotHasTrue16BitInsts
+
+let True16Predicate = UseRealTrue16Insts in {
+def : GCNPat<(i32 (int_amdgcn_v_alignbit i32:$src0, i32:$src1, i32:$src2)),
+             (V_ALIGNBIT_B32_t16_e64 /* src0_modifiers */ 0, $src0,
+                                     /* src1_modifiers */ 0, $src1,
+                                     /* src2_modifiers */ 0,
+                                     (EXTRACT_SUBREG $src2, lo16),
+                                     /* clamp */ 0, /* op_sel */ 0)>;
+} // end True16Predicate = UseRealTrue16Insts
+
+let True16Predicate = UseFakeTrue16Insts in {
+def : GCNPat<(i32 (int_amdgcn_v_alignbit i32:$src0, i32:$src1, i32:$src2)),
+             (V_ALIGNBIT_B32_fake16_e64 /* src0_modifiers */ 0, $src0,
+                                        /* src1_modifiers */ 0, $src1,
+                                        /* src2_modifiers */ 0,
+                                        $src2, /* clamp */ 0, /* op_sel */ 0)>;
+} // end True16Predicate = UseFakeTrue16Insts
+
 /********** ====================== **********/
 /**********   Indirect addressing  **********/
 /********** ====================== **********/