Do not unroll loops for jacobian computation #504

IgorBaratta · 2022-06-23T09:43:15Z

Compilers are able to unroll small loops
The loop form is more suited for sum-factorization

Generates:

  double J_c4 = 0.0;
  double J_c8 = 0.0;
  double J_c5 = 0.0;
  double J_c7 = 0.0;
  double J_c0 = 0.0;
  double J_c1 = 0.0;
  double J_c6 = 0.0;
  double J_c3 = 0.0;
  double J_c2 = 0.0;
  for (int ic = 0; ic < 4; ++ic)
  {
    J_c4 += coordinate_dofs[ic * 3 + 1] * FE9_C1_D010_Q421[0][0][0][ic];
    J_c8 += coordinate_dofs[ic * 3 + 2] * FE9_C2_D001_Q421[0][0][0][ic];
    J_c5 += coordinate_dofs[ic * 3 + 1] * FE9_C2_D001_Q421[0][0][0][ic];
    J_c7 += coordinate_dofs[ic * 3 + 2] * FE9_C1_D010_Q421[0][0][0][ic];
    J_c0 += coordinate_dofs[ic * 3] * FE8_C0_D100_Q421[0][0][0][ic];
    J_c1 += coordinate_dofs[ic * 3] * FE9_C1_D010_Q421[0][0][0][ic];
    J_c6 += coordinate_dofs[ic * 3 + 2] * FE8_C0_D100_Q421[0][0][0][ic];
    J_c3 += coordinate_dofs[ic * 3 + 1] * FE8_C0_D100_Q421[0][0][0][ic];
    J_c2 += coordinate_dofs[ic * 3] * FE9_C2_D001_Q421[0][0][0][ic];
  }

Instead of:

const double J_c4 = coordinate_dofs[1] * FE9_C1_D010_Q421[0][0][0][0] + coordinate_dofs[4] * FE9_C1_D010_Q421[0][0][0][1] + coordinate_dofs[7] * FE9_C1_D010_Q421[0][0][0][2] + coordinate_dofs[10] * FE9_C1_D010_Q421[0][0][0][3];
const double J_c8 = coordinate_dofs[2] * FE9_C2_D001_Q421[0][0][0][0] + coordinate_dofs[5] * FE9_C2_D001_Q421[0][0][0][1] + coordinate_dofs[8] * FE9_C2_D001_Q421[0][0][0][2] + coordinate_dofs[11] * FE9_C2_D001_Q421[0][0][0][3];
const double J_c5 = coordinate_dofs[1] * FE9_C2_D001_Q421[0][0][0][0] + coordinate_dofs[4] * FE9_C2_D001_Q421[0][0][0][1] + coordinate_dofs[7] * FE9_C2_D001_Q421[0][0][0][2] + coordinate_dofs[10] * FE9_C2_D001_Q421[0][0][0][3];
const double J_c7 = coordinate_dofs[2] * FE9_C1_D010_Q421[0][0][0][0] + coordinate_dofs[5] * FE9_C1_D010_Q421[0][0][0][1] + coordinate_dofs[8] * FE9_C1_D010_Q421[0][0][0][2] + coordinate_dofs[11] * FE9_C1_D010_Q421[0][0][0][3];
const double J_c0 = coordinate_dofs[0] * FE8_C0_D100_Q421[0][0][0][0] + coordinate_dofs[3] * FE8_C0_D100_Q421[0][0][0][1] + coordinate_dofs[6] * FE8_C0_D100_Q421[0][0][0][2] + coordinate_dofs[9] * FE8_C0_D100_Q421[0][0][0][3];
const double J_c1 = coordinate_dofs[0] * FE9_C1_D010_Q421[0][0][0][0] + coordinate_dofs[3] * FE9_C1_D010_Q421[0][0][0][1] + coordinate_dofs[6] * FE9_C1_D010_Q421[0][0][0][2] + coordinate_dofs[9] * FE9_C1_D010_Q421[0][0][0][3];
const double J_c6 = coordinate_dofs[2] * FE8_C0_D100_Q421[0][0][0][0] + coordinate_dofs[5] * FE8_C0_D100_Q421[0][0][0][1] + coordinate_dofs[8] * FE8_C0_D100_Q421[0][0][0][2] + coordinate_dofs[11] * FE8_C0_D100_Q421[0][0][0][3];
const double J_c3 = coordinate_dofs[1] * FE8_C0_D100_Q421[0][0][0][0] + coordinate_dofs[4] * FE8_C0_D100_Q421[0][0][0][1] + coordinate_dofs[7] * FE8_C0_D100_Q421[0][0][0][2] + coordinate_dofs[10] * FE8_C0_D100_Q421[0][0][0][3];
const double J_c2 = coordinate_dofs[0] * FE9_C2_D001_Q421[0][0][0][0] + coordinate_dofs[3] * FE9_C2_D001_Q421[0][0][0][1] + coordinate_dofs[6] * FE9_C2_D001_Q421[0][0][0][2] + coordinate_dofs[9] * FE9_C2_D001_Q421[0][0][0][3];

chrisrichardson · 2022-06-23T11:40:43Z

I guess this is OK, but I wonder if it makes much difference.
Which kernels will benefit from it? Surely all the time is spent in the main quadrature loop.

IgorBaratta · 2022-06-23T11:42:17Z

I guess this is OK, but I wonder if it makes much difference. Which kernels will benefit from it? Surely all the time is spent in the main quadrature loop.

Not much difference for simplices, but for sum factorization we need this loop structure.

IgorBaratta added 4 commits June 23, 2022 10:40

use loop for jacobian computation instead of linear combination

3fe96c6

remove print

070f59f

fix flake8

c6d241e

fix doc style

be288ce

IgorBaratta marked this pull request as draft June 23, 2022 09:46

IgorBaratta added 4 commits June 23, 2022 11:20

fix dimensions

dbd31a4

fix flake8

3f10198

fix doc style

33e0ce8

fix flake8

a625f6a

IgorBaratta marked this pull request as ready for review June 23, 2022 10:37

IgorBaratta requested review from garth-wells and chrisrichardson June 23, 2022 10:37

garth-wells approved these changes Jun 23, 2022

View reviewed changes

fix dS integral

38853ab

chrisrichardson approved these changes Jun 23, 2022

View reviewed changes

IgorBaratta merged commit 1a53553 into main Jun 23, 2022

IgorBaratta deleted the igor/jacobian_loop branch June 23, 2022 12:06

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Do not unroll loops for jacobian computation #504

Do not unroll loops for jacobian computation #504

IgorBaratta commented Jun 23, 2022 •

edited

Loading

chrisrichardson commented Jun 23, 2022

IgorBaratta commented Jun 23, 2022

Do not unroll loops for jacobian computation #504

Do not unroll loops for jacobian computation #504

Conversation

IgorBaratta commented Jun 23, 2022 • edited Loading

chrisrichardson commented Jun 23, 2022

IgorBaratta commented Jun 23, 2022

IgorBaratta commented Jun 23, 2022 •

edited

Loading