PCIE_DMA例項五:基於XILINX XDMA的PCIE高速採集卡

俞則人發表於2020-10-01

PCIE_DMA例項五:基於XILINX XDMA的PCIE高速採集卡

一:前言

這一年關於PCIE高速採集卡的業務量激增,究其原因,發現百度“xilinx pcie dma”,出來的都是本人的部落格。前期的博文主要以教程為主,教大家如何理解PCIE協議以及如何正確使用PCIE相關的IP核,因為涉及到商業道德,本人不能將公司自研的IP核以及相關工程應用放到網上。但為了滿足大家對PCIE高速採集卡這塊的業務需求,博主特地利用業餘時間,使用XDMA這個xilinx官方IP,配合xilinx提供的linux驅動,在KC705開發板上實現了一套高速採集系統,該系統可對前端ADC產生的不大於2GB/s的連續或非連續資料進行實時採集,同時該採集卡具備資料傳送功能,可以將使用者檔案或者記憶體中的資料寫到FPGA的傳送FIFO中,速率約為2GB/s,該採集卡具備上位機讀寫FPGA使用者暫存器的功能,讀寫介面為local bus介面,方便易用。當然,如果您的高速採集卡需要大於2GB/s的採集速率,那博主只能拿出壓箱底的另一套QDMA採集系統了,該系統在VC709上具備6.1GB/s的連續採集能力,要知道VC709的PCIE理論頻寬都只有6.4GB/s,高達95%的傳輸效率真的很恐怖了,當然這套QDMA採集系統能有如此威力,主要拜FPGA大神馬克傑所賜,馬哥寫的驅動充分發揮了系統的最大效能,吊打Xilinx的官方驅動。

二:前期準備

1、XILINX KC705開發板

2、pg195-pcie-dma.pdf

3、Vivado2018.2套件

4、X86主機一臺,安裝64位centos7.4 1708作業系統

5、XDMA linux驅動2018版本,GitHub上有下載。

三:系統框圖

採集卡系統框圖

從左到右從上到下依次介紹模組以及相應功能

1.data_gen

此模組模擬ADC產生的流資料,在本系統中,取樣時鐘250M,模擬AD資料位寬64位,故AD實時取樣速率為2GB/s,可通過Send_En隨時中止或繼續資料產生。

2.axis data width converter

此模組將流資料64位位寬轉換成128位位寬,時鐘250M。

3.axis data fifo

此模組為流資料緩衝FIFO,深度不大,128足矣,真正的快取要靠ddr完成。 

4.YDMA

此模組為博主自己寫的採集卡DMA控制器,該控制器的功能主要分四塊:一,將收到的ST資料(axis介面)轉換成MM資料(axi介面)寫入DDR3;二,將需要傳送的MM資料(axi介面)從DDR3中取出後轉換成ST資料(axis介面)供使用者使用;三,將XDMA輸出的BYPASS介面轉換成local_bus介面供使用者讀寫暫存器使用;四,中斷控制器,將寫DDR和讀DDR產生的中斷送給XDMA,使用者可設定包大小,中斷包個數,中斷超時時間。

5.user_reg_define

此模組為使用者暫存器讀寫模組,讀寫介面為local bus介面,此用例中我們用它來配置Send_En。

6.axis_data_check

此模組用來校驗上位機發下來的資料。

7.XDMA

此模組由上位機驅動控制,通過PCIE以SG_DMA的方式讀寫DDR3中的資料。

8.memory interface generator

此模組為DDR3控制器,使用AXI介面。

綜上,整個採集卡包含兩個方向的資料流向:FPGA>>PC:

data_gen->data_fifo->YDMA->DDR3->XDMA    

PC>>FPGA:XDMA->DDR3->YDMA->data_check

當然FPGA邏輯部分最大的難點就在YDMA上,為了滿足對任意包長、任意間隔的連續或非連續資料進行實時採集,需要產生大量的中斷以及與之相對應的ddr快取地址和快取長度等中斷資訊,但XDMA驅動最大的bug恰恰出在中斷上,為了規避XDMA的中斷bug,又要提升整體的採集效能,需要對中斷控制做精細設計。同時,對於那些突發的狀況,比如採集資料突然中斷的情況、急停急起的情況,都需要通過邏輯和軟體的相互配合,才能跑出令人滿意的採集效果。至於PC往FPGA發資料這個功能對於採集卡來說是錦上添花而已。因為有客戶提出,需要將採集到的資料做處理,處理完後通過FPGA再發到另一個裝置上,故我在YDMA上做了一個發資料的功能,使用者介面也是大家最熟悉易用的axis(fifo)介面。因為YDMA包含一定技術含量,故該採集系統不能免費提供給大家,需要的使用者可以聯絡我談價格。

四:軟體設計

XDMA的驅動是官方提供的,這裡不做詳細解讀,總之XDMA驅動就是把PCIE DMA包成了多種字元裝置:xdma_h2c,xdma_c2h,xdma_user,xdma_control,xdma_bypass,xdma_events

經過本人測試使用,我只推薦使用xdma_h2c,xdma_c2h,xdma_bypass,xdma_events這四個字元裝置。xdma_h2c用來把資料從記憶體寫到FPGA的DDR,xdma_c2h用來把資料從FPGA的DDR讀到記憶體,xdma_bypass用來配置FPGA的使用者暫存器,xdma_events用來讀取使用者中斷。

下面我們來看看採集卡的測試程式我們是怎麼寫的,裡面給出了詳細的註釋:

#define _BSD_SOURCE
#define _XOPEN_SOURCE 500
#include <assert.h>
#include <time.h>
#include <fcntl.h>
#include <getopt.h>
#include <stdint.h>
#include <string.h>
#include <unistd.h>

#include <stdio.h>
#include <stdlib.h>
#include <fcntl.h>
#include <memory.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <sys/ioctl.h>
#include <sys/time.h>
#include <sys/resource.h>
#include <sys/wait.h>
#include <pthread.h>
#include <sched.h>
#include <semaphore.h>
#include <sys/mman.h>
#include <errno.h>


//#include "dma_utils.c"

#define FATAL do { fprintf(stderr, "Error at line %d, file %s \n", __LINE__, __FILE__); exit(1); } while(0)
 

#define DEVICE_NAME_H2C "/dev/xdma0_h2c_0"
#define DEVICE_NAME_C2H "/dev/xdma0_c2h_0"
#define DEVICE_NAME_REG "/dev/xdma0_bypass"

#define MAP_SIZE (1*1024*1024)
#define MAP_MASK (MAP_SIZE - 1)

#define     RCV_EN_CMD      0 
#define     RX_DM_RST    1
struct timezone tz_time;
struct timeval tv_time3;
struct timeval tv_time4;
pthread_t rcv_tid ;
pthread_t print_sta_id;
pthread_t event_thread;
int work = 0 ;
int lxcj =0;
int int_rc;
unsigned int lastData = 0;
unsigned int rcvPktNum = 0;
unsigned long rcvBytes = 0;
unsigned long rcvBytes_l = 0;
unsigned int errnum = 0 ;
int c2h_fd ;
int h2c_fd ;
int control_fd;
int interrupt_fd;
void *control_base;
static sem_t int_sem_rx;
static sem_t int_sem_tx;
char *device_c2h = DEVICE_NAME_C2H;
char *device_h2c = DEVICE_NAME_H2C;
char *device_reg = DEVICE_NAME_REG;

static void write_control(void *base_addr,int offset,uint32_t val);//寫使用者暫存器
static uint32_t read_control(void *base_addr,int offset);//讀使用者暫存器
/*開中斷*/
int open_event(char *devicename)
{
int fd;
fd=open(devicename,O_RDWR|O_SYNC );
if(fd==-1)
{printf("open event error\n");
 return -1;} 
return fd;
}
/*獲取使用者中斷*/
int read_event(int fd)
{
int val;
read(fd,&val,4);
return val;
}
/*開啟字元裝置*/
static int open_control(char *filename)
{
    int fd;
    fd = open(filename, O_RDWR | O_SYNC);
    if(fd == -1)
    {
        printf("open control error\n");
        return -1;
    }
    return fd;
}
/*獲取裝置對應的記憶體對映地址*/
static void *mmap_control(int fd,long mapsize)
{
    void *vir_addr;
    vir_addr = mmap(0, mapsize, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0);
    return vir_addr;
}
/*寫使用者暫存器*/
static void write_control(void *base_addr,int offset,uint32_t val)
{
    //uint32_t writeval = htoll(val);
    *((uint32_t *)(base_addr+offset)) = val;
}
/*讀使用者暫存器*/
static uint32_t read_control(void *base_addr,int offset)
{
    uint32_t read_result = *((uint32_t *)(base_addr+offset));
    //read_result = ltohl(read_result);
    return read_result;
}


/*列印程式,5秒列印一次統計資訊,包含收到的包個數,錯誤包個數,以及當前的採集速率*/
void *printStatus()
{
    unsigned int lostNum = 0 ;
    unsigned int allNum  = 0 ;
    while( work ==1) 
        {
            sleep(5);
            printf("rcvPkt[%8x], err[%8x] , rate[%d]MBps\n",   rcvPktNum, errnum , (rcvBytes-rcvBytes_l)/5/1000000 );
            rcvBytes_l = rcvBytes ;
            
        }
}

/*資料校驗,因為模擬ADC資料是累加數,故收到的當前包的第一個數應該是上一次包的第一個數加上上次包的長度*/
void checkData(unsigned int *add, unsigned int len)
{


    if(lastData != add[0]  & lastData!=0 ) 
        {
            errnum ++;
            if(errnum<20 )printf("l[%8x], n[%8x][%8x], [%8x], p[%x] , len[%d]\n",    lastData ,   add[0], add[1],     add[0] -  lastData ,  (add[0] -  lastData)/len  , len) ;

        }


    rcvBytes = rcvBytes + len ;
    lastData = add[0] + len/8 ;


}

/*ADC連續資料採集處理程式*/
void *procPkt( )
{
    int i;
    int rxint_rc;//接收中斷資訊暫存器返回值
    unsigned int * rxBuf;//接收資料存放的地址
    int  rxlen; //接收資料的長度
    int  c2h0_inbuf =0;
    c2h_fd= open(device_c2h, O_RDWR | O_NONBLOCK);//開啟xdma_c2h字元裝置

    posix_memalign((void **)&rxBuf, 1024, 8*1024*1024);//開一個8M的記憶體空間用於暫存接收資料
        
    printf("procAD up. \n" );
       while(       work ==1  )
        {
            if(lxcj==1)            
            { 
                //assert(c2h_fd >= 0);
                 sem_wait(&int_sem_rx); //等待使用者接收中斷        
                rxint_rc=read_control(control_base,0x10020);//從接收中斷暫存器中獲取接收中斷相關的中斷資訊
                int icnt;
                
                if((rxint_rc&0x80000000)>>31)  icnt= rxint_rc &0x00ffffff;//接收中斷暫存器bit31表示是否有接收中斷,bit23-bit0表示有幾個中斷包
                else continue;
                
                write_control(control_base,0x10020,icnt);//清中斷暫存器,寫入的內容為即將要處理的中斷包個數
           
                for(i=0;i<icnt;i++) //處理中斷包
                {   int count = read_control(control_base,0x10018);//讀接收中斷狀態FIFO,獲取當前中斷包的實際長度
                    off_t off = lseek(c2h_fd, c2h0_inbuf, SEEK_SET);//和FPGA協商好從DDR3的0地址開始存放接收資料,故軟體從0地址開始取資料
                    rxlen = read(c2h_fd, rxBuf, count);//從DDR中取出資料放入rxbuffer 
                    write_control(control_base,0x10018,1); //清接收中斷FIFO  
                    c2h0_inbuf = c2h0_inbuf + 0x400000 ;//本測試用例中設定的中斷包最大長度為4M
                    if(c2h0_inbuf==0x40000000)  c2h0_inbuf = 0;//當DDR3偏移達到1G的時候重新歸零
                    if(rxlen > 0) rcvPktNum ++ ;//統計接收包個數    
                       checkData(rxBuf ,  rxlen) ;//校驗接受到的包是否為連續數
                }    
            }


        }
        pthread_exit(0);  

}
/*寫資料程式,此用例中為傳送任意大小檔案*/
void h2c_process(char *filename)
{   
    h2c_fd= open(device_h2c, O_RDWR | O_NONBLOCK);//開啟xdma_h2c字元裝置
    assert(h2c_fd>0);
    uint32_t send_len;//單次資料包傳送長度,本測試用例中以4M為單位
    uint32_t send_addr=0x0; 
    int rc;
    int file_fd;
    uint64_t size;//傳送檔案的實際大小
    uint64_t snd_cnt;
    struct stat fileStat;
      file_fd = open(filename, O_RDONLY);//開啟傳送檔案
    assert(file_fd >= 0);
     rc= stat(filename, &fileStat );
      size = fileStat.st_size ; //獲取傳送檔案的大小
      snd_cnt =size;
      char *sendbuff = NULL;
      posix_memalign((void **)&sendbuff, 1024/*alignment*/, 8*1024*1024);//開一塊8M的記憶體空間

    gettimeofday(&tv_time3, &tz_time);
    while(size!=0)
    {
        sem_wait(&int_sem_tx);//等待傳送中斷訊號量,該訊號量初始值為9
        if(size>0x400000)  send_len = 0x400000;
        else send_len = size;
        off_t off_file = lseek(file_fd, send_addr, SEEK_SET);
        rc = read(file_fd, sendbuff, send_len);//將資料從檔案中讀到sendbuffer
           off_t off_h2c = lseek(h2c_fd, send_addr, SEEK_SET);  
        //printf("send_len=%d\n,sendbuff=%x\n",send_len,sendbuff);   
        rc = write(h2c_fd, sendbuff, send_len);//將sendbuffer中的資料傳送到DDR3
        write_control(control_base,0x11000,send_addr);//將DDR3資料快取地址寫入FPGA端的傳送地址暫存器
        write_control(control_base,0x11010,send_len); //將DDR3資料快取長度寫入FPGA端的傳送長度暫存器 
        //printf("rc=%d\n",rc);
        assert(rc == send_len);
        size = size - send_len;
        send_addr = send_addr + send_len;
        if(send_addr==0x40000000)  send_addr = 0;//傳送資料的DDR3快取偏移地址為1G時歸零
 
    }
gettimeofday(&tv_time4, &tz_time);  

printf("write done\n");
printf(" 時間 %ld useconds\n", (tv_time4.tv_sec - tv_time3.tv_sec) * 1000000 + tv_time4.tv_usec - tv_time3.tv_usec);
printf(" 資料量 %ld 位元組\n", snd_cnt);
printf(" 頻寬 %ld MB/s\n", snd_cnt / ((tv_time4.tv_sec - tv_time3.tv_sec) * 1000000 + tv_time4.tv_usec - tv_time3.tv_usec));

  if (file_fd >= 0)  close(file_fd);
  free(sendbuff);
}

/*中斷處理程式*/
void *event_process()
{
    int i;
    int txint_rc;
    interrupt_fd = open_event("/dev/xdma0_events_0");    //開啟使用者中斷
    while(work==1)
    {             
      read_event(interrupt_fd);  //獲取使用者中斷
      int_rc=read_control(control_base,0x00000); //讀總中斷暫存器
      switch(int_rc)
      {      
          case 1: //接收中斷
              sem_post(&int_sem_rx);  
            break;
          case 2: //傳送中斷
            txint_rc=read_control(control_base,0x11020); //從傳送中斷暫存器中獲取傳送中斷相關的中斷資訊
            int txicnt;                
            if((txint_rc&0x80000000)>>31)  txicnt= txint_rc &0x00ffffff;//傳送中斷暫存器bit31表示是否有傳送中斷,bit23-bit0表示發出了幾個中斷包
            else break;
            write_control(control_base,0x11020,txicnt);//清中斷暫存器,寫入的內容為即將要處理的中斷包個數
            for(i=0;i<txicnt;i++)  sem_post(&int_sem_tx); //為每個發出的中斷包釋放一個訊號量
            break;
          default: break;
      }                                                    
    }
    pthread_exit(0);  
}

int main(int argc, char *argv[])
{
  

    ssize_t rc;
    char  inp ;
    unsigned int * rxBuf;
    posix_memalign((void **)&rxBuf, 1024, 1024*1024*1024);

    control_fd = open_control("/dev/xdma0_bypass");//開啟bypass字元裝置
    control_base = mmap_control(control_fd,MAP_SIZE);//獲取bypass對映的記憶體地址
    //c2h_fd= open(device_c2h, O_RDWR | O_NONBLOCK);
    //h2c_fd= open(device_h2c, O_RDWR | O_NONBLOCK);
    sem_init(&int_sem_rx, 0, 0);
    sem_init(&int_sem_tx, 0, 9);
    work =1 ;
    pthread_create(&rcv_tid , NULL,  procPkt,  NULL);
    pthread_create(&print_sta_id, NULL, printStatus,  NULL );
    pthread_create(&event_thread, NULL, event_process, NULL);

    write_control(control_base,0x10028,0xFFFFFF08);//寫接收中斷控制暫存器,bit31-bit8為中斷超時時間,bit7-bit0為多少個包產生一次中斷
    write_control(control_base,0x11028,0xFFFFFF00);//寫傳送中斷控制暫存器,bit31-bit8為中斷超時時間,bit7-bit0為多少個包產生一次中斷
    char *file_write  = "/run/media/root/software/CentOS-7-x86_64-Everything-1708/CentOS-7-x86_64-Everything-1708.iso";
    while(inp!='o')
    {
      inp = getchar();
            switch(inp)
            {
            case 'w':
                h2c_process(file_write);
                break;        
            case 'r':   
                write_control(control_base,0x10030,4);//復位接收DMA
                rc=read( c2h_fd,  rxBuf, 1*1024);
                printf("rc=%x\n",rc);
                break;
            case 's':
                write_control(control_base,0x10030,4);//復位接收DMA
                lxcj=1;
                write_control(control_base,0x10038,1);//使能接收
                break;    
            case 'e':
                write_control(control_base,0x10038,0);//停止接收
                sleep(2);
                lxcj=0;
                break;
            case 't':   
                write_control(control_base,0x30008,1);//使能模擬ADC資料傳送
                break;
            case 'p':   
                write_control(control_base,0x30008,0);//暫停模擬ADC資料傳送
                break;
            case 'o':   
                write_control(control_base,0x10030,1);//復位接收DMA
                write_control(control_base,0x11030,1);//復位傳送DMA
                break;
            default: break;
            }

    }
    
    
    work =0 ;
out:
    close(c2h_fd);
    close(h2c_fd);
    return rc;
}

 

五:測試結果

本採集系統測試環境為X86主機,CPU為Intel 酷睿i7 8700K,FPGA選用xilinx公司的KC705開發板,作業系統為centos7.4 1708,核心版本3.10.0-693,博主最近會在windows上做一版測試程式,到時候分享給需要的朋友。

六:結束語

本博文展示的PCIE高速採集系統主要面向有這方面工程應用需求的朋友,不建議初學者作為學習使用。本人從事高速匯流排介面已七年有餘,積累了大量匯流排相關的FPGA設計經驗,主要涉及FC、rapidio、千兆、萬兆乙太網、lvds、mlvds、can、422、1553B。同時也可承接演算法加速或者視訊影像處理等相關專案。最後放上一段基於QDMA(非xilinx的官方IP)的PCIe高速採集卡在VC709上的測試結果,致敬前輩馬哥!

 

相關文章