簡(jiǎn)析XDP的重定向機(jī)制
一. XDP Socket示例解析
源碼參見(jiàn):https://github.com/xdp-project/xdp-tutorial/tree/master/advanced03-AF_XDP 該示例演示了如何通過(guò)BPF將網(wǎng)絡(luò)數(shù)據(jù)包從XDP Hook點(diǎn)旁路到用戶態(tài)的XDP Socket,解析過(guò)程中為突出重點(diǎn),將只關(guān)注重點(diǎn)代碼段,一些函數(shù)會(huì)被精簡(jiǎn),比如:錯(cuò)誤處理等。
二. BPF 程序 af_xdp_kern.c
BPF程序是運(yùn)行在內(nèi)核態(tài)的一段代碼,如下:
struct bpf_map_def SEC("maps") xsks_map = {
.type = BPF_MAP_TYPE_XSKMAP,
.key_size = sizeof(int),
.value_size = sizeof(int),
.max_entries = 64, /* Assume netdev has no more than 64 queues */
};
SEC("xdp_sock")
int xdp_sock_prog(struct xdp_md *ctx)
{
int index = ctx->rx_queue_index;
if (bpf_map_lookup_elem(&xsks_map, &index))
return bpf_redirect_map(&xsks_map, index, 0);
return XDP_PASS;
}
struct bpf_map_def SEC("maps") xsks_map?: 定義了一個(gè)BPF_MAP_TYPE_XSKMAP類型的映射表,當(dāng)采用SEC("maps")方式來(lái)顯示定義時(shí),將在生成的bpf目標(biāo)文件的ELF格式中看到相關(guān)描述,當(dāng)BPF程序被加載到內(nèi)核時(shí),會(huì)自動(dòng)創(chuàng)建名為“xsks_map”的描述符, 用戶態(tài)可通過(guò)查找“xsks_map”來(lái)獲取該map的描述符,這樣用戶態(tài)和內(nèi)核BPF程序就可以共同訪問(wèn)該map。
type = BPF_MAP_TYPE_XSKMAP:指定該map的類型,它與bpf_redirect_map() 結(jié)合使用以將收到的幀傳遞到指定套接字。
key_size = sizeof(int),value_size = sizeof(int):指定key,value長(zhǎng)度。
針對(duì)以上key,value需要說(shuō)明一下:對(duì)于BPF_MAP_TYPE_XSKMAP類型的map,value必須是XDP socket描述符,key必須是int類型,原因在于bpf_redirect_map()的第二個(gè)參數(shù),參見(jiàn)下面2.10。
max_entries = 64:指定map最多存儲(chǔ)64個(gè)元素。
SEC("xdp_sock"):指定prog函數(shù)符號(hào),應(yīng)用層可通過(guò)查找"xdp_sock"加載該prog,并綁定到指定網(wǎng)卡。
int xdp_sock_prog(struct xdp_md *ctx):當(dāng)網(wǎng)卡收到數(shù)據(jù)包時(shí),會(huì)在xdp hook點(diǎn)調(diào)用該函數(shù)。
int index = ctx->rx_queue_index: 獲取該數(shù)據(jù)包來(lái)自網(wǎng)卡到哪個(gè)rx隊(duì)列ID,ctx有許多成員,比如:網(wǎng)卡ID,數(shù)據(jù)幀等等。
if (bpf_map_lookup_elem(&xsks_map, &index)): 判斷xsks_map是否存在key為index(即rx隊(duì)列號(hào))的數(shù)據(jù),注意,這里實(shí)際上就是判斷該網(wǎng)卡是否綁定了xdp Socket。
bpf_redirect_map(&xsks_map, index, 0):bpf_redirect_map?函數(shù)作用就是重定向,比如:將數(shù)據(jù)重定向到某個(gè)網(wǎng)卡,CPU, Socket等等;當(dāng)bpf_redirect_map?函數(shù)的第一個(gè)參數(shù)的map類型為BPF_MAP_TYPE_XSKMAP時(shí),則表示將數(shù)據(jù)重定向到XDP Scoket。
bpf_redirect_map()會(huì)查找參數(shù)1即xsks_map 中 key為index 的 value 是否存在,若存在,則檢查value是否是一個(gè)XDP Scoket,并且是否綁定到了該網(wǎng)卡(可以綁定到任意有效隊(duì)列)。
綜合以上,該bpf程序?qū)崿F(xiàn)的功能就是:將收到的數(shù)據(jù)包重定向到xsks_map中指定的XDP Socket。
三. 用戶態(tài)程序 af_xdp_user.c
該程序?qū)崿F(xiàn)bpf加載到網(wǎng)卡,創(chuàng)建XDP Scoket并綁定到網(wǎng)卡的指定隊(duì)列,并通過(guò)XDP Scoket收發(fā)數(shù)據(jù),這里僅分析xXDP Scoket相關(guān)部分。
int main(int argc, char **argv)
{
...
bpf_obj = load_bpf_and_xdp_attach(&cfg);
map = bpf_object__find_map_by_name(bpf_obj, "xsks_map");
...
xsks_map_fd = bpf_map__fd(map);
...
umem = configure_xsk_umem(packet_buffer, packet_buffer_size);
...
xsk_socket = xsk_configure_socket(&cfg, umem);
...
rx_and_process(&cfg, xsk_socket);
...
}
static struct xsk_socket_info *xsk_configure_socket(struct config *cfg,
struct xsk_umem_info *umem)
{
...
ret = xsk_socket__create(&xsk_info->xsk, cfg->ifname,
cfg->xsk_if_queue, umem->umem, &xsk_info->rx,
&xsk_info->tx, &xsk_cfg);
...
bpf_obj = load_bpf_and_xdp_attach(&cfg): 加載bpf程序,并綁定到網(wǎng)卡。
map = bpf_object__find_map_by_name(bpf_obj, "xsks_map"): 查找bpf程序內(nèi)定義的xsks_map。
umem = configure_xsk_umem(packet_buffer, packet_buffer_size): 為XDP Scoket準(zhǔn)備UMEM。
xsk_configure_socket()通過(guò)調(diào)用bpf helper函數(shù)xsk_socket__create()創(chuàng)建XDP Scoket并綁定到cfg->ifname網(wǎng)卡的cfg->xsk_if_queue隊(duì)列,默認(rèn)情況下將該【cfg->xsk_if_queue, xsk_info->xsk fd】添加到xsks_map, 這樣bpf程序就可以重定向到該XDP Scoket(參見(jiàn)2.9, 2.10), 除非指定XSK_LIBBPF_FLAGS__INHIBIT_PROG_LOAD標(biāo)志。
static void rx_and_process(struct config *cfg,
struct xsk_socket_info *xsk_socket)
{
struct pollfd fds[2];
int ret, nfds = 1;
memset(fds, 0, sizeof(fds));
fds[0].fd = xsk_socket__fd(xsk_socket->xsk);
fds[0].events = POLLIN;
while(!global_exit) {
if (cfg->xsk_poll_mode) {
ret = poll(fds, nfds, -1);
if (ret <= 0 || ret > 1)
continue;
}
handle_receive_packets(xsk_socket);
}
}
XDP Scoket也是一個(gè)文件描述符,因此可以通過(guò)poll/epoll/select來(lái)等待IO事件,需要說(shuō)明的是:收/發(fā)的數(shù)據(jù)包是原始的以太網(wǎng)幀,因此在包處理上要麻煩一些。
四. 總結(jié)
以上簡(jiǎn)略分析了bpf程序如何將數(shù)據(jù)重定向到用戶態(tài)程序,通過(guò)xsks_map來(lái)實(shí)現(xiàn)bpf與用戶態(tài)程序的交互;
需要說(shuō)明的是,這些分析僅是梳理了淺層次的代碼,實(shí)際上BPF是如何將數(shù)據(jù)讀寫(xiě)到XDP Scoket收發(fā)緩沖區(qū)的呢?其實(shí)是通過(guò)創(chuàng)建共享內(nèi)存并關(guān)聯(lián)XDP Scoket的rx_ring,tx_ring,以及umem來(lái)實(shí)現(xiàn)的,后續(xù)繼續(xù)分析。
bpf程序通常都非常簡(jiǎn)單,復(fù)雜的是用戶態(tài)程序,此外,BPF有非常多的技術(shù)細(xì)節(jié),限于篇幅及主題不在此展開(kāi)。





















