基于RK3576开发板的OCR文字识别算法

发布时间：2025-05-08 13:46:16

1. OCR文字识别简介

文字识别也是图像领域一个常见问题。然而，对于自然场景图像，首先要定位图像中的文字位置，然后才能进行文字的识别。所以一般包含两个步骤：

文字检测：解决的问题是哪里有文字，文字的范围有多少。

文字识别：对定位好的文字区域进行识别，主要解决的问题是每个文字是什么，将图像中的文字区域进转化为字符信息。

我们的OCR算法是基于CTPN CRNN设计的。CTPN是一种文字检测算法，能有效的检测出复杂场景的横向分布的文字，是目前比较好的文字检测算法。CRNN算法主要用于端到端地对不定长的文本序列进行识别，不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题，就是基于图像的序列识别。

基于EASY-EAI-Orin-nano硬件主板的运行效率：

算法种类	模型大小	运行效率
文字检测算法	3.31MB	37ms
文字识别算法	6.19MB	3ms

2. 快速上手

如果您初次阅读此文档，请阅读：《入门指南/源码管理及编程介绍/源码工程管理》，按需管理自己工程源码（注：此文档必看，并建议采用【远程挂载管理】方式，否则有代码丢失风险！！！）。

2.1 开源码工程下载

先在PC虚拟机定位到nfs服务目录，再在目录中创建存放源码仓库的管理目录：

cd ~/nfsroot
mkdir GitHub
cd GitHub

再通过git工具，在管理目录内克隆远程仓库（需要设备能对外网进行访问）

git clone https://github.com/EASY-EAI/EASY-EAI-Toolkit-3576.git

注：

* 此处可能会因网络原因造成卡顿，请耐心等待。

* 如果实在要在gitHub网页上下载，也要把整个仓库下载下来，不能单独下载本实例对应的目录。

2.2 开发环境搭建

通过adb shell进入板卡开发环境，如下图所示。

通过以下命令，把nfs目录挂载上nfs服务器。

mount -t nfs -o nolock < nfs server ip >:< nfs path in server > /home/orin-nano/Desktop/nfs/

2.3 例程编译

然后定位到板卡的nfs的挂载目录(按照实际挂载目录)，进入到对应的例程目录执行编译操作，具体命令如下所示：

cd EASY-EAI-Toolkit-3576/Demos/algorithm-ocr/
./build.sh

2.4 模型部署

要完成算法Demo的执行，需要先下载法模型。

百度网盘链接为：https://pan.baidu.com/s/1g4kpLTgMnYm1xop9LFeMIw?pwd=1234 （提取码：1234 ）。

同时需要把下载的检测模型和识别模型复制粘贴到Release/目录：

2.5 例程运行及效果

进入开发板Release目录，执行下方命令，运行示例程序：

cd Release/
./test-ocr test.jpg

运行例程命令如下所示：

结果图片如下所示：

API的详细说明，以及API的调用（本例程源码），详细信息见下方说明。

3. OCR文字识别API说明

3.1 引用方式

为方便客户在本地工程中直接调用我们的EASY EAI api库，此处列出工程中需要链接的库以及头文件等，方便用户直接添加。

选项	描述
头文件目录	easyeai-api/algorithm/ocr
库文件目录	easyeai-api/algorithm/ocr
库链接参数	-locr

3.2 OCR检测初始化函数

设置OCR检测初始化函数原型如下所示。

int ocr_det_init(const char* model_path, rknn_app_context_t* app_ctx);

具体介绍如下所示。

函数名： ocr_det_init
头文件	ocr.h
输入参数	model_path：算法模型名字/路径
输入参数	app_ctx：算法模型句柄
返回值	成功返回：0
返回值	失败返回：-1
注意事项	无

3.3 OCR检测运行函数

设置OCR检测运行原型如下所示。

int ocr_det_run(rknn_app_context_t* app_ctx, cv::Mat input_image, ocr_det_postprocess_params* params, ocr_det_result* out_result);

具体介绍如下所示。

函数名：ocr_det_run
头文件	ocr.h
输入参数	app_ctx：算法模型句柄
输入参数	input_image：Cv::Mat输入图像
输入参数	params：ocr检测算法参数
输出参数	out_result：返回结果
返回值	成功返回：0
返回值	失败返回：-1
注意事项	无

3.4 OCR检测释放函数

设置OCR检测释放原型如下所示。

int ocr_det_release(rknn_app_context_t* app_ctx);

具体介绍如下所示。

函数名：ocr_det_release
头文件	ocr.h
输入参数	app_ctx：算法模型句柄
返回值	成功返回：0
返回值	失败返回：-1
注意事项	无

3.5 OCR识别初始化函数

OCR识别初始化函数原型如下所示。

int ocr_rec_init(const char* model_path, rknn_app_context_t* app_ctx);

具体介绍如下所示。

函数名：ocr_rec_init
头文件	ocr.h
输入参数	model_path：算法模型名字/路径
输入参数	app_ctx：算法模型句柄
返回值	成功返回：0
返回值	失败返回：-1
注意事项	无

3.6 OCR识别运行函数

OCR识别运行函数原型如下所示。

int ocr_rec_run(rknn_app_context_t* app_ctx, cv::Mat input_image, ocr_rec_result* out_result);

具体介绍如下所示。

函数名：ocr_rec_run
头文件	ocr.h
输入参数	app_ctx：算法模型句柄
输入参数	input_image:输入图像
输出参数	out_result：返回结果
返回值	成功返回：0
返回值	失败返回：-1
注意事项	无

3.7 OCR识别释放函数

OCR识别释放函数原型如下所示。

int ocr_rec_release(rknn_app_context_t* app_ctx);

具体介绍如下所示。

函数名：ocr_rec_release
头文件	ocr.h
输入参数	app_ctx：算法模型句柄
返回值	成功返回：0
返回值	失败返回：-1
注意事项	无

4. OCR检测算法例程

例程目录为Demos/algorithm-ocr/test-ocr.cpp，操作流程如下。

#include < opencv2/opencv.hpp >
#include < stdio.h >
#include < sys/time.h >
#include"ocr.h"

using namespace cv;
using namespace std;

#define INDENT "    "
#define THRESHOLD 0.3 // pixel score threshold
#define BOX_THRESHOLD 0.9 // box score threshold
#define USE_DILATION false // whether to do dilation, true or false
#define DB_UNCLIP_RATIO 1.5 // unclip ratio for poly type

int main(int argc, char **argv)
{
	if (argc != 2) {
		printf("%s < image_path >n", argv[0]);
		return -1;
	}
	/* 参数初始化 */
	const char *img_path = argv[1];
	Mat input_image, rgb_img;
	input_image = imread(img_path);
	if (input_image.empty()) {
		cout < < "Error: Could not load image" < < endl;
		return -1;
	}

	cv::cvtColor(input_image, rgb_img, COLOR_BGR2RGB);

	rknn_app_context_t ocr_det_ctx, ocr_rec_ctx;
	memset(&ocr_det_ctx, 0, sizeof(rknn_app_context_t));
	memset(&ocr_rec_ctx, 0, sizeof(rknn_app_context_t));

	/* OCR算法检测模型&识别模型初始化 */
	ocr_det_init("ocr-det.model", &ocr_det_ctx);
	ocr_rec_init("ocr-rec.model", &ocr_rec_ctx);  

	struct timeval start;
    struct timeval end;
    float time_use=0;

	/* OCR算法检测模型运行 */
	ocr_det_result results;
    ocr_det_postprocess_params params;
    params.threshold = THRESHOLD;
    params.box_threshold = BOX_THRESHOLD;
    params.use_dilate = USE_DILATION;
    params.db_score_mode = (char*)"slow";
    params.db_box_type = (char*)"poly";
    params.db_unclip_ratio = DB_UNCLIP_RATIO;

	gettimeofday(&start,NULL); 
	int ret;
    ret = ocr_det_run(&ocr_det_ctx, rgb_img, ¶ms, &results);
    if (ret != 0) {
        printf("inference_ppocr_rec_model fail! ret=%dn", ret);
    }

    gettimeofday(&end,NULL);
    time_use=(end.tv_sec-start.tv_sec)*1000000 (end.tv_usec-start.tv_usec);//微秒
    printf("time_use is %fn",time_use/1000);

	/* 截取文字信息和画框 */
    printf("DRAWING OBJECTn");
    for (int i = 0; i < results.count; i  )
    {
        printf("[%d]: [(%d, %d), (%d, %d), (%d, %d), (%d, %d)] %fn", i,
            results.box[i].left_top.x, results.box[i].left_top.y, results.box[i].right_top.x, results.box[i].right_top.y, 
            results.box[i].right_bottom.x, results.box[i].right_bottom.y, results.box[i].left_bottom.x, results.box[i].left_bottom.y,
            results.box[i].score);

        line(input_image, Point(results.box[i].left_top.x, results.box[i].left_top.y), Point(results.box[i].right_top.x, results.box[i].right_top.y),
             Scalar(0, 255, 0), 1, LINE_AA);
        line(input_image, Point(results.box[i].right_top.x, results.box[i].right_top.y), Point(results.box[i].right_bottom.x, results.box[i].right_bottom.y), 
             Scalar(0, 255, 0), 1, LINE_AA);
        line(input_image, Point(results.box[i].right_bottom.x, results.box[i].right_bottom.y), Point(results.box[i].left_bottom.x, results.box[i].left_bottom.y), 
             Scalar(0, 255, 0), 1, LINE_AA);
        line(input_image, Point(results.box[i].left_bottom.x, results.box[i].left_bottom.y), Point(results.box[i].left_top.x, results.box[i].left_top.y), 
             Scalar(0, 255, 0), 1, LINE_AA);

		cv::Mat rgb_crop_image = GetRotateCropImage(rgb_img, results.box[i]);

		/* OCR算法识别模型运行 */
		ocr_rec_result rec_results;
		ocr_rec_run(&ocr_rec_ctx, rgb_crop_image, &rec_results);

		// print text result
    		printf("regconize result: %s, score=%fn", rec_results.str, rec_results.score);
    }
    cv::imwrite("result.jpg", input_image);




	return 0;
}

审核编辑 黄宇

板卡板卡关注
关注
3
文章
131
浏览量
17085

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

基于RK3576开发板的OCR文字识别算法

相关阅读

ai资讯推荐

最新资讯