图像输入是什么?它们在 ChatGPT 中如何工作?